ES2319433T3

ES2319433T3 - Procedimientos para cambiar el tamaño de una memoria de almacenamiento temporal de fluctuacion y para el alineamiento temporal, sistema de comunicaciones, fin de la recepcion y transcodificador.

Info

Publication number: ES2319433T3
Application number: ES05004865T
Authority: ES
Inventors: Antti Kurittu; Olli Kirla
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2001-04-24
Filing date: 2001-04-24
Publication date: 2009-05-07
Anticipated expiration: 2021-04-24
Also published as: EP1382143A2; WO2002087137A2; AU2001258364A1; EP1536582A3; ATE353503T1; WO2002087137A3; DE60137656D1; EP1536582B1; DE60126513T2; DE60126513D1; EP1536582A2; ES2280370T3; US20040120309A1; ATE422744T1; EP1382143B1

Abstract

Un procedimiento para llevar a cabo un alineamiento temporal en un transcodificador de un sistema de comunicaciones radio, cuyo alineamiento temporal se usa para disminuir un retardo de almacenamiento temporal, el mencionado retardo temporal resultante del almacenamiento temporal de los datos de voz codificados por el mencionado transcodificador antes de transmitir los mencionados datos de voz sobre una interfaz radio del mencionado sistema de comunicaciones radio con el fin de compensar un desplazamiento de fase en una estructura de tramas de los mencionados datos de voz en el mencionado transcodificador y en la mencionada interfaz radio, comprendiendo el procedimiento: - determinar si se tiene que llevar a cabo un alineamiento temporal; y - en el caso de que se determine que se tiene que llevar a cabo un alineamiento temporal, condensar los datos de voz para conseguir el alineamiento de tiempo requerido por medio de descartar al menos una trama de los datos de voz, en el que los parámetros de la ganancia y los coeficientes de codificación predictiva lineal de tramas de los datos de voz que rodean a la al menos una trama descartada son modificados para combinar de manera gradual las tramas que rodean la al menos una trama descartada.

Description

Procedimientos para cambiar el tamaño de una memoria de almacenamiento temporal de fluctuación y para el alineamiento temporal, sistema de comunicaciones, fin de la recepción y transcodificador.

Campo de la invención

La invención se refiere a un procedimiento para llevar a cabo un alineamiento temporal en un transcodificador de un sistema de comunicaciones radio, cuyo alineamiento temporal se usa para disminuir un retardo de memoria de almacenamiento temporal, el mencionado retardo de memoria de almacenamiento temporal siendo resultado del almacenamiento temporal de datos de voz codificados por el mencionado transcodificador antes de transmitir los mencionados datos de voz sobre una interfaz radio del mencionado sistema de comunicaciones radio con el fin de compensar un desplazamiento de fase en una estructura de tramas de los mencionados datos de voz en el mencionado transcodificador y en la mencionada interfaz radio. Además, la invención se refiere a dicho sistema de comunicaciones y a un transcodificador para un sistema de comunicaciones radio y a un aparato.

Antecedentes de la invención

Un ejemplo de una red por paquetes es una red de voz sobre IP (VoIP).

La telefonía IP o la voz sobre IP (VoIP) hace posible a los usuarios transmitir señales de audio, como la voz, sobre el protocolo de Internet. El envío de voz por Internet se hace por medio de la inserción de muestras de voz o de voz comprimida dentro de paquetes. Los paquetes son entonces encaminados de manera independiente unos de los otros a su destino de acuerdo con la dirección IP incluida en cada uno de los paquetes.

Una desventaja en la telefonía IP es la disponibilidad y el funcionamiento de redes. Aunque las redes locales podrían ser estables y previsibles, Internet a menudo está congestionada y no existen garantías de que los paquetes no se pierdan o se retrasen de manera significativa. Los paquetes perdidos o los retardos largos tienen un efecto inmediato sobre la calidad de la voz, en la reciprocidad y en el ritmo de la conversación.

Debido al encaminamiento independiente de los paquetes, los paquetes además tardan tiempos variables en atravesar la red. La variación en los tiempos de llegada de los paquetes se denomina fluctuación. Para reproducir la voz en el extremo de recepción de manera correcta, sin embargo, los paquetes deben estar en el orden de transmisión y espaciados de manera equidistante. Para conseguir este requisito se puede emplear una memoria de almacenamiento temporal de fluctuación. La memoria de almacenamiento temporal de fluctuación puede estar situada antes o después de un descodificador usado en el extremo de recepción para la descodificación de la voz que fue descodificada para la transmisión. En la memoria intermedia de fluctuación, el orden correcto de los paquetes se puede asegurar entonces por medio de la comprobación de los números de secuencia contenidos en los paquetes. Las consignas de tiempo igualmente contenidas se pueden usar de manera adicional para determinar el nivel de fluctuación de la red y para compensar la fluctuación en la reproducción.

El tamaño de la memoria intermedia de fluctuación, sin embargo, tiene un efecto contrario sobre el número de paquetes que se pierden y sobre el retardo extremo a extremo. Si la memoria intermedia de fluctuación es muy pequeña, se pierden muchos paquetes porque han llegado después de su punto de reproducción. Por otra parte, si la memoria intermedia de fluctuación es muy grande, aparece un retardo extremo a extremo excesivo. Ambos, tanto la pérdida de paquetes como el retardo extremo a extremo, tienen un efecto sobre la calidad de la voz. Por lo tanto, el tamaño de la memoria de almacenamiento temporal de fluctuación no tiene resultado en un valor aceptable para ambos, la pérdida de paquetes y el retardo. Como ambos pueden variar con el tiempo, se tienen que emplear las memorias de almacenamiento temporal de fluctuación adaptables con el fin de poder garantizar de manera continua un buen compromiso para los dos factores. El tamaño de una memoria de almacenamiento temporal de fluctuación adaptable se puede cambiar en base a los retardos medidos de los paquetes de voz recibidos y de las varianzas de retardo medidas entre los paquetes de voz recibidos.

Procedimientos conocidos ajustan el tamaño de la memoria de almacenamiento temporal de fluctuación al comienzo de un chorro de voz. Al comienzo de un chorro de voz y por lo tanto al final de una pausa en la voz, la voz reproducida no se ve afectada por el ajuste del tamaño de la memoria de almacenamiento temporal de fluctuación. Esto quiere decir, sin embargo, que se tiene que retrasar un ajuste hasta que ocurra un comienzo de un chorro de voz y que se necesite un detector de actividad de voz (VAD). Dichos procedimientos se describen por ejemplo, en "An algorithm for playout of packet voice based on adaptive adjustment of talkspurt silence periods", LCN '99, Conferencia sobre Redes de Ordenadores Locales, 1999, páginas 224 a la 231, de J. Pinto y de K. J. Christensen, y en "Adaptive playout mechanisms for packetized audio applications in wide-area networks", INFOCOM '94, 13ª Actas IEEE Trabajo en Red para Comunicaciones Globales, 1994, páginas 680 a 688, vol. 2, de R. Ramjee, J. Kurose, D. Towsley y H. Schulzrinne.

Un problema similar con las memorias de almacenamiento temporal de fluctuación puede surgir, por ejemplo, en voz sobre redes ATM.

\newpage

Un problema similar puede surgir además durante el alineamiento temporal en GSM (sistema global para comunicaciones móviles) o sistemas 3G (de tercera generación). En los sistemas de comunicaciones radio como GSM o en un sistema 3G, la interfaz radio requiere una fuerte sincronización entre la transmisión de enlace ascendente y la transmisión de enlace descendente. Sin embargo, al inicio de la llamada o después de un traspaso, el desplazamiento de fase inicial entre la estructura en tramas de enlace ascendente y enlace descendente en un transcodificador usado sobre el lado de red para la codificación de datos para las transmisiones de enlace descendente y para la descodificación de datos a partir de las transmisiones de enlace ascendente es diferente del correspondiente desplazamiento de fase en la interfaz radio. Este desplazamiento de fase también se puede ver en el desplazamiento de fase solamente de la estructura de tramas de enlace descendente en el transcodificador y en una interfaz radio del sistema de comunicaciones radio. Por lo tanto, se necesita una memoria de almacenamiento temporal de enlace descendente para conseguir una correcta sincronización para la interfaz radio, cuya memoria de almacenamiento temporal está incluida en GSM en una estación base y en redes 3G en un controlador de red radio (RNC) del sistema de comunicaciones. El almacenamiento temporal conduce a un retardo adicional de hasta una trama de voz en la estación base en la dirección de enlace descendente. Para minimizar este retardo de almacenamiento temporal, se puede utilizar un procedimiento de alineamiento temporal en el lado de red. El alineamiento temporal se usa para alinear el desplazamiento de fase en la estructura de trama del transcodificador y de esta manera minimizar el retardo de almacenamiento temporal después de un establecimiento de llamada o de un traspaso. Durante el alineamiento temporal, la estación base o el controlador de red radio solicita al transcodificador llevar a cabo un alineamiento temporal deseado. En el alineamiento temporal, el instante de tiempo de transmisión de una trama de voz codificada y las siguientes tramas necesitan ser adelantadas o retrasadas. Por lo tanto, la ventana (una trama de voz) de la memoria de almacenamiento temporal de entrada de muestras lineales antes del codificador se tiene que desplazar en la dirección deseada en una cantidad de muestras solicitadas por la estación base. En el momento actual, se lleva a cabo un alineamiento temporal por medio de arrojar o repetir muestras de voz, lo que conduce a un deterioro de la calidad de la voz.

La patente de los Estados Unidos 5.664.044 pretende proporcionar un sistema y un procedimiento para permitir la reproducción sincronizada controlada por el usuario a velocidad variable de una presentación de audio/vídeo existente grabada en formato digital. El flujo de datos digitales es un flujo de datos de audio/vídeo comprimido tal como el que se especifica en la norma MPEG. En una realización, el usuario controla directamente la velocidad de la reproducción de vídeo por medio de la configuración de un factor de escala de vídeo. La longitud de tiempo necesaria para reproducir una trama de de audio se ajusta entonces de manera automática usando el procedimiento de escalado armónico en el dominio del tiempo de forma que se adapte de manera aproximada a la longitud de tiempo en el que se visualiza una trama de vídeo. El número de tramas de audio digital comprimido en una memoria de almacenamiento temporal de audio se supervisa y se ajusta el factor de escala armónico en el dominio del tiempo de manera continua durante la reproducción para asegurar que la memoria intermedia de audio no se desborda o se infradesborda. Un estado de infradesbordamiento o de desbordamiento en la memoria intermedia de almacenamiento temporal de audio causalmente provocaría una pérdida de la sincronizacion entre el audio y el vídeo.

Sumario de la invención

Es un objeto de la invención mejorar el alineamiento temporal en los sistemas de comunicaciones por radio.

Este objeto se alcanza por una parte con un procedimiento para llevar a cabo un alineamiento temporal en un transcodificador de un sistema de comunicaciones radio, cuyo tiempo de alineamiento se usa para disminuir un retardo en la memoria de almacenamiento temporal, el mencionado retardo en la memoria de almacenamiento temporal siendo el resultado del almacenamiento temporal de los datos de voz codificados por el mencionado transcodificador antes de transmitir los mencionados datos de voz sobre una interfaz radio del mencionado sistema de comunicaciones radio con el fin de compensar un desplazamiento de fase en una estructura de tramas de los mencionados datos de voz por parte del mencionado transcodificador y por la mencionada interfaz radio. Primeramente, se determinó si se ha llevado a cabo un alineamiento temporal.

En el caso en el que se determine que se ha llevado a cabo un alineamiento temporal, los datos de voz se condensan para conseguir el alineamiento temporal requerido por medio del descarte de al menos una trama de los datos de voz. Los parámetros de ganancia y los coeficientes de codificación predictiva lineales (LPC) de tramas de datos de voz que rodean a la al menos una trama descartada son además modificados para combinar de manera gradual las tramas que rodean la al menos una trama descartada.

El objeto de la invención se alcanza por otra parte con un sistema de comunicaciones radio que comprende al menos una interfaz radio para la transmisión de datos de voz codificados y al menos un transcodificador. Dicho transcodificador incluye al menos un codificador para codificar los datos de voz para su uso para una transmisión a través de la mencionada interfaz radio. El transcodificador incluye de manera adicional un medio de procesado para llevar a cabo un alineamiento temporal sobre las muestras de voz codificadas de acuerdo con el procedimiento propuesto. El sistema de comunicaciones radio comprende además un medio de almacenamiento temporal dispuesto entre la mencionada interfaz radio y el mencionado transcodificador para el almacenamiento temporal de datos de voz codificados por el mencionado transcodificador antes de la transmisión de los mencionados datos de voz codificados a través de la mencionada interfaz radio con el fin de compensar un desplazamiento de fase en una estructura de tramas de los mencionados datos de voz por parte del mencionado transcodificador y por parte de la mencionada interfaz radio. Finalmente, el sistema de comunicaciones radio comprende un medio de procesado para determinar si y hasta qué extensión las muestras de voz codificadas por el mencionado codificador tienen que ser alineadas temporalmente antes de la transmisión con el fin de minimizar un retardo de memoria de almacenamiento temporal para los datos de voz codificados resultantes de un almacenamiento temporal por el mencionado medio de almacenamiento temporal. El objeto de la invención se alcanza de igual manera con dicho transcodificador para un sistema de comunicaciones radio.

La invención se basa en la idea de que el alineamiento de tiempo en un transcodificador de un sistema de comunicaciones radio se podría conseguir con menos efecto sobre las muestras de voz codificadas, si no se lleva a la práctica simplemente arrojando o repitiendo muestras de voz, sino más bien por medio de la compensación del alineamiento temporal de una manera más sofisticada que dé como resultado menos efecto en la calidad de los datos de voz. La compensación propuesta de un alineamiento de tiempo asegura solamente transiciones graduales dentro de los datos de voz alineados. De esta manera, es una ventaja de la invención que hace posible de una manera sencilla un alineamiento temporal mejorado.

Se ha de hacer notar que expresado de manera estricta el desplazamiento de fase mencionado se refiere a la diferencia temporal del envío y la recepción del primer bit de datos de una trama sobre un enlace ascendente frente a un enlace descendente, es decir, cómo se alinean las tramas de datos en el tiempo en un punto de observación en diferentes direcciones de transmisión. Para GSM, por ejemplo, inicialmente esta diferencia de tiempo no es igual entre interfaces radio e interfaces abis. Después del alineamiento temporal, la diferencia de tiempo debería ser casi igual, es decir, mínimo almacenamiento temporal.

Resulta obvio que la invención se basa en el cambio de la cantidad de datos de audio disponibles en el momento presente en base a estos datos de audio existentes de forma que se pueda conseguir un cambio necesario sin un deterioro severo de los datos de audio durante la transmisión en curso.

La invención se puede emplear en particular, aunque no de manera exclusiva, en una pasarela de medios, así como también en alineamientos GSM y en alineamientos de tiempo 3G.

Breve descripción de las figuras

A continuación, la explicación se explica con más detalle con referencia a los dibujos, de los cuales,

La figura 1 ilustra el principio de tres enfoques para el cambio del tamaño de memoria de almacenamiento temporal de fluctuación;

La figura 2 muestra diagramas que ilustran un aumento en el tamaño de la memoria de almacenamiento temporal de fluctuación de acuerdo con primer enfoque en base a un procedimiento para el manejo de una trama mala;

La figura 3 muestra diagramas que ilustran una disminución en el tamaño de la memoria intermedia de fluctuación de acuerdo con el primer enfoque;

La figura 4 muestra diagramas que ilustran el principio de un escalado de tiempo en el dominio del tiempo de acuerdo con un segundo enfoque;

La figura 5 es un diagrama de flujo del segundo enfoque;

La figura 6 muestra diagramas que ilustran de manera adicional el segundo enfoque;

La figura 7 muestra diagramas que ilustran el principio de un tercer enfoque de un tercer escalado en el tiempo en el dominio de la frecuencia;

La figura 8 es un diagrama de flujo del tercer enfoque;

La figura 9 muestra señales de memoria de almacenamiento temporal de fluctuación antes y después del escalado de tiempo de acuerdo con el tercer enfoque;

La figura 10 es un diagrama de flujo que ilustra un cuarto enfoque que cambia un tamaño de memoria de almacenamiento temporal de fluctuación en el dominio paramétrico;

La figura 11 muestra de manera esquemática una parte de un primer sistema;

La figura 12 muestra de manera esquemática una parte de un segundo sistema; y

La figura 13 muestra de manera esquemática una parte de un tercer sistema; y

La figura 14 muestra de manera esquemática un sistema de comunicaciones en el que se puede emplear un alineamiento temporal de acuerdo con la invención.

Descripción detallada de la invención

En el lado izquierdo de la figura 1, se muestra un incremento de un flujo de paquetes, mientras que en el lado izquierdo, se muestra una disminución de un flujo de paquetes. La parte superior de la figura muestra para ambos casos flujos originales, la parte intermedia para ambos casos de flujos tratados de acuerdo de acuerdo con un primer enfoque y la parte inferior para ambos casos de flujos tratados de acuerdo con un segundo o un tercer enfoque.

En la parte superior izquierda de la figura 1, se indica un primer flujo de paquetes con ocho paquetes originales 1 al 8 que incluyen datos de voz. Este flujo de paquetes está contenido en una memoria de almacenamiento temporal de fluctuación de un extremo de recepción en una red de voz sobre IP antes de que sea necesario un aumento del tamaño de la memoria de almacenamiento temporal de fluctuación. En la parte superior derecha de la figura 1, se indica un segundo flujo de paquetes con nueve paquetes 9 al 17 incluyendo datos de voz. Estos flujos de paquetes están contenidos en una memoria de almacenamiento temporal de fluctuación de un extremo de recepción en una red de voz sobre IP antes de que sea necesaria una disminución del tamaño de la memoria de almacenamiento temporal de fluctuación.

En el lado izquierdo en la parte media de la figura 1, se muestra el primer flujo de paquetes después de un incremento del tamaño de memoria de almacenamiento temporal de fluctuación. El tamaño de la memoria de almacenamiento temporal de fluctuación se aumento por medio de proporcionar un espacio vacío de la longitud de un paquete entre el paquete original 4 y el paquete original 5 del flujo de paquetes en la memoria de almacenamiento temporal de fluctuación. Este espacio vacío se rellena por medio de un paquete 18 generado de acuerdo con manejo de trama mala BFH como se define en el códec ITU-T G.711 anteriormente mencionado, el espacio vacío siendo simplemente considerado como un paquete vacío. El tamaño del flujo original se expande de esta manera en la longitud de un paquete.

En el lado derecho en la parte media de la figura 1, en contraste, se muestra el segundo flujo de paquetes después de una disminución del tamaño de la memoria de almacenamiento temporal de fluctuación. Se realiza en la primera aproximación descrita por medio del solapamiento de dos paquetes consecutivos, en este ejemplo, el paquete original 12 y el paquete original 13 del segundo flujo de paquetes. El solapamiento reduce el número de muestras de voz contenidas en la memoria de almacenamiento temporal de fluctuación en la longitud de un paquete, cuyo tamaño puede reducirse de esta manera en la longitud de un paquete.

En el lado izquierdo en la parte inferior de la figura 1, el primer flujo de paquetes se muestra de nuevo después de un aumento del tamaño de la memoria de almacenamiento temporal de fluctuación lo que da como resultado un espacio vacío de la longitud de un paquete entre los paquetes originales 4 y 5 del primer flujo de paquetes. Esta vez, sin embargo, los paquetes originales 4 y 5 estaban escalados en el tiempo en el dominio del tiempo o en el dominio de la frecuencia de acuerdo con una segunda o con una tercera aproximación con el fin de rellenar el espacio vacío resultante. Esto quiere decir que los datos de los paquetes originales 4 y 5 fueron expandidos para rellenar el espacio de tres en lugar de dos paquetes. El tamaño del flujo original fue expandido de esta manera en la longitud de un paquete.

En el lado derecho en la parte inferior de la figura 1, finalmente, se muestra el segundo flujo de paquetes de nuevo después de una disminución del tamaño de memoria intermedia de fluctuación. La disminución correspondiente del flujo de datos se realizó de acuerdo con la segunda o con la tercera aproximación por medio del escalado de tiempo de los datos de los tres paquetes originales respecto de la longitud de dos paquetes. En el ejemplo que se presenta, los datos de los paquetes originales 12 al 14 del segundo flujo de paquetes se condensaron a la longitud de dos paquetes. El tamaño del flujo original se redujo de esta manera en la longitud de un paquete.

El aumento y la disminución del tamaño de la memoria intermedia de fluctuación de acuerdo con la primera aproximación se explicarán ahora con detalle con referencia a las figuras 2 y 3.

La figura 2 está tomada del apéndice de la especificación ITU-T G.711, en el que se usa para la ilustración de ocultación de paquetes perdidos, mientras que aquí se usa para ilustrar la primera aproximación, en la que se llama al gestor de trama mala ITU-T entre paquetes adyacentes para compensar un aumento del tamaño de la memoria de almacenamiento temporal de fluctuación.

La figura 2 muestra tres diagramas que representan la amplitud de las señales sobre el número de muestra de las señales. En el primer diagrama se muestra la entrada de las señales a la memoria de almacenamiento temporal de fluctuación, mientras que un segundo y un tercer diagrama muestran voz sintetizada en dos puntos diferentes en el tiempo. Los diagramas ilustran cómo se aumenta el tamaño de la memoria de almacenamiento temporal de fluctuación de acuerdo con el primer enfoque correspondiente a una gestión de trama mala presentada en el anteriormente citado códec ITU-T G.711. Como se ha mencionado con anterioridad, la citada norma describe un procedimiento de ocultación de pérdida de paquetes para el códec ITU-T G.711 en base a la forma de onda de réplica de tono.

El tamaño de los paquetes empleados en esta aproximación es de 20 ms, que corresponde a 160 muestras. El BFH se modificó para poder usar paquetes de 20 ms.

Los paquetes llegados así como los paquetes sintetizados son guardados en una memoria de almacenamiento temporal de historial de una longitud de 390.

Después de un aumento del tamaño de la memoria de almacenamiento temporal de fluctuación en la longitud de dos paquetes, existe un espacio vacío en la memoria de almacenamiento temporal de fluctuación correspondiente a los dos paquetes perdidos, indicado por el primer diagrama de la figura 2 por medio de una línea horizontal que conecta las señales recibidas. Al inicio de cada espacio vacío, los contenidos de la memoria de almacenamiento temporal de historial son copiados a una memoria de almacenamiento temporal de tonos que se usa por todo el espacio vacío para encontrar una forma de onda sintética que pueda ocultar el espacio vacío. En la situación del primer diagrama, las muestras que están a la izquierda de los dos paquetes vacíos, es decir, las muestras que hayan llegado antes del aumento del tamaño, forman el contenido actual de la memoria de almacenamiento temporal de tonos.

Se usa un procedimiento de correlación cruzada ahora para calcular una estimación de período de tono a partir de la memoria de almacenamiento temporal de tonos. Como se ilustra en el segundo diagrama de la figura 2, el primer paquete vacío es entonces sustituido por medio de la réplica de la forma de onda que comienza una longitud de período de tono de nuevo desde el final de la memoria de almacenamiento temporal de historial, indicada con una línea vertical a la que se hace referencia por medio de 21, en el número requerido. Para asegurar una transición gradual entre la voz real y la voz sintetizada, así como entre las formas de onda de longitud de onda del período de tono repetido, las últimas 30 muestras de la memoria de almacenamiento temporal de historial, en la región limitada por una vertical y una línea inclinada a la que se hace referencia por medio de 22 en el primer diagrama, se suman solapadas con las 30 muestras que preceden a la forma de onda sintética en la región limitada por la línea vertical 21 y una línea inclinada conectada. La señal solapada sustituye a las últimas 30 muestras 22 en la memoria de almacenamiento temporal de tonos. Este procedimiento de adición de solapamiento provoca un retardo algorítmico de 3,75 ms, o de 30 muestras. De la misma manera, se asegura una transición gradual entre formas de onda de longitud de período de tono
repetidas.

La forma de onda sintética además se amplía más allá de la duración de paquetes vacíos para asegurar una transición gradual entre la forma de onda sintética y la señal recibida con posterioridad. La longitud de la extensión 23 es de 4 ms. Al final del espacio vacío, la extensión se eleva en 4 ms por paquete vacío añadido. La longitud de extensión máxima es de 10 ms. Al final del espacio vacío esta extensión se solapa con la señal del primer paquete después del espacio vacío, estando indicada la región de solape en la figura con la línea inclinada 25. El segundo diagrama de la figura 2 ilustra el estado de la señal sintentizada después de 10 ms, cuando se hayan replicado las muestras de una longitud de paquete.

En el caso de que haya un segundo paquete vacío añadido, como en el primer diagrama de la figura 2, se añade otro período de tono a la memoria de almacenamiento temporal de tonos. Ahora, la forma de onda que vaya a ser replicada es de dos períodos de tono de longitud y comienza desde la línea vertical a la que se hace referencia por 24. A continuación, las 30 muestras 24 anteriores a la memoria de almacenamiento temporal de tonos se solapan añadidas con las últimas 30 muestras 22 en la memoria de almacenamiento temporal de tonos. Una vez más, la señal solapada sustituye a las 30 últimas muestras de la región 22 en la memoria de almacenamiento temporal de tonos. Se asegura una transición gradual entre una y dos señales de longitud de período de tono por medio de la realización de la adición de un solapamiento entre las regiones indicadas por 23 y 26. La región 26 se coloca por medio de la sustracción de períodos de tonos hasta que el puntero de tonos esté en la primera longitud de onda de la parte actualmente usada de la memoria de almacenamiento temporal de tonos. El resultado de la adición de solapamientos sustituye a las muestras de la región 23. El tercer diagrama de la figura 2 muestra la señal sintetizada en la que se ocultó un espacio vacío de la longitud de dos paquetes añadido para un incremento en el tamaño de la memoria de almacenamiento temporal de fluctuación.

Si se aumenta el tamaño de la memoria de almacenamiento temporal de fluctuación, se añadiría otro período de tono a la memoria de almacenamiento temporal de tonos. Sin embargo, si el aumento en el tamaño de la memoria de almacenamiento temporal de fluctuación es grande, es más probable que la señal de sustitución falsifique a la señal original. Se usa atenuación para disminuir este problema. El primer paquete de sustitución no se atenúa. El segundo paquete se atenúa con una rampa lineal. El extremo del paquete se atenúa en un 50 % en comparación al inicio con el tamaño de paquete usado de 20 ms. Esta atenuación también se usa para los siguientes paquetes. Esto quiere decir que después de 3 paquetes (60 ms) la amplitud de la señal es de cero.

De manera similar, los procedimientos de manejo de trama mala de los codificadores de voz paramétricos se pueden emplear para compensar un incremento del tamaño de la memoria de almacenamiento temporal de fluctuación.

La figura 3 ilustra cómo se disminuye el tamaño de memoria de almacenamiento temporal de fluctuación de acuerdo con la primera aproximación por medio del solapamiento de dos paquetes adyacentes. Para este fin, la figura muestra tres diagramas que representan la amplitud de las señales con el número de muestra de las señales.

El primer diagrama de la figura 3 muestra las señales de cuatro paquetes 31 al 34 almacenados en ese momento en una memoria de almacenamiento temporal de fluctuación antes de una disminución en el tamaño, cada uno de los paquetes conteniendo 160 muestras. Ahora, el tamaño de la memoria de almacenamiento temporal de fluctuación va a ser disminuida en un paquete. Para este fin, se multiplican dos paquetes adyacentes 32, 33 con una función de rampa de bajada 36 y una función de rampa de subida 37 respectivamente, como se indica en el primer diagrama. Después, los paquetes multiplicados 32, 33 de las señales son solapados, lo que se muestra en el segundo diagrama de la figura 3. Finalmente, la parte solapada de la señal 32/33 se añade como se muestra en el tercer diagrama de la figura 3, el cuarto paquete estando ahora formado por el paquete 35 siguiente al cuarto paquete original 34. El resultado de la adición de solapamiento es una señal que comprende un paquete menos que la señal original, y este paquete eliminado hace posible una disminución del tamaño de la memoria de almacenamiento temporal de fluctuación.

Cuando el tamaño de la memoria de almacenamiento temporal de fluctuación vaya a ser decrementado en más de un paquete a la vez, ningún paquete adyacente sino paquetes separados se adicionan solapados, y se descartan los paquetes entre ellos. Por ejemplo, si el tamaño de la memoria de almacenamiento temporal de fluctuación va a ser cambiado de tres paquetes a uno, el primer paquete de la memoria de almacenamiento temporal de fluctuación se añade solapado con el tercer paquete de la memoria de almacenamiento temporal de fluctuación como se describe para los paquetes 32 y 33 con referencia a la figura 3, y el segundo paquete se descarta.

En un segundo enfoque, un aumento y una disminución inmediatos de un tamaño de memoria de almacenamiento temporal de fluctuación es habilitada por medio de un procedimiento de escalado en el tiempo en el dominio del tiempo, y de manera más particular por medio de una forma de un procedimiento de adición de solapamiento de similitud de forma de onda (WSOLA) descrito en el documento anteriormente mencionado "una técnica de solapamiento - adición basada en la similitud de la forma de onda (WSOLA) para la modificación de escala de tiempo de alta calidad de la voz".

El procedimiento WSOLA se ilustra para un escalado de tiempo de ejemplo resultante de una reducción de muestras de una señal de la figura 4, que comprende en la parte superior una forma de onda original x(n) y en la parte inferior una forma de onda sintética y(n) construida con valores adecuados de la forma de onda original x(n). n indica la muestra respectiva de las señales. El procedimiento WSOLA se basa en la construcción de una forma de onda sintética que mantenga una similitud local máxima con la señal original. La forma de onda sintética y(n) y la forma de onda original x(n) tienen una similitud máxima alrededor de tiempos especificados por una función de distorsión en el tiempo \tau^{-1}(n).

En la figura 4, el segmento de entrada 41 de la forma de onda original x(n) fue el último segmento cortado de la forma de onda original x(n). Este segmento 41 es el último segmento que fue añadido como un segmento de síntesis A a la forma de onda sintetizada y(n). El segmento A fue solapado - añadido a la señal de salida y(n) en el instante de tiempo S_{k-1} = (k-1)S, siendo S el intervalo entre segmentos en la señal sintetizada y(n).

El siguiente segmento de síntesis B va a ser cortado a partir de la señal de entrada x(n) en torno al instante de tiempo \tau^{-1}(S_{k}), y el solapamiento es añadido a la señal de salida y(n) en el instante S_{k} = kS. Como se puede ver en la figura, el segmento 41' de la señal de entrada x(n) se solaparía perfectamente con el segmento 41 de la señal de entrada x(n). El segmento 41' se usa por lo tanto como una plantilla cuando se elige un segmento 42 en torno a un instante de tiempo \tau^{-1}(S_{k}) de la señal de entrada x(n) que va a ser usada como un siguiente segmento de sintaxis B. Se calcula una medida de similitud entre el segmento 41' y el segmento 42 para encontrar el valor de desplazamiento óptimo \Delta que maximiza la similitud entre los segmentos. El siguiente segmento de síntesis B se selecciona de esta manera por medio de encontrar la mejor coincidencia 42 para la plantilla 41' en torno al instante de tiempo \tau^{-1}(S_{k}). La mejor coincidencia debe estar dentro del intervalo de tolerancia de \Delta, cuyo intervalo de tolerancia cae entre un \Deltamin mínimo predeterminado y un valor \Deltamax máximo predeterminado. Después del solape - adición del segmento de síntesis 42 a la señal de salida como segmento B, el segmento 42' de la señal de entrada x(n) se usa como la siguiente plantilla.

El procedimiento WSOLA usa instantes de síntesis regularmente espaciados S_{k} = kS. La longitud de la ventana de análisis y de síntesis es constante. Si la ventana de análisis/síntesis se elige de manera tal que,

1

y si la ventana de análisis/síntesis es simétrica, la ecuación de síntesis para el procedimiento WSOLA es

2

Por medio de la selección de una función de distorsión de tiempo diferente, se puede emplear el mismo procedimiento no solamente para reducir las muestras de una señal, sino también para aumentar la cantidad de muestras de una señal.

Es importante que la transición desde la señal original a la señal escalada en el tiempo sea gradual. Además, el período de tono no debería cambiar durante los saltos de la señal usada como recibida respecto de la señal escalada en el tiempo. Como se explicó con anterioridad, el tiempo de escalado WSOLA conserva el período de tono. Sin embargo, cuando se realiza el escalado de tiempo para una parte en el medio de la señal de voz, alguna discontinuidad ya sea al comienzo o al final de la señal escalada en el tiempo puede no evitarse a veces.

Con el fin de disminuir el efecto de dicho desajuste de fase, se propone para el segundo enfoque, modificar ligeramente el procedimiento descrito con referencia a la figura 4. El procedimiento WSOLA modificado (MWSOLA) usa información de historial y extensión extra para disminuir los efectos de este problema.

Un algoritmo MWSOLA que use una extensión de la escala de tiempo para una mitad extra de una longitud de paquete se describe ahora con referencia al diagrama de flujo de la figura 5 y con referencia a los cinco diagramas de la figura 6. El tamaño de paquete usado es de 20 ms, o de 160 muestras, la velocidad de muestreo siendo de 8 kHz. La ventana de análisis/síntesis usada tiene la misma longitud que la de los paquetes.

La figura 5 ilustra el proceso básico de actualización del tamaño de memoria de almacenamiento temporal de fluctuación usando el algoritmo MWSOLA propuesto. Como se muestra en el lado izquierdo del diagrama de flujo de la figura 5, primero se eligen los paquetes que vayan a ser escalados. Además, media longitud de paquete de la señal que llegó con anterioridad, es decir, 80 muestras, son seleccionadas como muestras de historial. Las muestras seleccionadas también están indicadas en el primer diagrama de la figura 6. después de ser seleccionadas, son reenviadas al algoritmo MWSOLA.

El algoritmo MWSOLA, que se muestra con más detalle en el lado derecho de la figura 5, se usa entonces para proporcionar el escalado de tiempo deseado sobre las señales seleccionadas como se describe con referencia a la
figura 4.

La ventana de análisis/síntesis se crea por medio de la modificación de una ventana de Hanning de forma que la condición de la ecuación (1) se cumple. La función de distorsión de tiempo \tau^{-1}(n) está construida de manera diferente para la expansión y comprensión de escala de tiempo, es decir, para un aumento y para una disminución del tamaño de memoria de almacenamiento temporal de fluctuación. La función de distorsión de tiempo y los límites de la región de búsqueda \Delta (\Delta = [\Deltamin...\Deltamax]) se eligen de manera tal que se obtenga una buena variación de la señal. Por medio de la fijación de los límites de la región de búsqueda y de la función de distorsión de tiempo de manera correcta, se puede evitar el elegir de manera repetida tramas de análisis adyacentes. Finalmente, la primera trama de la señal de entrada se copia en una señal de salida que va a sustituir a la señal original. Esto asegura que el cambio de la señal original precedente respecto a la señal escalada en el tiempo sea gradual.

Después de que se hayan fijado los parámetros iniciales como la función de distorsión de tiempo y los límites para la región de búsqueda, y se haya inicializado una señal de salida, se usa un bucle para encontrar nuevas tramas para la señal de salida escalada en el tiempo mientras se necesite. Se usa una mejor adaptación entre las últimas L muestras de la trama anterior y las primeras L muestras de la nueva trama como un indicador en encontrar la siguiente trama. La longitud usada L de la correlación es de 1/2 * la longitud de la ventana = 80 muestras. La región de búsqueda \Delta(\Delta = [\Deltamin...\Deltamax]) debería ser más larga que el máximo período de tono en las muestras, de forma que sea posible una correcta sincronización entre tramas consecutivas.

El segundo diagrama de la figura 6 muestra como se colocan en la señal de entrada MWSOLA las ventanas de análisis 61 a la 67 que definen diferentes segmentos cuando se escala en el tiempo de dos a tres paquetes.

El tercer diagrama de la figura 6 muestra como solapar los segmentos de síntesis satisfactorios. Como se puede ver, las diferentes ventanas 61 a la 67 se solapan, en este caso, completamente de manera perfecta.

La adición de solapamiento de todas las tramas de análisis/síntesis da como resultado la señal escalada en el tiempo que se muestra en el cuarto diagrama de la figura 6, que constituye la señal de salida del algoritmo MWSOLA. El algoritmo MWSOLA devuelve los nuevos paquetes de tiempo escalados y una extensión para ser añadida solapada con la primera media longitud de paquete del siguiente paquete de llegada.

Como se muestra de nuevo en la parte izquierda del diagrama de flujo de la figura 5, la memoria de almacenamiento temporal de fluctuaciones se actualiza entonces con las señales escaladas en el tiempo y la extensión se añade solapada con el siguiente paquete de llegada. La señal resultante se puede ver en el quinto diagrama de la figura 6.

Este procedimiento disminuye el efecto de los desajustes de fase y de amplitud entre la señal escalada en el tiempo y la señal válida.

Se describirá un procedimiento de escalado de memoria de almacenamiento temporal de fluctuación basado en vocóder de fase con referencia a las figuras 7 a la 9 como tercer enfoque. Este procedimiento constituye un procedimiento de escalado en el tiempo en el dominio de la frecuencia.

El procedimiento de modificación de escala de tiempo de vocóder de fase se basa en tomar transformadas de Fourier de corta duración en el tiempo (STFT) de la señal de voz en la memoria de almacenamiento temporal de fluctuación como se describe en el documento mencionado con anterioridad "Applications of Digital Signal Processing to Audio and Acoustics". La figura 7 ilustra esta técnica. La modificación de escala de tiempo basada en vocóder de fase comprende una etapa de análisis, indicada en la parte superior de la figura 7, una etapa de modificación indicada en la parte media de la figura 7, y una etapa de síntesis indicada en la parte inferior de la figura 7.

\newpage

\global\parskip0.900000\baselineskip

En la etapa de análisis, las transformadas de Fourier de corta duración son tomadas a partir del solapamiento de las partes de ventana 71 a 74 de una señal recibida. En particular, las transformadas de Fourier discretas en el tiempo (DFT) como describe J. Laroche y M. Dolson en "Improved Phase Vocoder Time-Scale Modification of Audio", Transacciones sobre procesado de voz y de audio del IEEE, vol. 7, Núm. 3, de mayo de 1999. páginas 323 a la 332, se pueden emplear en la etapa de análisis de vocóder de fase. Esto quiere decir que tanto la representación de la escala de frecuencia como la representación de escala en el tiempo de la señal, son discretas. Los instantes de tiempo t_{a}^{u} de análisis están espaciados de manera regular en R_{a} muestras, Ra. t_{a}^{u} = u*R_{a}. R_{a} se denomina el factor de salto de análisis. La transformada de Fourier acortada en el tiempo es entonces

3

donde x es la señal original, h(n) la ventana de análisis, y \Omega_{k} = 2pi*k/N la frecuencia central del canal de vocóder k-ésimo. Los canales de vocóder también se pueden denominar contenedores. N es el tamaño de la DTF, donde N debe ser más largo que la longitud de la ventana de análisis. En soluciones prácticas, la DTF se obtiene por lo general con la Transformada Rápida de Fourier (FFT). La frecuencia de corte de las ventanas de análisis para las ventanas estándar (Hanning, Hamming) requieren que la ventana de análisis se solapen al menos el 75%. Después de la FFT de análisis, la señal es representada por canales de vocóder horizontales e instantes de tiempo de análisis verticales.

En la etapa de modificación de fase, la escala de tiempo de la señal de voz se modifica por medio de fijar el factor de salto de análisis R_{a} diferente de un factor de salto de síntesis usado R_{s}, como se describe en el documento mencionado "Improved Phase Vocoder Time-Scale Modification of Audio". La nueva evolución en el tiempo de las ondas senoidales se consigue por medio de la fijación de |Y(t^{u}_{S}, \Omega_{k}) | = | X(t_{a}^{u}, \Omega_{k})| y por medio del cálculo de nuevos valores de fase para Y(t^{u}_{S}, \Omega_{k}).

Los nuevos valores de fase para Y(t^{u}_{s}, \Omega_{k}) se calculan de la siguiente manera. Se usa un proceso llamado desdistorsión de fase, en el que el incremento de fase entre dos tramas consecutivas se usa para estimar la frecuencia instantánea de una sinusoide cercana en cada uno de los canales k. primero, se calcula el incremento de fase heterodino por medio de

4

Después, por medio de la suma o de la resta de los múltiplos de 2\pi de forma que el resultado de (7) caiga entre \pm\pi, se determina la determinación principal del incremento de fase heterodino (\Delta _{p}\Phi^{u}_{k}).

La frecuencia instantánea se calcula después usando

5

La frecuencia instantánea se determina porque la FFT se calcula solamente para frecuencias discretas \Omega_{k}. De esta manera, la FFT no representa de manera necesaria la señal de la ventana de manera exacta.

Las fases escaladas en el tiempo de la STFT en un instante t^{u}_{s} se calculan a partir de

6

La elección de fases de síntesis iniciales \angleY(t^{0}_{s}, \Omega_{k}) es importante para una buena calidad de la voz. En el documento mencionado con anterioridad, "Improved Phase Vocoder Time-Scale Modification of Audio", se recomienda una configuración de inicialización estándar de

7

lo que provoca una conmutación desde una señal escalada de manera no lineal a una señal escalada en el tiempo posible sin discontinuidad de fase. Este es un atributo importante para el escalado temporal de memoria de almacenamiento temporal de fluctuación.

\global\parskip1.000000\baselineskip

Después de haber obtenido los valores de fase para Y(t^{u}_{s}, \Omega_{k}), la señal se puede reconstruir en una etapa de síntesis.

En la etapa de síntesis, las transformadas de Fourier acortadas en el tiempo modificadas Y(t^{u}_{s}, \Omega_{k}) son primero sometidas a una transformada inversa de Fourier con la ecuación

8

Los instantes de tiempo de síntesis son fijados t^{u}_{s} = u * R_{s}. Finalmente, las señales acortadas en el tiempo son multiplicadas por una ventana de síntesis w(n) y se suman juntas, dando la señal de salida y(n):

9

La distancia entre las ventanas de análisis es diferente de la distancia entre las ventanas de síntesis debido a la modificación de la escala temporal, por lo que se consigue una extensión o una comprensión temporal de los datos de memoria de almacenamiento temporal de fluctuación recibidos. La sincronización entre el solapamiento de las ventanas de síntesis se consiguió por medio de la modificación de las fases en la STFT.

El uso del escalado temporal basado en vocóder de fase para aumentar o para disminuir el tamaño de una memoria de almacenamiento temporal de fluctuación se ilustra en el diagrama de flujo de la figura 8.

Primero, se recibe la señal de entrada y se fija un factor de escalado temporal.

El algoritmo se inicializa entonces por medio de la fijación de los tamaños de salto de análisis y de síntesis, y por medio de la fijación de los instantes de tiempo de análisis y de síntesis. Cuando se haga esto, se tienen que tener en cuenta unas pocas restricciones, que se han listado, por ejemplo, en el documento anteriormente mencionado "Applications of Digital Signal Processing to Audio and Acoustics". La frecuencia de corte de la ventana de análisis debe satisfacer w_{h} < min_{i}\Deltaw_{i}, es decir, la frecuencia de corte debe ser menor que el espaciado entre dos sinusoides. Además, la longitud de la ventana de análisis debe ser lo suficientemente pequeña de forma que las amplitudes y las frecuencias instantáneas de las sinusoides se pueden considerar constantes dentro de la ventana de análisis. Finalmente, para habilitar el desdistorsión de fase, la frecuencia de corte y la velocidad de análisis debe satisfacer w_{h}Ra < \pi. La frecuencia de corte para ventanas de análisis estándar (Hamming, Hanning) es de W_{h} \approx 4\pi/Nw, donde Nw es la longitud de la ventana de análisis.

Como parámetro inicial adicional, se calcula el número de tramas a procesar. Este número se usa para determinar cuántas veces se debe procesar el siguiente bucle de la figura 8. Finalmente, se fijan las fases de síntesis iniciales, de acuerdo con la ecuación (7).

Después de la inicialización, un bucle de procesado de vocóder sigue al escalado de tiempo real. Dentro de la fase de bucle de procesado de vocóder, la rutina es una realización directa Del procedimiento presentado con anterioridad. Primero, se obtiene la respectiva siguiente trama de análisis por medio de la multiplicación de la señal con la ventana de análisis en el instante de tiempo t_{a}^{u}. Después, se calcula la FFT de la trama. Se calcula el incremento de fase heterodino fijando R_{a} en la ecuación (4) a t_{a}^{u} - t_{a}^{u-1}. Las frecuencias instantáneas se obtienen también fijando R_{a} en la ecuación (5) a t_{a}^{u} - t_{a}^{u-1}. Las fasesescaladas en el tiempo se obtienen a partir de la ecuación (6). A continuación, se calcula la IFFT de la FFT modificada de la trama actual de acuerdo con la ecuación (8). El resultado de la ecuación (8) se multiplica entonces por la ventana de síntesis y se añade a la señal de salida. Antes de pasar a través del bucle de nuevo, las fases previas de análisis y de síntesis que se van a usar en las ecuaciones (4) y (6) son actualizadas.

Finalmente, antes de sacar la señal escalada en el tiempo, se suavizan las transiciones entre la señal escalada en el tiempo y la señal no escalada en el tiempo. Después de esto, se puede completar la modificación de tamaño de memoria de almacenamiento temporal de fluctuación. La figura 9 muestra la señal resultante cuando se escalan en el tiempo dos paquetes dentro de tres con escalado en el tiempo basado en vocóder de fase. En el primer diagrama de la figura 9, se representa la amplitud de la señal sobre las muestras antes del escalado de tiempo. En un segundo diagrama de la figura 9, se representa la amplitud de la señal sobre las muestras después del escalado de tiempo. Los dos paquetes con muestras 161 a 481 del primer diagrama fueron expandidos a tres paquetes con muestras 161 a 641.

Antes de que aumente el tamaño de la memoria de almacenamiento temporal de fluctuación, debería ocurrir una ocultación de error. Además, se deberían recibir un número predeterminado de paquetes antes de que se incremente el tamaño de la memoria de almacenamiento temporal de fluctuación.

La figura 10 es un diagrama de flujo que ilustra un cuarto enfoque, que se puede usar para cambiar un tamaño de memoria de almacenamiento temporal de fluctuación en el dominio paramétrico. Las tramas de voz codificadas paramétricas son solamente descodificadas por medio de un descodificador después del almacenamiento temporal en la memoria de almacenamiento temporal de fluctuación.

En un primer paso, se determina si el tamaño de la memoria de almacenamiento temporal de fluctuación tiene que ser cambiado. En el caso de que no tenga que ser cambiado, los contenidos de la memoria intermedia de almacenamiento temporal de fluctuación son directamente reenviados al descodificador.

En el caso en el que se determine que el tamaño de la memoria intermedia de fluctuación tenga que ser incrementada, la memoria de almacenamiento temporal de fluctuación es aumentada y se generan tramas adicionales por medio de la interpolación de una trama adicional a partir de dos tramas adyacentes en el dominio paramétrico. Las tramas adicionales son usadas para rellenar el espacio de memoria de almacenamiento temporal vacío resultante de un aumento en el tamaño. Solamente entonces las tramas almacenadas temporalmente son reenviadas al descodificador.

En el caso en el que se determine que el tamaño de la memoria de almacenamiento temporal de fluctuación tenga que ser decrementada, la memoria de almacenamiento temporal de fluctuación se decrementa y se interpolan dos tramas adyacentes o espaciadas en el dominio paramétrico dentro de una trama. La distancia de las dos tramas usadas para la interpolación de una con otra depende de la cantidad de la disminución requerida del tamaño de memoria de almacenamiento temporal de fluctuación. Solamente entonces las tramas almacenadas de manera temporal son reenviadas al descodificador.

Las figuras 11 a la 13 muestran partes de tres sistemas de comunicaciones de voz sobre IP diferentes.

En el sistema de comunicaciones de la figura 11, un codificador 111 y un medio de paquetización 112 pertenecen a un extremo de transmisión del sistema. El extremo de transmisión está conectado a un extremo de recepción a través de una red de voz sobre IP 113. EL extremo de recepción comprende una memoria de tramas 114, que se conecta a través de un descodificador 115 a una memoria de almacenamiento temporal de fluctuación adaptable 116. La memoria de almacenamiento temporal de fluctuación adaptable 116 tiene de manera adicional una entrada de control conectada a un medio de control y una salida a algún medio de procesado del extremo de recepción que no está representado.

En el extremo de transmisión, la voz que vaya a ser transmitida se codifica en el codificador 111 y se paquetiza por medio del medio de paquetización 112. Cada paquete se entrega con información acerca de su posición correcta en un flujo de paquetes y acerca de la distancia correcta en el tiempo respecto de los otros paquetes. Los paquetes resultantes son enviados sobre la red de voz sobre IP 113 al extremo de recepción.

En el extremo de recepción, los paquetes recibidos son primeramente reordenados en la memoria de tramas 114 con el fin de ponerlos de nuevo en el orden original en el que fueron transmitidos por parte del extremo de transmisión. Los paquetes reordenados son después descodificados por el descodificador 115 en voz PCM lineal. El descodificador 115 realiza también una gestión de trama mala sobre los datos descodificados. Después de esto, los paquetes de voz PCM lineales son reenviados por parte del descodificador 115 a la memoria de almacenamiento temporal de fluctuación adaptable 116. En la memoria de almacenamiento temporal de fluctuación adaptable, se puede emplear entonces un procedimiento de escalado de tiempo lineal para aumentar o para disminuir el tamaño de la memoria de almacenamiento temporal de fluctuación y por lo tanto conseguir más o menos tiempo para que lleguen los paquetes a la memoria de tramas.

La entrada de control de la memoria de almacenamiento temporal adaptable 116 se usa para indicar a la memoria de almacenamiento temporal de fluctuación adaptable 116 si el tamaño de la memoria de almacenamiento temporal de fluctuación 116 se debería cambiar. La decisión sobre esto es tomada por el medio de control en base a la evaluación del retardo global actual y la variación actual del retardo entre los diferentes paquetes. El medio de control indica de manera más específica la memoria de almacenamiento temporal de fluctuación adaptable 116 si el tamaño de almacenamiento temporal de fluctuación 116 se ha de aumentar o disminuir y en qué cantidad y qué paquetes se han de seleccionar para el escalado de tiempo.

En el caso de que el medio de control indique a la memoria de almacenamiento temporal de fluctuación adaptable 116 que su tamaño va a ser cambiado, la memoria de almacenamiento temporal de fluctuación adaptable 116 escala en el tiempo al menos parte de los paquetes actualmente almacenados de manera temporal de acuerdo con la información recibida, por ejemplo, una manera descrita en la segunda o en el tercer enfoque. La memoria de almacenamiento temporal de fluctuación 116 se extiende por lo tanto por medio de la expansión de la escala de tiempo de los datos de voz almacenados de manera temporal en el momento actual y reducidos por medio de la compresión de escala de tiempo de los datos de voz almacenados de manera temporal en el momento actual. De manera alternativa, un procedimiento basado en un procedimiento de gestión de trama mala para aumentar el tamaño de la memoria de almacenamiento temporal se puede emplear para cambiar el tamaño de memoria de almacenamiento temporal de fluctuación. Este procedimiento alternativo podría ser por ejemplo el procedimiento del primer enfoque, en el que además, los datos se solapan para disminuir el tamaño de la memoria de almacenamiento temporal.

El escalado de tiempo lineal de la figura 11 se puede emplear en particular para un códec de baja velocidad binaria.

La figura 12 muestra una parte de un sistema de comunicaciones que se basa en un procedimiento de escalado de tiempo de voz PCM lineal. En este sistema, un extremo transmisor que corresponde al de la figura 11 y que no está representado en la figura 12, se conecta de nuevo a través de una red de voz sobre IP 123 al extremo de recepción. El extremo de recepción, sin embargo, está diseñado de alguna manera diferente del extremo de recepción en el sistema de la figura 11. El extremo de recepción comprende ahora un medio para una ley A para la conversión lineal 125 conectado a una memoria de almacenamiento temporal de fluctuación adaptable 126. La memoria de almacenamiento temporal de fluctuación adaptable 126 tiene de nuevo de manera adicional una entrada de control conectada a un medio de control y una salida a algún medio de procesado del extremo receptor que no se representa.

Los paquetes que contienen datos de voz que fueron transmitidos por el extremo transmisor y que fueron recibidos por el extremo receptor a través de la red de voz sobre IP 123 son primeramente introducidos al medio para la ley A para la conversión lineal 125 del extremo de recepción, en donde son convertidos en datos PCM lineales. Con posterioridad, los paquetes son reorganizados en la memoria de almacenamiento temporal de fluctuación adaptable 126. Además, la memoria de almacenamiento temporal de fluctuación adaptable 126 tiene cuidado de una gestión de trama mala, antes de reenviar los paquetes con un correcto retardo al medio de procesado.

Los medios de control se usan una vez más para decidir cuándo y cómo cambiar el tamaño de la memoria de almacenamiento temporal de fluctuación. Siempre que sea necesario, algún procedimiento de escalado en el tiempo para voz lineal, por ejemplo, uno de los procedimientos presentados, se usa entonces en la memoria de almacenamiento temporal adaptable 126 para cambiar su tamaño de acuerdo con la información recibida por los medios de control. De manera alternativa, se podría emplear una vez más un procedimiento basado en una gestión de malas tramas para cambiar la memoria de almacenamiento temporal de fluctuación, por ejemplo, el procedimiento del primer enfoque. Este procedimiento alternativo podría también hacer uso del procedimiento de gestión de tramas malas implementado en la memoria de almacenamiento temporal de fluctuación de algún modo para la gestión de malas tramas.

La figura 13, finalmente, muestra una parte de un sistema de comunicaciones en el que se emplea un códec de baja velocidad binaria y un escalado en el tiempo en el dominio paramétrico.

De nuevo, un extremo transmisor correspondiente al de la figura 11 y no representado en la figura 13, se conecta a través de una red de voz sobre IP 133 a un extremo de recepción. El extremo de recepción comprende una unidad de memoria de paquetes y de organizador 134, que se conecta a través de una memoria de almacenamiento temporal de fluctuación adaptable 136 a un descodificador 135. La memoria de almacenamiento temporal de fluctuación adaptable 136 tiene además una entrada de control conectada a un medio de control, y la salida del descodificador 135 se conecta a algún medio de procesado del extremo de recepción, ambos, el medio de control y el medio de procesado no estando representados.

Los paquetes que contienen datos de voz que fueron transmitidos por el extremo transmisor y recibidos por el extremo receptor a través de la red de voz sobre IP 133 son primeramente reordenados en la unidad de memoria de paquetes y en la unidad de reorganizador 134.

Los paquetes reordenados son entonces reenviados directamente a la memoria de almacenamiento temporal de fluctuación adaptable 136. La memoria de almacenamiento temporal de fluctuación 136 aplica una gestión de malas tramas sobre los paquetes recibidos en el dominio paramétrico. La voz contenida en los paquetes se descodifica solamente después de abandonar la memoria de almacenamiento temporal de fluctuación adaptable 136 en el descodificador 135.

Como en los otros dos sistemas presentados, los medios de control se usan para decidir cuándo y cómo cambiar el tamaño de la memoria de almacenamiento temporal de fluctuación. Siempre que sea necesario, se usa entonces algún tipo de procedimiento de escalado para la voz paramétrica en la memoria de almacenamiento temporal de fluctuación adaptable 136 para cambiar su tamaño de acuerdo con la información recibida por el medio de control. De manera alternativa, se podría emplear un procedimiento de gestión de tramas malas diseñado para la gestión de tramas malas de paquetes en el dominio paramétrico para aumentar el tamaño de memoria de almacenamiento temporal de fluctuación. Como una alternativa adicional, se podrían interpolar tramas adicionales a partir de dos a partir de dos tramas adyacentes como se propone con la referencia a la figura 10. La disminución del tamaño de la memoria de almacenamiento temporal de fluctuación se podría conseguir descartando un paquete o por medio de la interpolación de dos paquetes en uno en el dominio paramétrico como se propone con referencia a la figura 10. En particular, si se desea una disminución en más de un paquete, los paquetes que estén alrededor de la cantidad deseada de paquetes podrían ser interpolados en un paquete.

A continuación se presenta una realización de la invención relativa al alineamiento de tiempo con referencia a la figura 14, que muestra un sistema de comunicaciones radio GSM o 3G.

El sistema de comunicaciones radio comprende una estación móvil 140, de la cual se representa una antena 141 y un descodificador 142. Por otra parte, comprende una red de acceso radio, de la cual se representa una estación base y un controlador de red radio 143 como un único bloque con acceso a una antena 144. la estación base y el controlador de red radio 143 están además conectados a un transcodificador de red 145 que comprende un codificador 146 y un medio de alineamiento temporal 147 conectado uno con el otro. La estación base o el controlador de red radio 143 tienen además un acceso de control al medio de alineamiento temporal 147.

\newpage

En el sistema de comunicaciones radio, las tramas de voz son transmitidas en la dirección de enlace descendente desde la red de acceso radio a la estación móvil 140 y en la dirección de enlace descendente desde la estación móvil 140 a la red de acceso radio. Las tramas de voz que se vayan a transmitir en la dirección de enlace descendente son primeramente codificadas por medio de un codificador 146 del transcodificador 145, transmitidas a través del controlador de red radio, de la estación base 143 y de la antena 144 del de la red de acceso radio, recibidas por la antena 142 de la estación móvil 140 y descodificadas por el descodificador 141 de la estación móvil 140.

Al comienzo de la llamada o después de un traspaso, el desplazamiento de fase inicial entre la estructura de tramas de enlace ascendente y el enlace descendente en el transcodificador puede ser diferente del desplazamiento de fase de la interfaz radio, lo que evita las transmisiones síncronas estrictas requeridas en el enlace ascendente y en el enlace descendente. En GSM, la estación base 143 garantiza por lo tanto que el desplazamiento de fase sea igual por medio del almacenamiento temporal de todas las tramas de voz codificadas recibidas desde el transcodificador 145 durante una transmisión de enlace descendente tan larga como se requiera. Incluso aunque la estación base 143 determine el retardo de almacenamiento temporal requerido por medio de la comparación de los datos de voz de enlace ascendente recibidos desde la estación móvil 140 con los datos de voz de enlace descendente recibidos desde el transcodificador 145, esto significa también una compensación de un desplazamiento de fase de la estructura de tramas de enlace descendente en el transcodificador y en la interfaz radio del sistema a la que se accede a través de la antena 144. En una red 3G, esta función se proporciona por parte del controlador de red radio 143. Este almacenamiento temporal conduce a un retardo adicional de hasta una trama de voz en la estación base en la dirección de enlace descendente. Con el fin de minimizar el retardo de almacenamiento temporal requerido para la sincronización, en GSM la estación base y en 3G el controlador de red radio 143 solicitan desde el medio de alineamiento temporal 147 del transcodificador 145 para aplicar un alineamiento temporal a las tramas de voz codificadas.

En un alineamiento temporal, el instante de tiempo de transmisión de una trama de voz codificada y de las siguientes tramas se avanza o se retrasa en una cantidad especificada de muestras de acuerdo con la información recibida de la estación base o del controlador de red radio 143 respectivamente, reduciendo de esta manera el retardo de almacenamiento temporal necesario en la estación base o en el controlador de red radio 143.

De acuerdo con la invención, el alineamiento temporal se lleva ahora a cabo por el medio de alineamiento temporal 147 por medio de la aplicación de un escalado de tiempo sobre las tramas de voz codificadas por el codificador 146, antes de reenviarlas al controlador de red radio o a la estación base 143. En particular, se puede emplear cualquier procedimiento de escalado temporal en el dominio del tiempo o en el dominio de la frecuencia propuesto para cambiar un tamaño de memoria de almacenamiento temporal de fluctuación.

Como resultado de esto, el retardo del almacenamiento temporal en la estación base 143 se reduce en un alineamiento temporal conocido, pero la calidad de la voz se ve menos afectada.

Claims

1. Un procedimiento para llevar a cabo un alineamiento temporal en un transcodificador de un sistema de comunicaciones radio, cuyo alineamiento temporal se usa para disminuir un retardo de almacenamiento temporal, el mencionado retardo temporal resultante del almacenamiento temporal de los datos de voz codificados por el mencionado transcodificador antes de transmitir los mencionados datos de voz sobre una interfaz radio del mencionado sistema de comunicaciones radio con el fin de compensar un desplazamiento de fase en una estructura de tramas de los mencionados datos de voz en el mencionado transcodificador y en la mencionada interfaz radio, comprendiendo el procedimiento:

-: determinar si se tiene que llevar a cabo un alineamiento temporal; y

-: en el caso de que se determine que se tiene que llevar a cabo un alineamiento temporal, condensar los datos de voz para conseguir el alineamiento de tiempo requerido por medio de descartar al menos una trama de los datos de voz, en el que los parámetros de la ganancia y los coeficientes de codificación predictiva lineal de tramas de los datos de voz que rodean a la al menos una trama descartada son modificados para combinar de manera gradual las tramas que rodean la al menos una trama descartada.

2. Un procedimiento de acuerdo con la reivindicación 1, en el que el transcodificador es un transcodificador de red y en el que los mencionados datos de voz son datos de voz de enlace descendente.

3. Un sistema de comunicaciones radio que comprende

-: al menos una interfaz radio para transmitir los datos de voz codificados;

-: al menos un transcodificador (145), cuyo transcodificador (145) incluye al menos un codificador (146) para codificar los datos de voz que se vayan a usar para una transmisión a través de la mencionada interfaz radio, y cuyo transcodificador (145) incluye de manera adicional un medio de procesado (147) para llevar a cabo un alineamiento temporal sobre las muestras de voz codificadas de acuerdo con el procedimiento de la reivindicación 1 ó 2; y

-: un medio de almacenamiento temporal (143) dispuesto entre la mencionada interfaz radio y el mencionado transcodificador (145) para el almacenamiento de manera temporal de datos de voz codificados por el mencionado transcodificador (145) antes de transmitir los mencionados datos de voz codificados a través de la mencionada interfaz radio con el fin de compensar un desplazamiento de fase en una estructura de tramas de los mencionados datos de voz por parte del mencionado transcodificador (145) y por la mencionada interfaz radio; y

-: un medio de procesado (143) para determinar en qué medida las muestras de voz codificadas por el mencionado codificador (146) tienen que ser alineadas en el tiempo antes de la transmisión, con el fin de minimizar un retardo de almacenamiento temporal para los datos de voz codificados resultantes de un almacenamiento temporal por el mencionado medio de almacenamiento temporal (143).

4. Un transcodificador (145) para un sistema de comunicaciones radio que comprende:

-: al menos un codificador (146) para codificar los datos de voz que se vayan a usar para una transmisión a través de una interfaz radio del mencionado sistema de comunicaciones; y

-: un medio de procesado (147) para llevar a cabo un alineamiento temporal de acuerdo con el procedimiento de la reivindicación 1 ó 2.

5. Un aparato que comprende un medio de procesado (147) para llevar a cabo un alineamiento temporal de acuerdo con el procedimiento de la reivindicación 1 o de la reivindicación 2.