ES2291746T3

ES2291746T3 - Negociacion de retardos entre enlaces de comunicaciones.

Info

Publication number: ES2291746T3
Application number: ES03809481T
Authority: ES
Inventors: Stefan Bruhn
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2002-10-25
Filing date: 2003-09-11
Publication date: 2008-03-01
Anticipated expiration: 2023-09-11
Also published as: CN100566230C; US7289451B2; EP1554833A1; CN1689264A; WO2004038992A1; EP1554833B1; AU2003258944A1; JP4426454B2; DE60315689T2; US20040081106A1; DE60315689D1; ATE370568T1; JP2006504327A

Abstract

Un método para comunicación totalmente dúplex entre un primer terminal y un segundo terminal de un sistema de comunicación, de tal modo que el método comprende las etapas de: - transferir (202) datos en un primer sentido desde el primer terminal al segundo terminal, por un primer enlace, y - transferir (202) datos en un segundo sentido desde el segundo terminal al primer terminal, por un segundo enlace; - obtener (204) una primera determinación acerca de si dichos datos transferidos en dicho primer sentido corresponden a la actividad o inactividad del primer enlace; - obtener (204) una segunda determinación acerca de si dichos datos transferidos en dicho segundo sentido corresponden a la actividad o inactividad del segundo enlace: caracterizado por la etapa adicional de: - asignar (206) un retardo de codificación en dichos primer y segundo sentidos dependiendo de dichas primera y segunda determinaciones, de tal manera que el retardo de codificación asignado en el primer sentido es más altoque el retardo de codificación asignado en el segundo sentido cuando el segundo enlace está inactivo y el primer enlace está activo, y de forma que el retardo de codificación asignado en el primer sentido es más bajo que el retardo de codificación asignado en el segundo sentido cuando el segundo enlace está activo y el primer enlace está inactivo, de tal modo que los retardos de codificación asignados están sometidos a un presupuesto o provisión de retardo de codificación total disponible.

Description

Negociación de retardos entre enlaces de comunicaciones.

Campo técnico

La presente invención se refiere en general a la comunicación totalmente dúplex entre terminales de una red de comunicación y, en particular, a la disposición de tiempos de retardo dentro de tales sistemas de comunicación.

Antecedentes

El retardo es un parámetro fundamental en cada tipo de servicio de comunicación, desde la telefonía simple hasta la comunicación multimedia avanzada. Los servicios conversacionales se caracterizan por la interactividad entre los usuarios de los extremos de los enlaces de comunicación. El retardo, o, más precisamente, el retardo de cierre de bucle o de ida y vuelta, tiene un impacto importante en la sensación de interactividad y, por tanto, en la calidad del servicio. Las partes que interactúan por medio de la red de comunicación deberían tener la posibilidad de interactuar de la misma manera que si estuviesen presentes en el mismo lugar. Los medios de comunicación deberán, por tanto, ser tan invisibles como sea posible. Un alto retardo de ida y vuelta conduce a tiempos de respuesta largos. Dichos tiempos de respuesta largos perturban, en general, la fluidez de la conversación y pueden ser interpretados por los interlocutores como una duda desde la otra parte, o bien conducir a molestos periodos de espera inactivos. Los seres humanos modernos están acostumbrados a recibir respuestas bastante rápidas e incluso retardos relativamente cortos pueden causar frustración. Un retardo de ida y vuelta elevado degrada, de esta forma, la interactividad significativamente. Por otro lado, una cancelación insuficiente de los ecos eléctricos o acústicos puede tener su impacto en la calidad de la comunicación si el retardo de ida y vuelta es demasiado elevado.

Por otra parte, en cada enlace de la comunicación se requiere un retardo desde el punto de vista de la transmisión. Además del retardo básico para la transmisión en sí misma, se necesita un retardo de codificación tanto para una eficiencia de la codificación en la fuente incrementada como para unas estrategias más eficientes para combatir las deficiencias de la transmisión. Hablando de forma general, el retardo de codificación que se puede utilizar para la codificación en la fuente, la codificación del canal, la intercalación, la modulación codificada, etc., proporciona una ganancia de codificación en virtud de la cual es posible reducir la potencia de la transmisión sin degradar el comportamiento de la transmisión. En el contexto de la presente descripción, se consideran como retardo de codificación incluso los retardos para el almacenamiento intermedio de las fluctuaciones de la transmisión de estructura en paquetes. Los retardos son, por tanto, importantes e incluso necesarios pare proporcionar una transmisión sin problemas. Todos los retardos de un enlace se suman para dar el retardo de extremo a extremo, al que en ocasiones se hace referencia también como retardo de boca a oído. El retardo de ida y vuelta es, de manera adicional, la suma de los retardos de extremo a extremo de una transmisión inicial y de la respuesta dada a la misma, respectivamente.

Desde el punto de vista de la transmisión, los retardos son beneficiosos, pero, con el fin de proporcionar una calidad del servicio aceptable para los servicios conversacionales, los retardos deben mantenerse dentro de ciertos límites. Ha de llegarse, por lo tanto, a un compromiso entre las ganancias de codificación conseguidas con el retardo de codificación y la pérdida de interactividad debida al retardo de ida y vuelta resultante.

De alguna manera, todos los servicios de comunicación llegan a un compromiso entre retardo y ganancia de codificación. Un ejemplo de comunicaciones de habla con transmisión conmutada en circuitos se proporciona con el servicio de telefonía de AMR del sistema de GSM actual. La codificación en la fuente implica un retardo de 25 ms, y la codificación del canal incluye intercalar en el canal de tráfico de habla de FR un retardo de 37,5 ms. Sobre esto vienen a añadirse ciertos retardos, por ejemplo, para el procesamiento o tratamiento de señal digital y analógica, generación de impulsos de radio, modulación y desmodulación, transmisión por radio, transmisión en serie por la interfaz Abis entre la estación de base y el trans-codificador, etc. Estos retardos son fijos durante la conexión de habla.

Un ejemplo de comunicaciones de habla con transmisión conmutada en paquetes viene dado por los servicios de telefonía en la Internet. Aquí, el retardo de extremo a extremo desde una entrada de señal analógica en el lado emisor hasta una salida analógica en el lado receptor, es causado, si se ignoran otros contribuyentes, por el tiempo de transmisión de los paquetes de datos desde el emisor hasta el receptor, por registros de almacenamiento intermedio de fluctuaciones encaminados a hacerse cargo de las variaciones en el retardo de la transmisión, y por técnicas de sincronización de muestras que alinean unas con otras las señales de reloj de muestras asíncronas en el emisor y en el receptor. El retardo de almacenamiento intermedio de las fluctuaciones en el receptor puede considerarse equivalente al retardo debido a la codificación de canal en el ejemplo de la transmisión conmutada en circuitos. En contraste con este caso, el retardo de extremo a extremo puede ser variable. Estas variaciones son causadas por técnicas de almacenamiento intermedio de fluctuaciones adaptativas, que tratan de minimizar el número de pérdidas de paquetes al tiempo que mantienen el retardo de extremo a extremo bajo. Los cambios en las condiciones de la transmisión, por ejemplo, debidos a la congestión, pueden conducir a ajustes en el tamaño del registro de almacenamiento intermedio de las fluctuaciones, lo que a su vez da lugar a una variación en el retardo de extremo a extremo. Existen técnicas más o menos avanzadas para la sincronización del muestreo, que también son aplicables a la hora de modificar el tamaño del registro de almacenamiento intermedio de las fluctuaciones. Éstas van de la simple inserción o borrado de muestras de señal, a una modificación en la escala temporal que permite reproducir la señal a diferentes velocidades sin provocar efectos espurios notables.

Los canales de comunicación semi-dúplex pueden transportar datos en una de los dos sentidos pero no en ambos sentidos a la vez. Esto implica que si ha de utilizarse un canal semi-dúplex para una comunicación de habla, sólo se transmite entonces una señal con origen en el participante activo al participante pasivo, pero no se transmite ninguna señal del participante pasivo al activo. De esta forma, el recurso de transmisión se ve desplazado entre los partícipes de la comunicación dependiendo de su presente actividad. Las comunicaciones a través de canales semi-dúplex hacen uso de una propiedad de asimetría de acuerdo con la cual únicamente se encuentra activo en cada momento un enlace de conversación. La interactividad en los canales semi-dúplex se ve con ello seriamente limitada, ya que ha de satisfacerse un estricto principio de uno cada vez.

En el documento US 6.182.032 B1 se presenta un método de comunicación aplicable a comunicación semi-dúplex o a comunicación en un solo sentido. En la comunicación en un solo sentido, el retardo real es de importancia menor, puesto que no se encuentra presente ninguna realimentación, y, por tanto, se permite que se incremente el retardo de una señal si se encuentra que el enlace es un enlace de comunicación en un solo sentido. Es, por tanto, posible modificar, por ejemplo, los retardos de codificación, así como reducir la velocidad de los bits. Esto reducirá la demanda de recursos de radio y tendrá como resultado un uso más eficiente de los recursos disponibles del sistema. El método puede ser de utilidad cuando sea de esperar una comunicación en un solo sentido, por ejemplo, en casos de correo de voz, servicios de mensajería, es decir, cuando un terminal actúa como fuente o como sumidero para datos de voz, pero como ambos. Se concluye, sin embargo, en la propia descripción que esta solución no es aplicable a situaciones totalmente dúplex.

El documento WO 99 13608 A2 se refiere a un método para utilizar los recursos del sistema de forma más eficiente ajustando un codec, o codificador-descodificador, de múltiples velocidades a una velocidad de bits más baja en una comunicación en un solo sentido, que en una comunicación en ambos sentidos. Una conexión en un solo sentido implica, en el documento WO 99 13608 A2 que no se transmite ni ruido ni voz de vuelta por el otro enlace. Puede aceptarse, por tanto, un retardo de codificación más largo y, en consecuencia, puede utilizarse una velocidad de bits más baja en la comunicación en un solo sentido. De acuerdo con ello, la disposición del documento WO 99 13608 A2 determina si una conexión es una conexión en un solo sentido o en ambos sentidos y, si es una conexión en un solo sentido, se emplea una velocidad de codificación de voz más baja que si se trata de una conexión en ambos sentidos. Puesto que la comunicación no siempre es una comunicación en ambos sentidos como en la presente invención, no es posible utilizar propiedades asimétricas de comunicación conversacional en un canal totalmente dúplex para llegar a un compromiso con el retardo en el documento WO 99 13608 A2, con lo que se deteriora el retardo de ida y vuelta experimentado o las verdaderas posibilidades de dúplex total.

Sumario

Un problema general con los sistemas de comunicación totalmente dúplex de la técnica anterior es que es necesario un compromiso entre la experiencia de interactividad y la calidad del servicio dentro de una cantidad limitada de recursos disponibles dentro del sistema de comunicación.

Un propósito general de la presente invención es, por tanto, proporcionar métodos y sistemas que mejoren las posibilidades de compromiso para el retardo. Un propósito adicional de la presente invención consiste en proporcionar métodos y sistemas que utilicen propiedades de asimetría de la comunicación conversacional con propósitos de compromiso en el retardo.

Los anteriores propósitos se consiguen por métodos y sistemas de acuerdo con las reivindicaciones de patente aquí comprendidas. En términos generales, el presupuesto o provisión de retardo disponible para una comunicación totalmente dúplex se distribuye entre los enlaces dependiendo de su actividad presente e historia reciente. Efectuando un seguimiento acerca de si un enlace de un sistema de comunicación totalmente dúplex está activo o inactivo, es decir, conociendo el valor de información de los datos transferidos, pueden utilizarse para enlaces activos procedimientos de codificación que tienen retardos de comunicación más largos que los normalmente aceptados, si el enlace opuesto se encuentra simultáneamente inactivo. Puesto que la sensibilidad del usuario para los retardos se encuentra en su máximo en el momento en un enlace pasa a estar activo, se asignan procedimientos de codificación que tienen retardos de codificación más pequeños que los normalmente utilizados, en el momento en que un enlace pasa a estar activo. El retardo de codificación se incrementa subsiguientemente. De preferencia, el retardo de cierre de bucle o de ida y vuelta se controla con el fin de que se mantenga más pequeño que un valor máximo solicitado.

La ventaja de la presente invención es que puede conducir a mejoras en la calidad del servicio y a ganancias en la capacidad del sistema, en sistemas que ofrecen servicios conversacionales. Estas mejoras se proporcionan sin

Breve descripción de los dibujos

La invención, conjuntamente con objetos y ventajas adicionales de la misma, podrá comprenderse de la mejor manera haciendo referencia a la siguiente descripción, tomada junto con los dibujos que se acompañan, en los cuales:

la Figura 1 es un diagrama temporal que ilustra una conversación utilizando un sistema de la técnica anterior;

la Figura 2 es un diagrama temporal que ilustra una conversación de acuerdo con una realización de la presente invención;

la Figura 3 es un diagrama temporal que ilustra una conversación que comprende habla simultánea de acuerdo con una realización de la presente invención;

la Figura 4 es un diagrama de flujo que ilustra un método general de acuerdo con una realización de la presente invención;

la Figura 5 ilustra un sistema de comunicación de acuerdo con una realización de la presente invención;

la Figura 6 ilustra un terminal de usuario de acuerdo con otra realización de la presente invención;

la Figura 7 ilustra otro terminal de usuario de acuerdo con aún otra realización de la presente invención;

la Figura 8 ilustra una realización detallada de un terminal de usuario de acuerdo con la presente invención, que proporciona un retardo bajo para enlaces inactivos;

la Figura 9 ilustra otra realización detallada de un terminal de usuario de acuerdo con la presente invención, que proporciona un retardo elevado para enlaces inactivos;

la Figura 10 ilustra una realización detallada de un terminal de usuario de acuerdo con la presente invención, que proporciona un retardo bajo para enlaces inactivos y que tiene un control temporal de respuesta;

la Figura 11 ilustra una realización detallada de un terminal de usuario de acuerdo con la presente invención, que proporciona un retardo elevado para enlaces inactivos y que tiene un control temporal de respuesta; y

la Figura 12 ilustra un diagrama de flujo de una realización de un control de almacenamiento intermedio de fluctuaciones que es de utilidad en la presente invención.

Descripción detallada

En los sistemas de la técnica anterior, cuando se explican los retardos de cierre de bucle o de ida y vuelta, se supone típicamente que el sistema es simétrico, es decir, se transfiere la misma cantidad de información en los dos sentidos. Ha venido siendo, por tanto, una suposición común que ambos sentidos de comunicación han de contemplarse como equivalentes, y que la provisión de retardo de codificación se distribuye, por tanto, en partes iguales para ambos sentidos de comunicación.

Sin embargo, incluso si las propiedades promedio a largo plazo de los datos transferidos en los diferentes sentidos son típicamente simétricas, las propiedades instantáneas de los enlaces en una comunicación conversacional totalmente dúplex no lo son. De hecho, existe una fuerte asimetría. Una característica importante de muchos servicios conversacionales es, por tanto, el hecho de que los recursos de transmisión que se necesitan en un instante dado son simétricos. Esto es debido a que, en una conversación, habitualmente una de las partes está activa mientras que la otra está escuchando, o, en caso de una comunicación entre múltiples partes, las otras están a la escucha. Considerando este hecho, el retardo de ida y vuelta es de una relevancia que varía con el tiempo. El instante de tiempo crucial es cuando el sentido de comunicación cambia de dirección, puesto que es entonces idéntico al tiempo de respuesta. No es importante para los usuarios del sistema si los datos correspondientes a la inactividad, es decir, los datos que tienen un valor de información despreciable, se ven retardados o llegan con peor calidad.

Las soluciones del estado de la técnica tanto con transmisión conmutada en circuitos como con transmisión conmutada en paquetes, ignoran el hecho de que las señales que se han de transmitir en servicios conversacionales tienen una ganancia de codificación que varía con el tiempo y requisitos de retardo que dependen del tipo de señal presente. Como ejemplo de ello, el habla activa tiene un contenido de información mucho más elevado que una señal de inactividad y, por tanto, necesita una fuente más eficiente y una codificación de canal que imponga un retardo de codificación más alto.

Sin embargo, los sistemas de comunicación de habla móviles de hoy en día aprovechan el hecho de que el habla conversacional es un proceso que varía temporalmente con, por ejemplo, los segmentos de habla activa y de silencio mediante el funcionamiento de Velocidad Controlada en Fuente (SCR -"Source-Controlled-Rate"). Este tipo de funcionamiento adapta, por ejemplo, la velocidad de bits instantánea a los requisitos de velocidad de bits de la señal de entrada presentes en ese momento, y se utiliza en sistemas con modo de Transmisión Discontinua (DTX -"Discontinuous Transmission"), que básicamente detiene la transmisión durante las pausas del habla. El funcionamiento de SCR implica en ocasiones un retardo de codificación más elevado de la señal de ruido de inactividad. El funcionamiento de SCR hace uso de un Detector de Actividad de Voz (VAD -" Voice Activity Detector"), el cual detecta si la señal presente en ese momento es habla activa o silencio. De esta forma, el funcionamiento de SCR hace uso del hecho de que una señal de habla requiere una velocidad de bits variable en el tiempo, que depende de su contenido. Sin embargo, con o sin funcionamiento de SCR, no se ha realizado hasta el momento ninguna tentativa para controlar la ganancia de codificación mediante la adaptación del retardo a la señal, puesto que aparecerán dificultades de regulación temporal. La codificación es, por tanto, menos eficiente que lo que podría ser.

\newpage

Con el fin de visualizar los beneficios de la presente invención, un procedimiento de la técnica anterior para una situación conversacional típica se ilustra primeramente en la Figura 1. Aquí, se supone que un retardo máximo de ida y vuelta solicitado es 500 ms. Este valor es aproximadamente lo que puede aceptarse en la mayoría de los sistemas suponiendo una buena cancelación del eco, pero los valores de los retardos en los siguientes ejemplos son tan sólo meros ejemplos para tener algo con lo que contar. Puede utilizarse cualquier tamaño de retardos por la siguiente invención. En este primer ejemplo de acuerdo con la técnica anterior, el retardo disponible se divide en dos partes iguales, 250 ms para cada sentido.

Dos usuarios U1 y U2 están conversando. En el instante t_{0}, el usuario U1 se encuentra activo y habla. El habla o locución, que se ilustra como un área sombreada en el nivel T (transmisión) de la parte del usuario U1, es transferida al usuario U2, quien recibe el habla, ilustrada como otra área sombreada en el nivel R (recepción) de la parte del usuario U2, con un retardo de 250 ms. La información proporcionada por el usuario U1 en t_{0} es, por tanto, recibida por U2 en el instante t_{1}. El usuario U1 continúa hablando hasta el instante t_{2}. El final del habla da pie a una respuesta por parte del usuario U2. Este final del habla es presentado a U2 en t_{3}, con el retardo ordinario de 250 ms. El usuario U2 emplea un tiempo de reacción \Deltat_{1} para iniciar su respuesta, y, en el tiempo t_{4}, el usuario U2 pasa a estar activo y comienza a hablar. El comienzo del habla de U2 llega a U1 en el instante t_{5}. El usuario U1 aprecia un tiempo de respuesta total \Deltat_{2} que es la suma del tiempo de reacción real \Deltat_{1} y el retardo en ambos sentidos de la comunicación, es decir, que el retardo experimentado se convierte en:

\Deltat_{2} = \Deltat_{1} + 250 ms + 250 ms.

Si el tiempo de respuesta \Deltat_{2} se hace demasiado grande, la conversación se hace difícil de llevar a cabo. Sin embargo, este tiempo de respuesta se experimenta, más o menos, únicamente en relación con el comienzo absoluto del habla en uno de los sentidos. Durante un flujo continuo del habla, la sensibilidad para los retardos es, generalmente, mucho menor.

U2 continúa hablando. En el instante t_{6}, U2 proporciona alguna información que da pie en U1 a una respuesta interruptora. Esta información llega a U1 en el instante t_{7}. Se utiliza un tiempo de reacción \Deltat_{3} por parte del usuario U1 antes del comienzo del habla, en t_{8}. Este comienzo llega hasta U2 en el instante t_{9}, lo que arroja un tiempo de respuesta total de \Deltat_{4}. En analogía con lo anterior:

\Deltat_{4} = \Deltat_{3} + 250 ms + 250 ms.

en la Figura 1 se constata fácilmente que la mayor parte del tiempo, al menos uno de los usuarios se encuentra inactivo. Durante tales periodos, el retardo de los datos que representan el silencio es totalmente irrelevante para la apreciación de la facilidad en la conversación. En muchos casos, tal y como se ha mencionado anteriormente, la señal de silencio verdadera ni siquiera es transferida, sino que, en su lugar, se transfiere un ruido de confort o parámetros de SID (Descriptor del Silencio -"Silence Descriptor"). La presente invención se sirve de esta asimetría para conseguir beneficios para el sistema.

En este ejemplo ilustrativo, así como en los dos siguientes ejemplos, se supone que se conoce un retardo de transmisión real. Típicamente, el retardo de transmisión tiene una cierta distribución estadística. Estos detalles se expondrán adicionalmente más adelante, y, en los primeros ejemplos ilustrativos, el retardo de transmisión se considera conocido y constante en aras de la simplicidad.

En la Figura 2 se ilustra una situación de acuerdo con la presente invención. En este primer ejemplo sencillo, se supone que únicamente habla un usuario en un instante dado, al objeto de facilitar la comprensión de las ideas básicas de la invención. En la parte superior de la Figura se muestran ilustraciones de los periodos activos para los dos usuarios conversacionales, conjuntamente con tiempos de retardo y tiempos de llegada del habla, en analogía con la Figura 1. En la parte media de la Figura 2 se indican los tiempos de retardo para transmisión en los diferentes sentidos. T1 es la transmisión del usuario U1 al usuario U2, y T2 es la transmisión del usuario U2 al usuario U1.

En el instante t_{10}, el usuario U1 habla y el usuario U2 está en silencio. Este habla está de acuerdo con el esquema de retardo de la parte media de la Figura 2, retardado 350 ms durante su codificación/descodificación, transferencia, etc., al usuario U2. El usuario U2 aprecia, por tanto, el habla en el instante t_{11}. El tiempo de retardo para los datos en el sentido opuesto carece de importancia, puesto que no se transfiere ningún dato de valor informativo en este sentido. El usuario U1 cesa de hablar en el instante t_{12}, lo que se constata por parte del usuario U2 en el instante t_{13}, retrasado 350 ms. El usuario U2 reacciona a esta detención durante un tiempo de reacción de \Deltat_{5} y comienza a aportar una respuesta en el instante t_{14}. Cuando el usuario U2 pasa a estar activo, el retardo en este sentido de transferencia se hace importante. Se emplea, de esta forma, al comienzo del habla un modo de transferencia que tiene un retardo reducido; véase el diagrama de retardo T2 en la parte media de la Figura 2. En este caso, se emplea un modo de transferencia que tiene un retardo de 150 ms. El comienzo del habla, creado en t_{14}, se presenta, por tanto, al usuario en el instante t_{15}. El usuario U1 aprecia un tiempo de retardo de \Deltat_{6}:

\Deltat_{6} = \Deltat_{5} + 350 ms + 150 ms.

El comienzo de la respuesta se presenta, por tanto, al usuario U1 exactamente con el mismo retardo de ida y vuelta que el que sería con técnicas convencionales.

Sin embargo, la transferencia que tiene un retardo de 150 ms demanda una gran cantidad de recursos o da lugar a una calidad del habla muy baja. En consecuencia, se solicita un cambio a modos de transferencia que tienen retardos más altos. El usuario U1 está inactivo, y, tras un corto periodo de tiempo, en el instante t_{16}, el modo de transferencia se cambia, en esta realización, a un modo que tiene un retardo de 350 ms. El cambio se lleva a cabo en el instante t_{17}, es decir, el retardo se aproxima gradualmente al valor final. En el lado de U2, el habla del intervalo \Deltat_{7} se transmite al lado de U1 para ser recibida dentro del intervalo de tiempo de \Deltat_{8}. Puesto que la duración de \Deltat_{8} es mayor que la de \Deltat_{7}, el habla tiene que ser retardada gradualmente. Este retardo puede ser tomado a cargo en el extremo del emisor o, preferiblemente, en el del receptor, por ejemplo, por técnicas de estiramiento o extensión, o mediante la inserción de cortos intervalos de silencio, por ejemplo, entre dos palabras. Esto se explicará con mayor detalle más adelante. En tales casos, el usuario U1 apenas notará el retardo extra en medio del habla.

El habla desde U2 hasta U1 se transfiere ahora con el retardo incrementado de 350 ms. El usuario U2 pasa a estar inactivo en el instante t_{18}, y esta inactividad se presenta a U1 en el instante t_{19}. El usuario U1 puede entonces preparar su respuesta.

Se aprecia de inmediato que la mayor parte de la comunicación, de acuerdo con la presente invención, se realiza utilizando un modo de transferencia que tiene un retardo incrementado (350 ms en el presente ejemplo). Al mismo tiempo, el retardo de cierre d de bucle al comienzo del habla se conserva (en 500 ms en el presente ejemplo).

El tiempo de retardo extra disponible puede ser utilizado de diferentes maneras. Se proporcionan dos ejemplos en la parte inferior de la Figura 2. En un primer ejemplo, el retardo incrementado se utiliza para reducir las demandas de recursos de transmisión. La línea discontinua corresponde a las demandas de recursos utilizando distribución de retardo convencional. La línea continua representa las demandas de recursos cuando se utiliza la presente realización de la presente invención. Se aprecia que el resultado se convierte en una reducción global en la demanda de recursos. En el instante t_{14}, es decir, al comienzo de la respuesta del usuario U2, el modo de transferencia utilizado tiene un retardo de únicamente 150 ms, lo que significa que los recursos de transmisión se utilizan en un grado más alto que el normal. Sin embargo, el periodo de tiempo en el que se necesita esta utilización de recursos más alta es muy corto, y la utilización media de los recursos se ve, por tanto, significativamente reducida. Como tales picos de utilización de recursos tienen lugar al comienzo del habla, tales ocasiones estarán repartidas estadísticamente a lo largo del tiempo y, para un sistema grande que maneja multitud de conversaciones, esto tendrá como resultado un incrementado pequeño en la utilización de recursos. Sin embargo, en comparación con la gran reducción durante el tiempo restante, este incremento es, ciertamente, muy pequeño.

Otra forma de utilizar el tiempo de retardo disponible incrementado es, en lugar de ello, incrementar la calidad del habla. Puesto que puede lograrse una mejor codificación, la calidad puede ser mejorada. Esto se ilustra en la parte de más abajo de la Figura 2. Aquí, se ha trazado una medida de la calidad en función del tiempo en el curdo de toda la comunicación conversacional. Se aprecia que la calidad medida de la conversación se ha incrementado. Sin embargo, en analogía con el caso de la utilización de recursos, la situación es diferente justo al comienzo del habla, cuando se utiliza un retardo bajo. Esto significa que la calidad del habla cae justo al comienzo del habla, pero se recupera rápidamente cuando se incrementa el retardo utilizado.

Como constata cualquier experto de la técnica, el incremento en el retardo disponible puede también ser utilizado de muchas otras formas. Por ejemplo, puede emplearse una combinación de incremento en la calidad y demandas de recursos.

El precio que se ha de pagar para lograr estas ventajas es un retardo total de 200 ms de toda la conversación cada vez que cambia el sentido del habla. Puesto que este retardo preferiblemente es ocultado dentro del habla continua, los usuarios probablemente no notarán el retardo en absoluto. Sin embargo, el tiempo de respuesta, es decir, el tiempo de cierre de bucle o de ida y vuelta al comienzo del habla, que es el tiempo crucial para tener una conversación inafectada, permanece inalterado.

En el ejemplo anterior, los usuarios que conversaban se estaban comportando muy bien, esperando a que la otra parte terminase su locución para responder. Sin embargo, la conversación comprende también, típicamente, interrupciones, locuciones simultáneas en ambos sentidos, etc. El esquema que se ha descrito antes proporciona ciertamente una mejora también en tales situaciones. La ocasión más crucial, cuando un usuario es más susceptible de ser molestado por lo que respecta al retardo, es al comienzo del habla de uno de los usuarios. La solución anteriormente presentada resuelve ese problema incluso cuando el comienzo se produce durante el habla continua del otro usuario. Sin embargo, puesto que el tiempo de retardo se ve incrementado tras el comienzo, el verdadero retardo de ida y vuelta se incrementará si ambas partes continúan hablando. Probablemente, éste es de menos importancia, ya que los conversadores
están ocupados en su propio discurso y son, por tanto, probablemente menos sensibles a retardos adicionales menores.

Podrían darse, sin embargo, situaciones en las que tal incremento en el tiempo de respuesta no puede tolerarse. Uno de estos casos es, por ejemplo, en entornos con un fuerte ruido de fondo, en los que la inactividad que comprende el ruido de fondo se clasifica erróneamente como habla activa. Realizaciones preferidas de la presente invención también se adecuan, en efecto, a estas situaciones.

En la Figura 3 se proporciona otro ejemplo. Aquí también, se supone un retardo total máximo de ida y vuelta de 500 ms, y es posible emplear modos de transferencia que tienen tiempos de retardo desde 150 ms hasta 350 ms.

En el instante t_{20}, el usuario U_{1} habla. El habla es transferida con un retardo de 350 ms y llega hasta el usuario U_{2} en el instante t_{21}. La información que llega hasta el usuario U2 da pie a que el usuario le interrumpa, es decir, inicie una respuesta antes de que el usuario U1 haya terminado su locución. Tras un tiempo de reacción \Deltat_{9}, el usuario U2 comienza su réplica en t_{22}, empleando un tiempo de retardo de 150 ms. El comienzo de la réplica llega hasta el usuario U1 en t_{23}, lo que proporciona un retardo de respuesta total de \Deltat_{9}. Este retardo está en analogía con los anteriores:

\Deltat_{10} = \Deltat_{9} + 350 ms + 150 ms.

Cuando la respuesta llega hasta el usuario U1, los dos sentidos de comunicación están simultáneamente activos. De acuerdo con ello, el modo de transferencia para el habla del usuario U1 tiene que cambiarse a un modo de transferencia que tenga un retardo más corto, preferiblemente la mitad del retardo de ida y vuelta total permitido, es decir, de 250 ms. El habla del usuario U1, transferida inmediatamente antes de la llegada del comienzo del habla desde el usuario U2, es decir, justo antes de t_{23}, se transferirá con un retardo elevado. Durante un intervalo de tiempo \Deltat_{11}, el modo de transferencia se cambia gradualmente para que se aproxime a un retardo de 250 ms y finalmente lo emplee. El final de esta sección o tramo de habla llegará, por tanto, al usuario U2 en t_{25}. El habla del intervalo \Deltat_{11} será, por tanto, presentada al usuario U1 durante un intervalo de tiempo ligeramente más corto \Deltat_{12}. Esto implica que ha de producirse alguna clase de compresión del habla o desechado de información. Esto se explica con mayor detalle más adelante. Aquí, únicamente se destaca que tiene lugar una cierta compresión del habla.

Cuando se reduce el retardo de la transferencia del habla del usuario U1 al usuario U2, se permitirá que el sentido opuesto utilice una parte más grande del presupuesto o provisión de retardo disponible. De acuerdo con esto, el retardo de la transferencia desde U2 hasta U1 se incrementa, preferiblemente de forma gradual. En la presente realización, este incremento tiene lugar en el intervalo de tiempo \Deltat_{12}, lo que significa que el habla creada en el instante t_{25} experimentará un retardo de transferencia de 250 ms. El habla de U2 del intervalo \Deltat_{12} llegará al usuario U1 durante el intervalo \Deltat_{13}. Como la duración de \Deltat_{13} es más larga que la duración de \Deltat_{12}, ha de aplicarse un procedimiento de estiramiento o extensión del habla. Esto se explica con mayor detalle más adelante.

En el instante t_{26}, el habla de U1 termina, y el enlace desde U1 hasta U2 queda inactivo. Puesto que el retardo de transferencia es 250 ms, el final del habla que llega a U2 se produce en el instante t_{27}. Uno de los sentidos está ahora inactivo, lo que significa que, de acuerdo con la presente invención, puede utilizarse una parte mayor del registro de almacenamiento intermedio de retardo disponible por el enlace activo. Subsiguientemente, durante el intervalo de tiempo \Deltat_{14}, el retardo de transferencia de la información desde U1 hasta U2 se incrementa de 250 ms a 350 ms. En el lado de recepción, el habla se recibe dentro del intervalo de tiempo \Deltat_{15}, lo que significa que, una vez más, ha de llevarse a cabo un procedimiento de estiramiento o extensión del habla. Finalmente, el habla creada por U2 en el instante t_{28} experimenta un retardo de 350 ms durante la transferencia al usuario U1.

En el instante t_{29}, el usuario U1 pasa a estar activo de nuevo, y este comienzo de la actividad llega hasta el usuario U2 en el instante t_{30}. Este suceso, una vez, desencadena un ajuste dinámico de los retardos de la transferencia de datos en ambos sentidos.

En la parte inferior de la Figura 3, los diagramas ilustran el retardo de transferencia que se emplea en los diferentes sentidos, en las distintas ocasiones. Puede observarse que la ganancia en eficiencia de la presente invención se desvanece básicamente cuando los dos usuarios están hablando al mismo tiempo. Sin embargo, durante los periodos en los que únicamente está hablando un usuario, la invención genera ventajas globales en comparación con los sistemas de la técnica anterior.

Por el ejemplo anterior, se observa que los principios básicos de la presente invención pueden emplearse también cuando se produce una conversación totalmente dúplex verdaderamente simultánea. De preferencia, en tales casos, se utilizan mecanismos que se ocupan de la compresión del habla y de la extensión del habla para hacer el habla que se presenta a los usuarios tan suave como sea posible, sin pérdidas molestas ni pausas apreciables.

Mediante la obtención de una determinación del valor de información transportado por los datos en los diferentes sentidos, puede llevarse a cabo una asignación dinámica de modos de transferencia, por ejemplo, modos que tienen diferentes retardos de codificación. El retardo de codificación se hace, por tanto, dependiente de la determinación del valor del contenido de los datos transmitidos. El valor de información puede estar, ya sea estando el enlace que porta los datos activo, ya sea estando inactivo. Mediante la determinación del valor de información en ambos sentidos, pueden determinarse periodos en los que únicamente está activa una dirección. Durante tales periodos, pueden utilizarse modos de transferencia que tienen un retardo de codificación más grande que el convencional. El retardo en un enlace activo, cuando el enlace opuesto está inactivo, puede, por tanto, incrementarse hasta un valor que excede la mitad del retardo máximo de ida y vuelta solicitado. Sin embargo, la diferencia entre dicho retardo mejorado y el retardo máximo de ida y vuelta ha de admitir un retardo provocado por una transferencia de respuesta. Esta transferencia de respuesta puede, sin embargo, tener un retardo de codificación muy bajo, ya que únicamente se utilizará con una duración corta.

\newpage

La presente invención puede utilizarse en sistemas conversacionales de diferentes tipos. Las señales transferidas pueden representar señales de audio así como señales de vídeo. En el caso de señales de audio, la inactividad puede, por ejemplo, definirse como silencio, ruido de fondo y/o una señal constante invariante con el tiempo. En el caso de vídeo, la inactividad puede, por ejemplo, definirse como ausencia de imagen en absoluto, ruido de fondo y/o una imagen detenida. Es común para estas situaciones de "inactividad" que el valor de información de los datos transmitidos sea ninguno o muy bajo, y que el contenido no influencie al receptor.

La invención puede aplicarse incluso en sistemas de comunicación con múltiples partes (por ejemplo, conferencia), con más de dos participantes. En este caso, típicamente, una de las partes está activa y obtiene un elevado retardo de codificación en los enlaces con todas las demás partes (inactivas). En el caso de cambio de la parte activa, se aplica un retardo de codificación bajo para el comienzo que se ha de transmitir desde la parte que empieza a estar activa hasta la parte que estaba activa anteriormente (o que incluso lo está aún). En el (los) enlace(s) desde la nueva parte activa hasta las partes que han estado previamente inactivas, puede utilizarse un alto retardo incluso para el comienzo.

En los ejemplos anteriores, se han aplicado tres niveles de retardo. Sin embargo, es posible aplicar cualquier número de niveles de retardo mayor que uno, así como soluciones basadas en variaciones de nivel de retardo continuas o pseudo-continuas. Cuanto mayor es el número de niveles de retardo disponibles, más eficiente se hace el método y menos complicada se hace la compresión/extensión de los datos. Semejante pluralidad de niveles de retardo de codificación está basada, preferiblemente, en un conjunto de esquemas de codificación predeterminados.

Puede arrojarse más luz sobre el beneficio real con la solución descrita por medio de dos ejemplos adicionales, uno de los cuales implica transmisión conmutada en paquetes y el otro de los cuales comprende transmisión conmutada en circuitos.

Con la transmisión conmutada en paquetes ejemplificada, se supone que existe una provisión de retardo total que se ha de distribuir entre enlaces activos y pasivos de 400 ms. Existe una distribución dada de los retardos de transmisión de paquetes desde el emisor hasta el recetor, que, por razones de simplicidad, se supone idéntica para ambos sentidos. Puede suponerse que una distribución de retardos típica tiene una alta probabilidad para retardos pequeños y una probabilidad pequeña, pero no nula, para retardos grandes. Una solución del estado de la técnica asignará un máximo de 200 ms a los registros de almacenamiento intermedio de fluctuaciones de los dos sentidos de comunicación. Esto permitirá descodificar adecuadamente todos los paquetes que llegan dentro de una ventana de 200 ms. Todos los últimos paquetes se considerarán como paquetes perdidos. En este ejemplo, se supone que la distribución de retardos es tal, que la probabilidad de que un paquete no llegue a tiempo es el 3%.

Una solución de acuerdo con la presente invención puede asignar al enlace activo, por ejemplo, 350 ms. Para el enlace activo, la probabilidad de no recibir un paquete a tiempo se verá reducida, por ejemplo, al 1%, lo que conduce a una mejora de la calidad. Para el enlace inactivo existen dos opciones básicas. Se utilizará, de la provisión de retardo, cualquier valor no mayor que el retardo de 50 ms segundos que resta. Esto conducirá a una proporción de pérdida de paquetes incrementada, lo que, sin embargo, será tolerable puesto que concierne a la señal de inactividad menos importante. O bien, se mantiene un alto retardo de codificación (es decir, la longitud del registro de almacenamiento intermedio de las fluctuaciones) siempre y cuando el enlace se encuentre inactivo. En cualquier caso, a más tardar cuando el enlace comienza a pasar a estar activo, el bajo retardo de 50 ms estará obligado, puesto que porta una respuesta en la conversación. El registro de almacenamiento intermedio de fluctuaciones se ajusta de acuerdo con la recepción del primer paquete que porta el comienzo del habla. Cuando el enlace inactivo conmuta o cambia a la alternativa de 50 ms, la información que resta en el registro de amortiguación de fluctuaciones de 350 ms puede ser desechada sin ninguna pérdida significativa de información. Con el fin de compensar la pérdida en la ganancia de codificación debida al registro de almacenamiento intermedio de las fluctuaciones, pueden aplicarse para el comienzo técnicas de transmisión más costosas, tales como la transmisión de paquetes con redundancia y la transmisión en paquetes más pequeños. Después de dicha transmisión rápida del comienzo, el retardo de codificación, es decir, el tamaño del registro de almacenamiento intermedio de las fluctuaciones, se incrementará hasta el retardo para un enlace activo de 350 ms, preferiblemente, tan continuo como sea posible. A más tardar, cuando el registro de almacenamiento intermedio de las fluctuaciones ha alcanzado su longitud máxima, la transmisión conmutada en paquetes puede cambiarse de nuevo al modo normal sin ninguna redundancia añadida y con paquetes de tamaño normal.

El beneficio de la solución del ejemplo anterior es una calidad de comunicación incrementada.

En un ejemplo de transmisión conmutada en circuitos, se supone que un presupuesto o provisión de retardo total disponible para la comunicación es 125 ms. Una solución del estado de la técnica para una comunicación entre dos partes distribuirá la provisión uniformemente de tal manera que los enlaces directos, o de ida, e inversos, o de vuelta, obtienen, cada uno de ellos, 62,5 ms de retardo de codificación disponible. Se utilizarán, por ejemplo, 25 ms para la codificación de fuente y 37,5 ms para la codificación de canal incluyendo intercalado. Se supone, de manera adicional, que la transmisión en el enlace activo requiere un nivel de potencia TX_{lev\_A-B} al objeto de conseguir una proporción de borrado de tramas del 0,5%. En el enlace inverso inactivo, se utiliza DTX con un nivel de potencia promedio de 1/8 de TX_{lev\_A-B}. Una solución de acuerdo con la invención podría ser incrementar el retardo en el enlace activo hasta 82,5 ms y reducirlo en el enlace inactivo hasta 42,5 ms. Esto puede conducir, por ejemplo, a una ganancia de codificación incrementada en el enlace activo en 1 dB, en tanto que la ganancia de codificación en el enlace inactivo se reduce en 3 dB. El mismo comportamiento en la transmisión se consigue, de esta forma, con una potencia reducida en 1 dB en el enlace activo y una potencia incrementada en 3 dB en el enlace inactivo. La provisión de potencia de transmisión total, considerando los enlaces de comunicación tanto directo, o de ida, como inverso, o de vuelta, se deduce a
partir de

\quad: (1 + 1/8)*TX_{lev\_A-B} = 1,125*TX_{lev\_A-B}

\quad: (1*10^{-1/10} + (1/8)*10^{3/10})*TX_{lev\_A-B} = 1,044*TX_{lev\_A-B}

Puede concluirse, por tanto, que la solución proporciona al sistema una ganancia global que puede, por ejemplo, utilizarse para incrementar la capacidad.

La ganancia que se puede conseguir es incluso superior (provisión de transmisión total = 0,919 * TX_{lev\_A-B}), considerando que es aceptable un retardo de codificación más alto para la señal de inactividad. El retardo de codificación para la señal de inactividad no necesita ser reducido y no es necesario compensar ninguna pérdida en la ganancia de codificación. En este caso, es necesario asegurarse de que la provisión de retardo no es superada cuando el enlace inactivo comienza a estar activo, al portar una respuesta en la conversación. Con el fin de garantizar una transmisión adecuada del comienzo de la señal del enlace que pasa a estar activo, a pesar del retardo de codificación bajo, es posible compensar la ganancia de codificación reducida (temporalmente) incrementando la potencia de transmisión. Después de la transmisión rápida del comienzo, la codificación se conmuta a una codificación más eficiente con un retardo más alto. La conmutación a una codificación con retardo más alto requiere que la señal de salida sea estirada o extendida en el tiempo. Esto puede hacerse de acuerdo con cualquier algoritmo de modificación de escala temporal del estado de la técnica.

En principio, las ideas básicas de la presente invención pueden aplicarse autónomamente en cada sentido de comunicación. Si el enlace se encuentra activo, el retardo de codificación se incrementa hasta algún máximo. Si el enlace pasa a estar activo en ese momento, el retardo se reduce hasta algún límite inferior y se incrementa de forma subsiguiente. Estas soluciones trabajarán de forma independiente de la comunicación del sentido opuesto, siempre y cuando esté activo un único enlace en cada momento, es decir, de acuerdo con el ejemplo que se ilustra en la Figura 2. Aquí, tan sólo es necesario conocer el nivel de actividad en uno de los enlaces de comunicación. Semejante solución no requiere, ciertamente, hacer posible mantener el tiempo de respuesta total solicitado al comienzo de un periodo de actividad, que es el instante más importante para que un usuario reaccione ante los retardos. Sin embargo, dichas soluciones no proporcionan un control completo sobre el tiempo de respuesta en ciertas condiciones, cuando ambos enlaces están activos al mismo tiempo. El tiempo de respuesta superará entonces un límite máximo predefinido, puesto que ambos enlaces aplican un retardo de codificación largo.

Como solución para este problema, según se ilustra, por ejemplo, por la Figura 3, puede aplicarse un mecanismo de control del tiempo de respuesta. Tal mecanismo garantiza que el tiempo de respuesta nunca supere un límite predefinido. Éste requiere, en primer lugar, medir la cantidad de actividad o retardo en ambos sentidos de comunicación, y, en segundo lugar, requiere adaptar el retardo permitido máximo para la actividad.

Una solución simple consiste en obtener las mediciones requeridas basándose en el estado de actividad de ambos enlaces. Esto es posible en cada extremo de comunicación siempre y cuando ambos enlaces sean simétricos en términos de retardo de comunicación disponible para las señales de actividad. La detección de que ambos enlaces, entrante y saliente, se encuentran activos al mismo tiempo, permite suponer que el retardo de codificación total utilizado es dos veces el retardo de codificación causado en cada extremo de la comunicación. El retardo causado por cada extremo se encuentra, obviamente, disponible para cada extremo.

Un método más universal, pero más exigente, consiste en intercambiar la información de lado entre los extremos de la comunicación, alrededor del retardo de codificación que se está utilizando en ese momento en cada extremo, o en realizar mediciones de retardo de ida y vuelta, para las que proporciona soporte, por ejemplo, la RTCP (IETF RFC 1889), págs. 24-27.

Si el retardo de codificación total medido supera la provisión de retardo de codificación permitida, entonces el retardo máximo de codificación permitido para la actividad tiene que ser adaptado, por ejemplo en conexión con la Figura 3 según lo anterior. Una posibilidad simple consiste en asignar a cada enlace la mitad de la provisión de retardo de codificación.

Un método general de acuerdo con la presente invención puede ser ilustrado por el diagrama de flujo de la Figura 4. El procedimiento se inicia en la etapa 200. En la etapa 202 se lleva a cabo una transferencia de datos completamente dúplex. En la etapa 204 se obtiene una determinación del valor de información de los datos transferidos, preferiblemente en términos de actividad e inactividad. Finalmente, en la etapa 206, la determinación se utiliza para asignar dinámicamente retardos de codificación apropiados. Se asigna un retardo de codificación más alto cuando el enlace está activo, al menos cuando el enlace en el sentido opuesto se encuentra inactivo. Por otra parte, preferiblemente, se asigna un retardo de codificación más bajo al comienzo de la actividad. El procedimiento finaliza en la etapa 208.

La Figura 5 ilustra una realización de un sistema de comunicación 1 para comunicación completamente dúplex de servicios conversacionales de acuerdo con la presente invención. El sistema de comunicación 1 comprende una red 10, que conecta un cierto número de terminales 20 de usuario, de los cuales tan sólo se ilustran unos pocos. Los terminales 20 de usuario están conectados por una conexión completamente dúplex 30 que comprende una conexión entrante 32 y una conexión saliente 34. Las conexiones saliente y entrante 32, 34 pueden realizarse en la práctica como medios comunes o independientes. El terminal 20 de usuario comprende unos medios transceptores, o transmisores-receptores, 22, responsables de transmitir y recibir datos, respectivamente, en las conexiones saliente y entrante. Estos medios transmisores-receptores 22 comprenden, por ejemplo, medios para transferir datos de una manera completamente dúplex, medios de codificación/descodificación, etc., necesarios para la red particular a la que está conectado el terminal 20. Los medios transmisores-receptores comprenden adicionalmente medios de control 26 del modo de transferencia, responsables de seleccionar un modo de transferencia del tráfico entrante y/o saliente. Estos modos de transferencia pueden comprender diferentes codificaciones, registros de almacenamiento intermedio, etc. El terminal 20 comprende adicionalmente un detector 24 para la determinación del valor de información portado por los datos en la conexión completamente dúplex 30. En esta realización, el detector 24 comprende unos medios de detección de la actividad, conectados para determinar la actividad en la conexión saliente 34, así como en la conexión entrante 32. El detector 24 está conectado a los medios de control 26 del modo de transferencia de los medios transmisores-receptores 22. Los medios de control 26 del modo de transferencia están, de conformidad con la presente invención, dispuestos para asignar dinámicamente modos de transferencia de acuerdo con la determinación del detector 24. En esta realización, ambos enlaces de la comunicación son supervisados con respecto al nivel de actividad, lo que permite un verdadero control del tiempo de respuesta.

En la Figura 6 se ilustra otra realización de un terminal 20 de usuario de acuerdo con la presente invención. Aquí, el detector 24 se ha dispuesto únicamente para supervisar uno de los enlaces por lo que respecta a la actividad. En tal caso, si no se intercambia información adicional dentro del sistema, se garantiza únicamente un control del tiempo de respuesta al comienzo de un periodo de actividad.

En la Figura 7 se ilustra aún otra realización de un terminal 20 de usuario de acuerdo con la presente invención. Aquí, el detector 24 sólo supervisa de hecho la conexión saliente por lo que respecta a la actividad. Sin embargo, en esta realización, los medios de transferencia 22 comprenden adicionalmente medios 28 para el intercambio de información relativa al retardo. Los medios 28 para el intercambio de información relativa al retardo están dispuestos para recibir señalización de control concerniente a aspectos de retardo. Por ejemplo, el otro terminal de usuario puede transferir un mensaje de que se aplica un cierto modo de transferencia que tiene un retardo concreto. Tal información, conjuntamente con la información de la actividad en la conexión saliente 32, que se logra a través del detector 24, permite a los medios de control 26 del modo de transferencia seleccionen un retardo apropiado para los datos de salida. Preferiblemente, los medios 28 para el intercambio de información de retardo también convierten el resultado procedente del detector 24 en señales de control, que son transferidas al terminal de usuario opuesto.

La Figura 8 ilustra una realización de un terminal 20 de acuerdo con la presente invención. Se supone que el sistema de transmisión de esta realización funciona con transmisión conmutada en paquetes, es decir, la red de comunicación 20 es, en esta realización, una red de paquetes. Por otra parte, se supone la comunicación entre dos terminales de acuerdo con la Figura 8, ó que tiene una capacidad funcional correspondiente. El habla entrante (SPEECH IN) presentada por un usuario, se proporciona al terminal 20. Un convertidor de A/D 40 digitaliza la señal analógica entrante y suministra como salida una señal digitalizada muestra a muestra, con una cierta velocidad de muestreo (SF_{IN}) de, por ejemplo, 8 kHz. Como los codecs, o codificadores-descodificadores de habla eficientes habitualmente trabajan sobre la base de tramas, existe un registro de almacenamiento intermedio 42 de tramas en la parte frontal de un codificador de habla (SPE) 44, que recoge tramas de muestras (de, por ejemplo, 20 ms de longitud), que son procesadas por el SPE 44. El ajuste de frecuencia de paso es controlado por una señal de reloj de ajuste de frecuencia de paso (FRAME CLK). El SPE 44 funciona sobre la base de tramas y suministra como salida datos de habla codificados. Los datos de habla codificados, de los cuales cada conjunto de datos representa una trama de habla, se propaga entonces hasta un dispositivo 46 de estructuración en paquetes, el cual recoge un cierto número de tramas de datos de habla para formar un paquete de datos de habla, y le añade un encabezamiento de paquete. El paquete es entonces transmitido por un canal transmisor 50 a través del enlace saliente 34, por la red 10 de paquetes.

La transmisión por la red se caracteriza por un cierto perfil de retardo, que provoca que cada paquete sea retardado de acuerdo con alguna distribución de retardo estadística, con algún retardo de transmisión mínimo de, por ejemplo, 50 ms. También, una cierta proporción de los paquetes transmitidos se perderá y nunca llegará al enlace entrante 32 situado en el extremo de recepción.

En el receptor, los paquetes que llegan son suministrados al interior de un dispositivo 52 de desestructuración de paquetes y, a continuación, a un registro 54 de almacenamiento intermedio de las fluctuaciones, cuyo propósito es transformar la corriente de entrada discontinua de paquetes en una corriente continua de tramas de datos de habla que pueden ser descodificados por un descodificador del habla (SPD -"speech decoder") 56. El registro 54 de almacenamiento intermedio de las fluctuaciones suministra como salida tramas de datos de habla en respuesta a una señal de reloj de salida, que se describe más adelante. El SPD 56 descodifica las tramas de datos de habla y suministra como salida, en respuesta a ellas, las tramas de habla descodificadas a un sincronizador 58 de muestras. El sincronizador 58 de muestras es, en su forma más simple, un registro de almacenamiento intermedio con un mecanismo de control de registro de almacenamiento intermedio que suministra como salida las muestras de habla a una frecuencia de muestreo dada (SfouT) a un convertidor de D/A 60, que, a su vez, genera la señal de salida de habla analógica (SPEECH OUT). Un sincronizador de muestras puede sencillamente insertar o desechar muestras, o puede también gestionar procedimientos de compresión o extensión del habla más avanzados. Esto se explica con mayor detalle más
adelante.

Existen dos modos básicos de controlar el funcionamiento del registro de almacenamiento intermedio de las fluctuaciones. Una forma sencilla consiste en establecer el reloj de salida en un submúltiplo tal del reloj convertidor de D/A, SF_{OUT}, que sea igual a la velocidad de tramas de codificador-descodificador de habla de, por ejemplo, 20 ms. Esto significa que el sincronizador de muestras se reduce a un mero convertidor de serie a paralelo y no es necesaria ninguna inserción ni borrado de muestras. Con el fin de garantizar la sincronización de tramas de emisor/receptor, el control del registro de almacenamiento intermedio de las fluctuaciones comprende medios para insertar o desechar tramas de datos de habla dependiendo de si el nivel de llenado del registro de almacenamiento intermedio promedio (un cierto promedio a corto plazo) es más bajo o más alto que un cierto nivel de registro de almacenamiento intermedio de las fluctuaciones pretendido o de objetivo.

Un segundo modo de control del registro de almacenamiento intermedio de las fluctuaciones consiste en manipular la señal de reloj de salida del registro de almacenamiento intermedio de las fluctuaciones. Este método tiene la ventaja de que la sincronización de emisor/receptor se realiza basándose en muestras en lugar de basándose en tramas. En funcionamiento normal (si no hay cambio en el sentido de la comunicación), idealmente, la frecuencia de la señal de reloj de salida del registro de almacenamiento intermedio de las fluctuaciones corresponde a la frecuencia de señal de reloj con la que el SPE 44 genera tramas de datos de habla. En la práctica, sin embargo, esta señal de reloj se obtiene en el receptor por ciertos mecanismos de control comprendidos en unos medios 26 de control de registro de almacenamiento intermedio de las fluctuaciones, mecanismos que están basados en el estado del registro de almacenamiento intermedio de las fluctuaciones, por ejemplo, el nivel de llenado. Existen métodos conocidos para controlar la señal de reloj del registro de almacenamiento intermedio de las fluctuaciones, que típicamente controlan la señal de reloj de tal modo que el nivel de llenado promedio del registro 54 de almacenamiento intermedio de las fluctuaciones es constante,
como en el método de control del registro de almacenamiento intermedio de las fluctuaciones anteriormente descrito.

En el contexto de la presente invención, es importante resaltar la relación existente entre el nivel promedio del registro de almacenamiento intermedio de las fluctuaciones y el retardo; un nivel promedio bajo del registro de almacenamiento intermedio de las fluctuaciones se corresponde con un bajo retardo de extremo a extremo, en tanto que un nivel promedio alto del registro de almacenamiento intermedio de las fluctuaciones corresponde a un retardo largo. Un nivel promedio y un retardo bajos del registro de almacenamiento intermedio de las fluctuaciones dan lugar a muchas pérdidas de tramas del habla debido a una alta probabilidad de un flujo excesivamente bajo en el registro de almacenamiento intermedio de las fluctuaciones, y un nivel promedio y un retardo altos del registro de almacenamiento intermedio de las fluctuaciones dan lugar a un número reducido de pérdidas de tramas y, por tanto, a una calidad del habla incrementada en el receptor.

En un ejemplo de un retardo de extremo a extremo típico implicado en el sistema de transmisión descrito, pueden identificarse los siguientes contribuidores principales, despreciando otros contribuidores menos relevantes, tales como, por ejemplo, retardos de tratamiento o procesamiento:

1. registro de almacenamiento intermedio de tramas de habla - 20 ms.

2. dispositivo de estructuración en paquetes con dos tramas de datos de habla - 20 ms.

3. retardo de paquetes desde la salida del dispositivo de estructuración en paquetes hasta la salida del registro de almacenamiento intermedio de las fluctuaciones de la primera trama de datos de habla del paquete - 100 ms ó 300 ms, alternativamente, que comprende:

3a.: retardo de transmisión de paquetes de acuerdo con un cierto perfil de retardo con un retardo de transmisión mínimo de 40 ms.

3b.: compensación de registro de almacenamiento intermedio de las fluctuaciones y del dispositivo de desestructuración de paquetes para variaciones de retardo de paquetes con una profundidad de registro de almacenamiento intermedio de fluctuaciones de 3 tramas de datos de habla (= 60 ms) ó 13 tramas de datos de habla (= 260 ms), alternativamente.

4. registro de almacenamiento intermedio de sincronización de muestras - 10 ms.

El retardo de extremo a extremo es, por tanto, 150 ms ó 350 ms, dependiendo de la profundidad del registro de almacenamiento intermedio de las fluctuaciones.

Supóngase que el usuario del presente terminal está en silencio, pero que se recibe habla activa desde otro terminal. En el enlace entrante 32 existe transmisión de habla activa, en tanto que, en el enlace saliente, tan sólo hay transmisión de una señal de silencio codificada (ruido de fondo). En consecuencia, la transmisión entrante tiene que ser tan eficiente como sea posible, lo que significa que se asigna a este enlace tanto retardo de codificación disponible como sea posible. Típicamente, el registro de almacenamiento intermedio de fluctuaciones del receptor utiliza este retardo de código, es decir, trabaja con un registro de almacenamiento intermedio de fluctuaciones profundo de 13 tramas de datos, lo que da lugar a un retardo de extremo a extremo del emisor al receptor de 350 ms. Debido a este retardo elevado, la calidad del habla reproducida en el receptor es alta. En el sentido opuesto, se utiliza una configuración con una profundidad del registro de almacenamiento intermedio de fluctuaciones pequeña, lo que causa un retardo de extremo a extremo
de 150 ms.

Considérese ahora que cambia el sentido de la comunicación. En primer lugar, el otro lado pasa a estar activo. Esto provoca que las tramas transmitidas en el enlace entrante 32 contengan una señal de silencio codificada. Las tramas correspondientes se marcan con una etiqueta de silencio correspondiente, suponiendo que existe un VAD en el lado de emisión. Alternativamente, como se ilustra en la presente realización, el terminal 20 puede emplear un VAD u otro detector activo 24 en conexión con el SPD 56 y obtener esta etiqueta localmente. Al estar la etiqueta de silencio activa, se genera una señal para los medios de control 26 del registro de almacenamiento intermedio de las fluctuaciones, lo que reduce la profundidad del registro de almacenamiento intermedio de las fluctuaciones hasta su mínimo de 3 tramas. Como consecuencia de ello, el retardo de extremo a extremo se reduce. La disminución de la profundidad del registro de almacenamiento intermedio de las fluctuaciones se lleva a cabo, bien reduciendo el número de tramas o bien incrementando la señal de reloj del registro de almacenamiento intermedio de las fluctuaciones. Una señal de reloj incrementada del registro de almacenamiento intermedio de las fluctuaciones hace que el SPD 56 produzca más tramas silenciosas descodificadas por unidad de tiempo, lo que, a su vez, llena el registro de almacenamiento intermedio de sincronización de muestras. Esto provocará que un procedimiento de sincronización de muestras simple deseche muestras en exceso. Como las muestras desechadas son muestras de señal de silencio, esta modificación de señal apenas es audible.

En segundo lugar, el usuario del presente terminal 20 pasa a estar activo. Como el enlace saliente 34 estaba antes activo, la profundidad del registro de almacenamiento intermedio de las fluctuaciones en el receptor es baja. Así pues, el comienzo del habla activa se transmite únicamente con 150 ms de retardo de extremo a extremo. El tiempo de respuesta resultante es, de esta forma, 500 ms. Sin embargo, como la profundidad del registro de almacenamiento intermedio de las fluctuaciones en el receptor opuesto tan sólo es baja, la proporción de las pérdidas de tramas se incrementa y la calidad del habla resultante será baja. Con el fin de compensar esto, se utiliza un recurso de transmisión más alto para la transmisión del comienzo del habla, es decir, para las n primeras tramas de habla tras un periodo de silencio. n puede ser, por ejemplo, 100, lo que corresponde a 2 segundos en tiempo. Una señal de comienzo que controla este comportamiento puede, por ejemplo, deducirse de una etiqueta de actividad de habla obtenida por un VAD en el enlace saliente. Se utiliza un recurso de transmisión más elevado, por ejemplo, enviando paquetes que comprenden únicamente una trama de datos de habla, en lugar de dos, y/o transmitiendo cada paquete dos veces. La reducción del número de tramas por paquete tiene la ventaja adicional de que reduce adicionalmente el retardo de extremo a extremo. El receptor opuesto, con la recepción de tramas de habla activa, marcadas por una etiqueta, bien generada por el VAD codificador o bien por un VAD descodificador local 24, que se emplea en conexión con el SPD 56, comienza a acumular profundidad de registro de almacenamiento intermedio de fluctuaciones. Esto se lleva a cabo, bien insertando tramas adicionales en el registro de almacenamiento intermedio de las fluctuaciones (por ejemplo, por la repetición de tramas) o bien tomando las etiquetas de tramas de habla activa como señal para que los medios de control 26 de registro de almacenamiento intermedio de fluctuaciones reduzcan la señal de reloj hasta que la profundidad del registro de almacenamiento intermedio de las fluctuaciones haya alcanzado su máximo de 13 tramas. En el primer caso, pueden generarse tramas adicionales, por ejemplo, por la repetición de tramas existentes. Preferiblemente, con el fin de no provocar un impacto en la calidad del habla resultante, se repiten las tramas que transportan partes de habla similares al ruido o partes de habla con un nivel bajo. Como consecuencia de este último caso, el SPD 56 producirá en un instante dado menos tramas de habla codificadas, lo que, a su vez, provocará que el nivel de llenado del registro de almacenamiento intermedio de sincronización de muestras se reduzca. Un método simple de sincronización de muestras puede entonces insertar muestras, por ejemplo, por repetición de las muestras, con el fin de evitar un flujo excesivamente bajo en el registro de almacenamiento intermedio de sincronización de muestras. Métodos más elaborados se exponen adicionalmente más adelante. En este ejemplo, la modificación y la acumulación de habla del retardo del registro de almacenamiento intermedio de las fluctuaciones lleva 2 s, lo que implica una modificación temporal del habla del 10%.

La realización de la Figura 8 provoca, de esta forma, un retardo bajo de un enlace inactivo y un retardo alto de un enlace activo, sin ningún control concreto del retardo de ida y vuelta.

La Figura 9 ilustra otra realización similar de un terminal 20 de acuerdo con la presente invención. A las partes que son las mismas que las de las realizaciones previas se les han dado los mismos números de referencia y no se explican adicionalmente si no son de particular importancia para el funcionamiento de la presente invención. Se supone que el sistema de transmisión de esta realización es el mismo que para la realización de la Figura 8. Las diferencias principales de la realización de la Figura 9, en comparación con la realización de la Figura 8, son que los medios 24 de comprobación de la actividad están conectados para determinar la actividad del enlace entrante antes del registro 54 de almacenamiento intermedio de las fluctuaciones, y que los medios 24 de comprobación de la actividad tienen una conexión de control directa 62 con el registro 54 de almacenamiento intermedio de las fluctuaciones. El dispositivo 52 de desestructuración de paquetes comprende también un convertidor 64 de SID.

Supóngase que el enlace entrante está activo y que el enlace saliente está inactivo. En el enlace entrante existe transmisión de habla activa, en tanto que en el enlace saliente tan sólo existe transmisión de una señal de silencio codificada. En consecuencia, el manejo del tráfico entrante ha de ser tan eficiente como sea posible, lo que significa que se asigna a este enlace tanto retardo de codificación disponible como sea posible. Típicamente, el registro de almacenamiento intermedio de fluctuaciones del receptor utiliza este retardo de codificación, es decir, trabaja con un registro de almacenamiento intermedio de fluctuaciones profundo de 13 tramas de datos de habla, lo que da lugar a un retardo de extremo a extremo de 30 ms. Debido a este retardo elevado, la calidad del habla reproducida en el receptor es alta. En el sentido saliente, el retardo de transmisión de extremo a extremo para la señal de silencio es también
350 ms.

Si ahora el enlace entrante pasa a estar inactivo, esto no causa, en la presente realización, ninguna modificación en el registro de almacenamiento intermedio de las fluctuaciones en absoluto, y, por tanto, ningún cambio en el retardo de extremo a extremo.

Supóngase, en lugar de ello, que ambos enlaces están inactivos, teniendo ambos un registro de almacenamiento intermedio de las fluctuaciones profundo. Ahora, el enlace entrante pasa a estar activo. Con el fin de obtener un tiempo de respuesta bajo, la recepción del primer tramo de habla activo provoca que el registro de almacenamiento intermedio de las fluctuaciones se vacíe o desocupe hasta la profundidad de registro de almacenamiento intermedio de fluctuaciones de 3 tramas. Puesto que las tramas desechadas son meras tramas de señal de silencio, esto no tiene significación alguna para la señal reconstruida en el receptor. La comprobación del habla activa se realiza, en esta realización, inmediatamente después de la desestructuración de paquetes y puede realizarse basándose en una etiqueta de actividad (generada por un VAD codificador) o localmente por un VAD descodificador 24, tal y como se ilustra en la Figura. El VAD 24 está dispuesto aquí para vaciar directamente el registro 54 de almacenamiento intermedio de las fluctuaciones. Debido al vaciado por volcado del registro de almacenamiento intermedio de fluctuaciones hasta descender a la profundidad inferior de registro de almacenamiento de fluctuaciones, el retardo de registro de almacenamiento intermedio de las fluctuaciones se ha visto reducido casi instantáneamente hasta el límite inferior y, en consecuencia, el comienzo del habla activa se transmite con sólo 150 ms de retardo de extremo a extremo. El tiempo de respuesta resultante es, por tanto, 500 ms. De nuevo, una proporción de pérdidas de tramas incrementada puede compensarse incrementando el uso de recursos de transmisión. Tras el vaciado por volcado y la reducción iniciales de la profundidad del registro de almacenamiento intermedio de las fluctuaciones, con la recepción de tramas de habla activas, se hace, de forma subsiguiente, que la profundidad del registro de almacenamiento intermedio de fluctuaciones comience a acumularse de nuevo. Esto se lleva a cabo tomando las etiquetas de trama de habla activa como señal para que los medios de control del registro de almacenamiento intermedio de las fluctuaciones incrementen la profundidad del registro de almacenamiento intermedio de las fluctuaciones una vez más, hasta su máximo de 13 tramas. Como antes, bien deben insertarse tramas de habla adicionales, o bien el sincronizador 58 de muestras ha de compensar una velocidad de tramas de habla reducida.

La presente realización comprende, en efecto, también una capacidad funcional de DTX. Esto significa que, en lugar de transmitir ruido de fondo real, existe una transmisión ocasional de tramas de ruido de confort. El retardo de transmisión real de extremo a extremo para este silencio puede incluso superar 350 ms, ya que las tramas de ruido son transmitidas únicamente de modo ocasional, por ejemplo, una vez cada octava trama (una vez cada 160 ms). El manejo de este caso se convierte en idéntico a la situación sin DTX si el dispositivo de desestructuración de paquetes comprende adicionalmente un convertidor 64 de trama de SID (Descriptor de Silencio), el cual convierte la corriente discontinua de tramas de SID entrantes en una secuencia de tramas de señal de silencio continua. Cada trama de SID entrante se reemplaza, a continuación, por ocho tramas de SID, con una trama de SID por cada 20 ms. En este ruido de confort puede tener lugar una interpolación de parámetros, lo que se realiza habitualmente en la síntesis del ruido de confort del SPD.

La Figura 10 ilustra otra realización similar de un terminal 20 de acuerdo con la presente invención. A las partes que son las mismas que las de realizaciones previas se les han dado los mismos números de referencia y no se explican adicionalmente si no es de particular importancia para el funcionamiento de la presente realización. Esta realización introduce una solución para un control del tiempo de respuesta de discurso doble. El principio consiste en detectar la actividad de habla en el extremo de transmisión, así como en propagar la etiqueta de actividad del lado de emisión a los medios de control 26 de registro de almacenamiento intermedio de fluctuaciones, además de la etiqueta de actividad perteneciente a la señal recibida.

Esto se consigue proporcionando, por ejemplo, un VAD 70 que se dispone de modo que detecte la situación en el extremo de transmisión y conectado a los medios de control 26 del registro de almacenamiento intermedio de las fluctuaciones. En el caso de que ambas etiquetas señalicen un habla activa, los medios de control 26 de registro de almacenamiento intermedio de fluctuaciones dirigen la profundidad del registro de almacenamiento intermedio de fluctuaciones hacia el promedio entre las profundidades máxima y mínima posibles del registro de almacenamiento intermedio de fluctuaciones, esto es, 8 tramas en la presente realización. Si la profundidad de registro de almacenamiento intermedio de fluctuaciones presente en ese momento es más baja que 8 tramas, entonces se desechan tramas, o bien, respectivamente, la señal de reloj se incrementa.

Los medios de control 26 del registro de almacenamiento intermedio de fluctuaciones pueden también comprender medios para posponer el incremento de la profundidad del registro de almacenamiento intermedio de fluctuaciones durante un periodo de tiempo predeterminado, con el fin de permitir que el lado opuesto comience a hacer ajustes de los cambios de actividad en los diferentes enlaces.

En la Figura 11, se introduce un control similar del tiempo de respuesta de discurso doble en un sistema que tiene un retardo elevado del enlace inactivo; véase la Figura 9.

Los ejemplos explicados hasta ahora permiten distribuir un presupuesto o provisión total disponible de retardo de codificación entre los dos enlaces, dependiendo del estado de actividad respectivo, y, por tanto, garantizar un cierto tiempo de respuesta. En general, sin embargo, estos métodos no permiten mantener un tiempo de respuesta absoluto dado. Una razón para esto es que, en general, el retardo de transmisión de paquetes a través de la red de paquetes es desconocido. Las soluciones dadas hasta ahora están basadas en el estado del registro de almacenamiento intermedio de fluctuaciones, en lugar de en el tiempo de respuesta verdadero. Al objeto de garantizar un cierto tiempo de respuesta absoluto, es necesario estimar el tiempo de transmisión verdadero. Esto puede realizarse, por ejemplo, por medio de mediciones de retardo de ida y vuelta en las que se transmite un mensaje desde uno de los lados, A, hasta el otro, B, y, tras la recepción en el lado B, posiblemente en la salida del registro de almacenamiento intermedio de fluctuaciones, se devuelve hacia el lado A. Dicha medición puede, por supuesto, realizarse en ambos lados. Basándose en dicha medición de retardo de ida y vuelta, puede obtenerse fácilmente el tiempo de respuesta verdadero y pueden ajustarse de conformidad con ello las profundidades máxima y mínima de objetivo o pretendidas del registro de almacenamiento intermedio de fluctuaciones. Si, por ejemplo, la medición del retardo de ida y vuelta conduce a un tiempo de respuesta verdadero de 600 ms en lugar de los 500 ms requeridos, es necesario reducir las profundidades de objetivo del registro de almacenamiento intermedio de fluctuaciones. La profundidad mínima de objetivo del registro de almacenamiento intermedio de fluctuaciones puede ser, por ejemplo, rebajada hasta 2 tramas de datos de habla (= 40 ms), y la profundidad máxima de objetivo del registro de almacenamiento intermedio de fluctuaciones puede disminuirse a 9 tramas (= 180 ms), con lo que se ahorran, en total, 100 ms en tiempo de respuesta.

Las últimas realizaciones se fundamentan en un control adecuado del registro de almacenamiento intermedio de las fluctuaciones. Su principio básico se explicará en lo que sigue, en relación con un diagrama de flujo que se ilustra en la Figura 12. Este diagrama de flujo corresponde a la realización de la Figura 10 si no se especifica de forma diferente. El procedimiento se inicia en la etapa 210. En general, el control del registro de almacenamiento intermedio de las fluctuaciones se realiza de tal manera que se satisface una cierta profundidad de objetivo del registro de almacenamiento intermedio de las fluctuaciones, dependiendo de la actividad de las señales de habla recibidas y, posiblemente, de las transmitidas. En la etapa 212 se detecta cualquier etiqueta de actividad de habla recibida. En la etapa 214 se detecta cualquier etiqueta de actividad de habla transmitida. Una entrada primordial a la lógica es la etiqueta de actividad del habla recibida. En la etapa 216 se comprueba si existe una etiqueta de actividad para el habla recibida. Si la señal recibida no es habla activa, entonces la profundidad de objetivo del registro de almacenamiento intermedio de fluctuaciones se establecerá en una profundidad de objetivo de registro de almacenamiento intermedio de fluctuaciones mínima, d_{min}, en la etapa 218. En ciertos casos, la provisión de retardo total no se mantiene constante; por ejemplo, de acuerdo con la Figura 9, el registro de almacenamiento intermedio de fluctuaciones de objetivo se deja, en lugar de ello, sin cambios.

Si la etiqueta de la etapa 216 indica actividad, el procedimiento prosigue hasta la etapa 220, en la que se comprueba si existe una etiqueta de actividad para el habla transmitida. Si la señal transmitida no es habla activa, entonces la profundidad de objetivo del registro de almacenamiento intermedio de fluctuaciones se ajustará en una profundidad de objetivo de registro de almacenamiento intermedio de fluctuaciones máxima, d_{max}, en la etapa 222. Si la señal transmitida es habla activa, entonces la profundidad de objetivo del registro de almacenamiento intermedio de fluctuaciones se ajustará en una profundidad de objetivo promedio de registro de almacenamiento intermedio de fluctuaciones, de (d_{min} + d_{max})/2, en la etapa 224. Si no se aplica ningún control del tiempo de respuesta, por ejemplo, como en la Figura 8, se selecciona siempre la etapa 222.

La profundidad de objetivo del registro de almacenamiento intermedio de fluctuaciones, obtenida como se ha descrito anteriormente, se compara entonces con el nivel de llenado promedio del registro de almacenamiento intermedio de fluctuaciones en la etapa 226. Si el nivel de llenado promedio es menor que el objetivo, se insertan tramas adicionales (por ejemplo, por repetición), o bien la salida del registro de almacenamiento intermedio de fluctuaciones se somete a la cadencia de una velocidad de señal de reloj reducida, en la etapa 228. Si el nivel de llenado promedio es superior al objetivo, se desechan tramas desde el registro de almacenamiento intermedio, o bien la salida del registro de almacenamiento intermedio de fluctuaciones se somete a la cadencia de una velocidad de señal de reloj incrementada, en la etapa 230. En una realización alternativa, la etapa 228 comprende, en lugar de ello, la inserción de tramas para incrementar el nivel de llenado, y la etapa 230 comprende, en su lugar, el desechado de tramas para reducir el nivel de llenado. El procedimiento se termina en la etapa 232. Si bien el presente diagrama de flujo se ha presentado de modo que tiene un arranque y una detención, el procedimiento de control es esencialmente continuo, de manera que el flujo real sigue típicamente la flecha discontinua de vuelta a la etapa 212.

Es importante destacar que es natural desplegar el control descrito de los objetivos del registro de almacenamiento intermedio de fluctuaciones en el lado de recepción. Es éste el caso puesto que la comparación con la profundidad promedio del registro de almacenamiento intermedio de fluctuaciones se hace de la forma más fácil en el receptor. Sin embargo, no es imposible desplegar un control de señal de reloj correspondiente en el lado de emisión, ya sea con la inserción (por ejemplo, por repetición) de tramas de habla y su borrado, ya sea con el control de la señal de reloj de salida del registro de almacenamiento intermedio de tramas. En este último caso, el registro de almacenamiento intermedio de tramas necesita comprender una modificación a escala temporal de la señal de habla de entrada, lo que permite la salida regulada en su cadencia con señal de reloj de tramas de habla a velocidades de señal de reloj variables, sin degradación de la calidad del habla.

Los detectores de actividad utilizados en la presente invención pueden ser, por ejemplo, del mismo tipo que el que se utiliza en aplicaciones de DTX convencionales. Sin embargo, es posible utilizar cualquier tipo de sensores que determinen el valor del contenido de información de las señales transmitidas y/o recibidas. Para determinar la actividad del habla, puede utilizarse un algoritmo de VAD, por ejemplo, de acuerdo con la 3GPP TS (Especificación Técnica del 3GPP) 26.094 (Rel-4, V.4.0.0.), págs. 7-15. Para determinar la actividad de vídeo, los algoritmos pueden estar basados en la diferencia entre tramas de vídeo consecutivas. Diferencias bajas son, por ejemplo, una señal de inactividad.

Tal y como se ha mencionado anteriormente, pueden utilizarse medios de sincronización de muestras para llevar a cabo el estiramiento o extensión del habla y la compresión del habla de una manera primitiva. Por ejemplo, la extensión del habla puede efectuarse, por ejemplo, repitiendo muestras o tramas completas cuando sea necesario. La compresión del habla puede llevarse a cabo, por ejemplo, desechando muestras o tramas de habla cuando se requiera. La calidad del habla se verá influida en tales casos. Sin embargo, si el grado de extensión del habla es limitado, la degradación del habla no será muy notable. Métodos más elaborados, tales como la modificación de la escala temporal, extenderán o comprimirán la señal de habla descodificada, de tal manera que la modificación del habla resulta apenas audible en absoluto. Si, por ejemplo, la modificación del habla y la acumulación de retardos en las fluctuaciones lleva 2 segundos, una modificación de la escala de tiempos para un cambio en el retardo de 200 ms será sólo del 10%. Es aconsejable, de manera adicional, llevar a cabo la modificación de la escala de tiempo en las partes del habla en que ésta es apenas audible, por ejemplo, en partes similares al ruido, en partes de nivel bajo, o mediante la repetición / desechado de ciclos de paso completo. Un método de la técnica anterior para la modificación en escala temporal del habla, se describe en la publicación "Adaptative playout scheduling and loss concealment for voice communication over IP networks" ("Organización temporal de reproducción adaptativa y ocultación de pérdidas para comunicación de voz por redes de IP"), IEEE Transactions on Multimedia (Transacciones del IEEE -Instituto de Ingenieros Eléctricos y Electrónicos- en Multimedia), abril de 2001, por Yi J. Liang, N. Färber y B. Girod.

Se comprenderá por los expertos de la técnica que es posible realizar diversas modificaciones y cambios en la presente invención sin apartarse del ámbito de la misma, el cual se define en las reivindicaciones que se acompañan.

Claims

1. Un método para comunicación totalmente dúplex entre un primer terminal y un segundo terminal de un sistema de comunicación, de tal modo que el método comprende las etapas de:

- transferir (202) datos en un primer sentido desde el primer terminal al segundo terminal, por un primer enlace, y

- transferir (202) datos en un segundo sentido desde el segundo terminal al primer terminal, por un segundo enlace;

- obtener (204) una primera determinación acerca de si dichos datos transferidos en dicho primer sentido corresponden a la actividad o inactividad del primer enlace;

- obtener (204) una segunda determinación acerca de si dichos datos transferidos en dicho segundo sentido corresponden a la actividad o inactividad del segundo enlace:

caracterizado por la etapa adicional de:

- asignar (206) un retardo de codificación en dichos primer y segundo sentidos dependiendo de dichas primera y segunda determinaciones, de tal manera que el retardo de codificación asignado en el primer sentido es más alto que el retardo de codificación asignado en el segundo sentido cuando el segundo enlace está inactivo y el primer enlace está activo, y de forma que el retardo de codificación asignado en el primer sentido es más bajo que el retardo de codificación asignado en el segundo sentido cuando el segundo enlace está activo y el primer enlace está inactivo, de tal modo que los retardos de codificación asignados están sometidos a un presupuesto o provisión de retardo de codificación total disponible.

2. El método de acuerdo con la reivindicación 1, caracterizado por las etapas adicionales de:

transmitir con un recurso de transmisión asignado inferior cuando se aplica un retardo de codificación más alto;

siendo dicho recurso de transmisión uno del grupo consistente en:

potencia de transmisión; velocidad de bits utilizada para la transmisión; número de paquetes utilizados para la transmisión; y número de canales de transmisión asignados.

3. El método de acuerdo con cualquiera de las reivindicaciones 1-2, caracterizado porque dicha etapa de asignar comprende, a su vez, la etapa de controlar dicho retardo de codificación en dicho primer sentido (32) para acercarse a un retardo de codificación máximo si dicha primera determinación indica actividad y dicha segunda determinación indica inactividad.

4. El método de acuerdo con la reivindicación 3, caracterizado porque dicha aproximación es una aproximación gradual.

5. El método de acuerdo con la reivindicación 3, caracterizado porque dicha aproximación tiene lugar por medio de una pluralidad de niveles de retardo de codificación predeterminados.

6. El método de acuerdo con la reivindicación 5, caracterizado porque dichos niveles de retardo de codificación están basados en un conjunto de esquemas de codificación predeterminados.

7. El método de acuerdo con cualquiera de las reivindicaciones 1-6, caracterizado porque dicha etapa de asignar (206) comprende adicionalmente la etapa de ajustar dicho retardo de codificación en dicho primer sentido (32) a un retardo de codificación mínimo, al comienzo de un periodo en el que dicha primera determinación indica actividad y dicha segunda determinación indica inactividad.

8. El método de acuerdo con la reivindicación 1, caracterizado por las etapas adicionales de:

transmitir con un recurso de transmisión asignado superior cuando se aplica un retardo de codificación inferior; de tal modo que dicho recurso de transmisión es uno del grupo consistente en:

potencia de transmisión;

velocidad de bits utilizada para la transmisión;

número de paquetes utilizados para la transmisión; y

número de canales de transmisión asignados.

\newpage

9. El método de acuerdo con cualquiera de las reivindicaciones 7-8, caracterizado porque dicha aproximación gradual se retarda hasta un tiempo predeterminado tras dicho comienzo.

10. El método de acuerdo con cualquiera de las reivindicaciones 7-9, caracterizado porque dicha etapa de asignar comprende, a su vez, la etapa de controlar dicho retardo de codificación en dicho primer sentido (32) para aproximarse a un retardo de codificación mínimo si dicha primera determinación indica inactividad.

11. El método de acuerdo con la reivindicación 1, caracterizado porque dicha etapa de asignar comprende adicionalmente la etapa de controlar dicho retardo de codificación en dicho primer sentido (32) para aproximarse a un retardo de codificación intermedio si dicha primera determinación y dicha segunda determinación indican, ambas, actividad.

12. El método de acuerdo con la reivindicación 11, caracterizado porque dicho retardo de codificación intermedio proporciona un retardo total de dicha transferencia de datos en dicho primer sentido (32), que es esencialmente la mitad de un retardo de ida y vuelta máximo solicitado.

13. El método de acuerdo con la reivindicación 11, caracterizado porque:

dicho retardo de codificación máximo proporciona un primer retardo total de dicha transferencia de datos en dicho primer sentido;

dicho retardo de codificación mínimo proporciona un segundo retardo total de dicha transferencia de datos en dicho primer sentido;

la suma de dichos primer y segundo retardos totales es esencialmente igual a un retardo de ida y vuelta máximo solicitado.

14. El método de acuerdo con la reivindicación 11, caracterizado porque:

dicho retardo de codificación mínimo proporciona un segundo retardo total de dicha transferencia de datos en dicho segundo sentido;

15. El método de acuerdo con cualquiera de las reivindicaciones 3-14, caracterizado porque cualquier incremento en el retardo de código se pospone un periodo de tiempo predeterminado.

16. El método de acuerdo con cualquiera de las reivindicaciones 1 a 15, caracterizado porque dichos datos representan señales de audio, de tal manera que la inactividad se define como al menos uno de entre:

el silencio;

ruido de fondo; y

señal constante.

17. El método de acuerdo con cualquiera de las reivindicaciones 1 a 16, caracterizado porque dichos datos representan señales de vídeo, de tal manera que la inactividad se define como al menos uno de entre:

ausencia de imagen;

ruido de fondo; e

imagen congelada.

18. El método de acuerdo con cualquiera de las reivindicaciones 1-17, caracterizado porque comprende adicionalmente las etapas de:

medir un tiempo de respuesta real para un mensaje que se ha de enviar en sentido directo o de ida y en sentido inverso o de vuelta en dicho sistema; adaptar dichos retardos de codificación mínimo y máximo para hacer que dicho tiempo de respuesta real sea igual a un retardo de ida y vuelta máximo solicitado.

19. El método de acuerdo con cualquiera de las reivindicaciones 1 a 18, caracterizado porque dicho retardo de codificación depende de una profundidad de registro de almacenamiento intermedio de fluctuaciones.

20. El método de acuerdo con la reivindicación 19, caracterizado porque dicha asignación de retardo de codificación comprende, a su vez, las etapas de:

ajustar un nivel de llenado de objetivo o pretendido de registro de almacenamiento intermedio de fluctuaciones, dependiendo de dicha determinación; y

ajustar una señal de reloj de registro de almacenamiento intermedio de fluctuaciones para conseguir un nivel de llenado promedio igual a dicho nivel de llenado de objetivo de registro de almacenamiento intermedio de fluctuaciones.

21. El método de acuerdo con la reivindicación 19, caracterizado porque dicha asignación de retardo de codificación comprende, a su vez, las etapas de:

insertar o desechar tramas para conseguir un nivel de llenado promedio igual a dicho nivel de llenado de objetivo de registro de almacenamiento intermedio de fluctuaciones.

22. El método de acuerdo con cualquiera de las reivindicaciones 1 a 21, caracterizado porque dicha comunicación totalmente dúplex es una comunicación entre múltiples partes.

23. Un terminal (20) que comprende:

medios de transferencia, destinados a transferir datos de una manera totalmente dúplex hacia y desde dicho terminal (20),

medios de codificación (22), asociados con un enlace saliente (32); y

medios de descodificación (22), asociados con un enlace entrante (34),

unos primeros medios detectores (24), destinados a determinar si los datos transferidos por dicho enlace saliente corresponden a actividad o a inactividad,

unos segundos medios detectores (70), destinados a determinar si los datos transferidos por dicho enlace entrante corresponden a actividad o a inactividad; caracterizado por

medios de control de codificación (26), destinados a controlar dichos medios de codificación (22), y de manera que dichos medios de control de codificación (26) están dispuestos para asignar un retardo de codificación en dicho enlace saliente dependiendo de las determinaciones por parte de dichos primeros y segundos medios detectores, por lo que el retardo de codificación asignado en el enlace saliente es superior al retardo de codificación del enlace entrante cuando el enlace entrante está inactivo y el enlace saliente se encuentra activo; y

de tal modo que el retardo de codificación asignado en el enlace saliente es inferior al retardo de codificación del enlace entrante cuando el enlace entrante está activo y el enlace saliente se encuentra inactivo, por lo que los retardos de codificación asignados están sometidos a un presupuesto o provisión total de retardo de codificación disponible.

24. El terminal de acuerdo con la reivindicación 23, caracterizado porque dichos medios de control de codificación (26) están dispuestos para asignar la codificación en asociación con una pluralidad de niveles de retardo de codificación, basándose en un conjunto de esquemas de codificación predeterminados.

25. El terminal de acuerdo con cualquiera de las reivindicaciones 23-24, caracterizado porque:

dichos medios de control de codificación (26) están dispuestos de modo que controlan dichos medios de descodificación (22) para que asignen la descodificación dependiendo de salidas desde ambos dichos primeros medios detectores (24) y dichos segundos medios detectores (70).

26. El terminal de acuerdo con la reivindicación 25, caracterizado porque dichos medios descodificadores (22) comprenden un registro (54) de almacenamiento intermedio de fluctuaciones, de tal modo que dichos medios de control de codificación consisten en unos medios de control (26) de registro de almacenamiento intermedio de fluctuaciones.

27. El terminal de acuerdo con la reivindicación 26, caracterizado porque dichos medios de control (26) de registro de almacenamiento intermedio de fluctuaciones están dispuestos para controlar una señal de reloj de registro de almacenamiento intermedio de fluctuaciones.

28. El terminal de acuerdo con la reivindicación 26, caracterizado porque dichos medios de control (26) de registro de almacenamiento intermedio de fluctuaciones están dispuestos para insertar o desechar tramas.