ES2375947T3

ES2375947T3 - Procedimiento y dispositivo de reducción de latencia de voz en un sistema de comunicación inal�?mbrico de voz/datos.

Info

Publication number: ES2375947T3
Application number: ES01930575T
Authority: ES
Inventors: Anthony Mauro; James Tomcik
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-04-19
Filing date: 2001-04-18
Publication date: 2012-03-07
Anticipated expiration: 2021-04-18
Also published as: JP2003532329A; WO2001082498A3; ATE537613T1; US6721280B1; EP1277291A2; EP1277291B1; BR0110175A; CN1215461C; HK1056038A1; WO2001082498A2; AU2001257099A1; BR0110175B1; CN1439155A

Abstract

Un procedimiento para reducir la latencia de voz en un sistema de comunicación inalámbrico de voz/datos, que comprende los pasos de: operar (302) un codificador de voz (104) en un primer modo de operación en un transmisor (100) midiendo un parámetro operativo de dicho transmisor (100), siendo dicho parámetro operativo proporcional a una latencia entre dicho transmisor (100) y un receptor; operar (304) dicho codificador de voz (104) en un segundo modo de operación si dicho parámetro operativo supera un primer umbral predeterminado.

Description

Procedimiento y dispositivo de reducción de latencia de voz en un sistema de comunicación inalámbrico de voz/datos

Antecedentes de la invención

I. Campo de la invención

La presente invención se refiere, en general, al campo de las comunicaciones inalámbricas y, más específicamente, a proporcionar un procedimiento y un dispositivo eficientes para reducir la latencia de voz asociada a un sistema de comunicación inalámbrico de voz/datos.

II. Antecedentes

El campo de las comunicaciones inalámbricas tiene muchas aplicaciones, incluidos los teléfonos inalámbricos, radiomensajería, bucle local inalámbrico y sistemas de comunicación por satélite. Una aplicación particularmente importante son los sistemas de teléfonos móviles para abonados de móviles. (Según se utiliza en la presente memoria, el término sistemas “móviles” incluye tanto las frecuencias móviles como PCS). Se han desarrollado varias interfaces inalámbricas para dichos sistemas de telefonía móvil incluido el acceso múltiple por división de frecuencia (FDMA), acceso múltiple por división de tiempo (TDMA), y acceso múltiple por división de código (CDMA). En relación con ello, se han establecido varios estándares nacionales e internacionales incluido el servicio telefónico móvil avanzado (AMPS), el sistema global para móviles (GSM) y el estándar interno 95 (IS- 95). En particular, IS-95 y sus derivados como IS- 95A, IS-95B (a menudo denominados colectivamente como IS-95), ANSI J-STD-008, IS-99, IS-657, IS-707 y otros, son promulgados por la Asociación de la Industria de las Telecomunicaciones (TIA) y otros organismos de estandarización conocidos.

Los sistemas de telefonía móvil configurados de acuerdo con el uso del estándar IS-95 emplean técnicas de procesamiento de señal CDMA para proporcionar un servicio telefónico móvil de gran solidez y eficiencia. Un sistema de telefonía móvil ejemplar configurado sustancialmente de acuerdo con el uso del estándar IS-95 se describe en la patente estadounidense nº 5,103,459 titulada "System and Method for Generating Signal Waveforms in a CDMA Cellular Telephone System", que es propiedad del concesionario de la presente invención y se incorpora a la presente por referencia. La patente anteriormente mencionada ilustra un procesamiento de señal de transmisión o enlace ascendente en una estación de base CDMA. El receptor ejemplar o procesamiento de señal de enlace inverso en una estación de base se describe en el número de serie de solicitud estadounidense 08/987,172, presentada el 9 de diciembre de 1997, titulada MULTICHANNEL DEMODULATOR, que es propiedad del concesionario de la presente invención y se incorpora a la presente por referencia. En los sistemas CDMA, resulta fundamental el control de la potencia inalámbrica. Un procedimiento ejemplar del control de potencia en un sistema CDMA se describe en la patente estadounidense nº 5,056,109 titulada "Method and Apparatus for Controlling Transmission Power in A CDMA Cellular Mobile Telephone System", que es propiedad del concesionario de la presente invención y se incorpora a la presente por referencia.

Un beneficio principal del uso de una interfaz inalámbrica CDMA es que las comunicaciones se realizan simultáneamente en la misma banda de radiofrecuencia. Por ejemplo, cada unidad de suscriptor móvil (normalmente un teléfono móvil) en un sistema telefónico móvil dado puede comunicarse con la misma estación base transmitiendo una señal de enlace inverso en el mismo espectro de 1,25 MHz de radiofrecuencia. De forma similar, cada estación base en dicho sistema puede comunicarse con unidades móviles transmitiendo una señal de enlace ascendente sobre otro espectro de 1,25 MHz de radiofrecuencia.

La transmisión de señales sobre el mismo espectro de radiofrecuencia proporciona varios beneficios, incluido un incremento en la reutilización de frecuencia de un sistema de telefonía móvil y la capacidad de realizar una transferencia suave entre dos o más estaciones base. La creciente reutilización de frecuencias permite que se realice un mayor número de llamadas durante una cantidad dada de espectro. La una transferencia suave es un sólido procedimiento de transición de una unidad móvil entre el área de cobertura de dos o más estaciones base que implica la interfaz simultánea de dos o más estaciones base. (En contraste, la transferencia suave implica finalizar la interfaz con una primera estación base antes de establecer la interfaz con una segunda estación base). Un procedimiento ejemplar de realizar una transferencia suave se describe en la patente estadounidense nº 5,267,261 titulada "Mobile Station Assisted Soft Handoff in a CDMA Cellular Communications System", que es propiedad del concesionario de la presente invención y se incorpora a la presente por referencia.

En virtud de los estándares internos IS-99 y IS-657 (denominados en lo sucesivo, colectivamente, IS-707), un sistema de comunicaciones de conformidad con IS-95 puede proporcionar servicios de comunicación tanto de voz

como de datos. Los servicios de comunicaciones de datos permiten el intercambio de datos digitales entre un transmisor y uno o más receptores en una interfaz inalámbrica. Los ejemplos del tipo de datos digitales transmitidos normalmente utilizando el estándar IS-707 incluyen archivos informáticos y correo electrónico.

De acuerdo con los estándares IS-95 y IS-707, los datos intercambiados entre un transmisor y un receptor se procesan en paquetes discretos, conocidos de otro modo como paquetes de datos o tramas de datos, o simplemente tramas. Para aumentar la probabilidad de que una trama se transmita satisfactoriamente durante una transmisión de datos, IS-707 emplea un protocolo de enlace de radio (RLP) para seguir la trayectoria de las tramas transmitidas de forma satisfactoria y para realizar una retransmisión de trama cuando una trama no se transmite satisfactoriamente. La retransmisión se realiza hasta tres veces en IS-707 y es responsabilidad de los protocolos de capa superior realizar los pasos adicionales para garantizar la recepción satisfactoria de las tramas.

Recientemente ha surgido la necesidad de transmitir información de audio, como voz, empleando los protocolos de datos de IS-707. Por ejemplo, en un sistema de comunicaciones inalámbricas que emplee técnicas criptográficas, la información auditiva puede ser manipulada y distribuida más fácilmente entre redes de datos codificando información en un transmisor que utiliza un protocolo de datos. En dichas aplicaciones, es deseable mantener el uso de los protocolos de datos existentes para minimizar los cambios en la infraestructura existente. Sin embargo, los problemas se producen al transmitir la voz utilizando un protocolo de datos, debido a la naturaleza de las propiedades de la voz.

Uno de los principales problemas de la transmisión de información de audio empleando un protocolo de datos es el retraso en la transmisión de la información entre un transmisor y un receptor. Dicho retraso, conocido como latencia, puede estar asociado a retransmisiones de tramas inherentes en un protocolo de datos inalámbrico, como RLP, o puede ser debido a la inserción de otra información, como información de señalización, en una transmisión de voz. Los retrasos de más de unos cientos de milisegundos en el habla pueden resultar en una calidad de la voz inaceptable. Al transmitir datos, como archivos informáticos, los retrasos temporales se toleran fácilmente dada la naturaleza en tiempo no real de los datos. Como consecuencia, los protocolos de IS-707 pueden permitirse utilizar el esquema de retransmisión de tramas como se describe anteriormente, que puede resultar en retrasos de transmisión, o un periodo de latencia superior a unos cuantos segundos. Dicho periodo de latencia es inaceptable para transmitir información de voz.

Lo que se necesita es un procedimiento y un dispositivo para minimizar los problemas de latencia. Asimismo, el procedimiento y el dispositivo debe ser retrocompatibles con la infraestructura existente para evitar costosas mejoras a estos sistemas.

Se llama la atención además al documento de DELPRAT ET AL: "Advanced speech transmission techniques for GSM and beyond", VEHICULAR TECHNOLOGY CONFERENCE, 1996. MOBILE TECHNOLOGY FOR THE HUMAN RACE., IEEE 46TH ATLANTA, GA, EE. UU. 28 ABRIL-1 MAYO 1996, NUEVA YORK, NY, EE. UU. , IEEE, EE. UU. , 28 de abril de 1996 (1996-04-28), páginas 208-212, XP010162378 ISBN: 0-7803-3157-5. El documento describe los desarrollos de codificación del habla en GSM en el momento de la publicación.

Resumen de la invención

De acuerdo con la presente invención, se proporciona un procedimiento para reducir la latencia de voz, como se establece en la reivindicación 1, y un aparato para reducir la latencia de voz, como se establece en la reivindicación

10. En las reivindicaciones dependientes se reivindican las realizaciones de la invención.

La presente invención es un procedimiento y un dispositivo para reducir la latencia de voz asociada a un sistema de comunicación inalámbrico de voz/datos. En general, eso se logra alterando una codificación de datos, o tasa de transmisión de datos, de un codificador de voz que opera dentro de un transmisor.

En una primera realización de la presente invención, la información de audio, como el habla humana, se codifica en paquetes de datos, o tramas del codificador de voz, mediante un codificador de voz ubicado en un transmisor. En condiciones normales, el codificador de voz es operado en un primer modo de operación. Un procesador ubicado en el transmisor mide al menos un parámetro operativo del transmisor, al menos un parámetro operativo proporcional a una latencia entre el transmisor y un receptor. Si uno o más parámetros operativos superan un umbral predeterminado, indicando un aumento de la latencia, el procesador ordena al codificador de voz que opere en un segundo modo de operación.

En una realización, el primer modo de operación comprende el funcionamiento del codificador de voz en una tasa fija de datos y el segundo modo de operación comprende el funcionamiento del codificador de voz en una segunda tasa fija de datos.

En otra realización, el primer modo de operación comprende el funcionamiento del codificador de voz en un conjunto de tasas de datos y el segundo modo de operación comprende el funcionamiento del codificador de voz en una tasa fija de datos.

En otra realización, el primer modo de operación comprende el funcionamiento del codificador de voz en una tasa fija de datos y el segundo modo de operación comprende el funcionamiento del codificador de voz en un conjunto de tasas de datos.

En otra realización adicional, el primer modo de operación comprende el funcionamiento del codificador de voz en un primer conjunto de tasas de datos y el segundo modo de operación comprende el funcionamiento del codificador de voz en un segundo conjunto de tasas de datos.

En general, cuando la latencia aumenta a un nivel inaceptable, según fue medida por al menos un parámetro operativo en el transmisor, el codificador de voz es operado en un segundo modo de forma que se codifica menos información, de media, y se prepara para la transmisión inalámbrica. Al codificar menos información, se producen menos tramas, permitiendo así una reducción de las tramas que esperan la transmisión en una fila en el transmisor.

Cuando la latencia vuelve a un nivel inaceptable, el codificador de voz es operado en el primer modo.

En otra realización, la presente invención es un aparato para reducir la latencia de voz en un sistema de comunicación de voz/datos, que comprende un codificador de voz para codificar información de audio en tramas de datos en un transmisor y un procesador para determinar el valor de, al menos, un parámetro operativo en dicho transmisor. Al menos el parámetro operativo es proporcional a una latencia entre dicho transmisor y un receptor. Además, el procesador compara al menos un parámetro operativo en un umbral predeterminado. El codificador de voz es operado en un primer modo de operación si al menos un parámetro operativo es menor que el umbral predeterminado y es operado en un segundo modo de operación si al menos un parámetro operativo es mayor que el umbral predeterminado.

Breve descripción de los dibujos

La figura 1 ilustra la presente invención, en formato de diagrama de bloque funcional, como se utiliza en un transmisor; la figura 2 ilustra cómo las tramas de un codificador de voz se convierten en paquetes de datos TCP mediante un procesador de TCP ubicado dentro del transmisor de la figura 1; y la figura 3 ilustra un diagrama de flujo de una realización de la presente invención.

Descripción detallada de las realizaciones preferentes

Las realizaciones descritas en la presente memoria se describen con respecto a un sistema de comunicación inalámbrico que opera de acuerdo con el uso de las técnicas de procesamiento de señal CDMA de los estándares internos IS-95, IS-707 y IS-99. Aunque la presente invención es especialmente adecuada para utilizar en dicho sistema de comunicación, debe comprenderse que la presente invención puede emplearse en otros variados tipos de sistemas de comunicación que transmiten información en paquetes discretos, conocidos también como paquetes de datos o simplemente tramas, incluyendo tanto sistemas de comunicación inalámbricos y con cable como sistemas de comunicación basados en satélite. Adicionalmente, a lo largo de la descripción, se establecen varios sistemas conocidos en forma de bloque. Esto se hace en aras de la claridad.

Diversos sistemas de comunicación inalámbricos en uso actualmente emplean estaciones base fijas que se comunican con las unidades móviles utilizando una interfaz inalámbrica. Dichos sistemas de comunicación inalámbricos incluyen AMPS (analógico), IS-54 (TDMA norteamericano), GSM (sistema global para comunicaciones móviles TDMA) y IS-95 (CDMA). En una realización preferente, la presente invención se implementa en un sistema CDMA.

La figura 1 ilustra la presente invención, en formato de diagrama de bloques funcional, como se utiliza en un transmisor 100. Debe entenderse que el transmisor mostrado en la figura 1 representa solamente un tipo de transmisor y que pueden utilizarse otros transmisores con mayor o menor número de bloques funcionales, o que pueden redisponerse los bloques. El transmisor 100 está configurado para transmitir información, normalmente habla humana, de manera inalámbrica codificando la información en paquetes de datos adecuados para la transmisión en una red de datos, como Internet. Dicho sistema de comunicación se denomina en la presente sistema de comunicación de voz/datos y puede referirse a cualquier sistema de comunicación donde la información sensible al tiempo, esto es, la información en tiempo real, se transmite en segmentos de datos, segmentos, paquetes de datos o tramas que utilizan protocolos de datos. Los ejemplos de información sensible a datos incluyen

información de audio como el habla humana o información de vídeo, como señales de televisión o películas. El término «voz sobre datos» se refiere normalmente a un sistema de comunicación que transmite el habla humana, o la voz, utilizando protocolos de datos predefinidos, como los conocidos protocolos de datos TCP o UDP.

El transmisor 100 se muestra configurado para su uso en una realización ejemplar de la presente invención. Dicho transmisor 100 puede estar ubicado en una estación base o en un teléfono móvil como se utiliza en un sistema de comunicación inalámbrico. Debe entenderse que la figura 1 es un diagrama de bloques simplificado de un transmisor completo y que se han omitido otros bloques funcionales en aras de la claridad. No se prevé que el transmisor 100 como se muestra en la figura 1 se limite a ningún tipo particular de modulación de transmisión, protocolo o estándar. Además, las funciones de cada bloque pueden encontrarse en procesadores únicos o múltiples que ejecutan conjuntos de instrucciones programadas, pueden encontrarse en uno o varios ASICS o pueden encontrarse en elementos de procesamiento discretos, siendo todos ellos bien conocidos en la técnica.

Como se muestra en la figura 1, la información sensible al tiempo, como la información de audio o vídeo, se proporciona al transductor 101 donde se convierte en una señal eléctrica, normalmente en formato analógico. El transductor 101 es normalmente un micrófono o un dispositivo de captura de vídeo como una cámara. La señal eléctrica se proporciona a un conversor analógico a digital (A/D) 102. A/D 102 utiliza técnicas conocidas para transformar la señal eléctrica analógica en una señal digital, normalmente en forma de señal modulada de código de impulsos (PMC). A/D 102 puede realizar otras funciones, como el filtrado de paso bajo, muestreo, cuantificación y codificación binaria en la información sensible al tiempo para producir la señal digital, como es bien conocido en la técnica.

La señal digital de A/D 102 se proporciona entonces al codificador de voz 104. El codificador de voz 104 es un dispositivo conocido para eliminar las redundancias naturales encontradas en el habla humana con el fin de minimizar el ancho de banda necesario para la transmisión inalámbrica. El codificador de voz 104 genera paquetes de datos discretos, a menudos denominados tramas del codificador de voz, a intervalos de tiempo regulares, como cada 20 milisegundos en una realización de la presente invención, aunque podrían utilizarse otros intervalos de tiempo alternativamente. La longitud de cada trama de datos es generalmente un valor fijo, medido en milisegundos. El codificador de voz 104 puede operar en tándem con un descodificador de voz, conocidos ambos comúnmente como codificador de voz.

Los codificadores de voz funcionan generalmente codificando la señal digital utilizando una tasa fija de codificación de datos o tasa de datos. La tasa de codificación dicta, en última instancia, el número de bits que comprende cada trama de codificador de voz. Por ejemplo, un primer codificador de voz puede funcionar en una primera tasa de codificación de datos, generando tramas del codificador de datos que comprenden 192 bits por trama, generándose cada trama de codificador cada 20 milisegundos. Un segundo codificador de voz puede funcionar en una segunda tasa de codificación de datos, generando tramas de codificador de voz que comprenden 48 bits por trama, generándose cada trama de codificador cada 30 milisegundos, etc.

Los codificadores de voz pueden mejorarse codificando señales digitales en tasas de codificación variables. Un ejemplo de dicho codificador de voz de tasa variable se encuentra en el número de patente de EE. UU. 5,414,796 (la patente ‘796) titulada "VARIABLE RATE VOICE ENCODER", que es propiedad del concesionario de la presente invención y se incorpora a la presente por referencia. Cuando hay poca o ninguna información disponible para la transmisión, los codificadores de voz de tasa variable codifican los datos a tasas de datos reducidos, incrementando de este modo la capacidad de transmisión de un sistema de comunicación inalámbrico. En el codificador de tasa variable descrito por la patente ‘796, las tramas del codificador de voz comprenden datos codificados en tasa completa, en mitad, en un cuarto o en un octavo de la tasa de codificación más elevada. Cada tasa de codificación genera tramas del codificador de voz con un número correspondiente de bits en las tramas. Por ejemplo, en una realización, una trama del codificador de voz generada en tasa total comprende 192 bits, una trama en tasa media comprende 96 bits, una trama en un cuarto de tasa comprende 48 bits y un octavo de tasa comprende 24 bits.

En referencia de nuevo a la figura 1, las tramas de codificador de voz generadas por el codificador de voz 104 se almacenan en una fila 106, o memoria secuencial, para ser moduladas después digitalmente y a continuación son convertidas en sentido ascendente para la transmisión inalámbrica. La fila 106 es una memoria para almacenar tramas de codificación de voz secuenciales del codificador de voz 104, proporcionando a continuación las tramas del codificador de voz al procesador TCP 108 sobre la base de primero en entrar, primero en salir.

El procesador TCP es un dispositivo informático que convierte las tramas del codificador de voz en paquetes de datos adecuados para la transmisión en una red de datos, como Internet. En una realización, las tramas del codificador de voz se convierten en paquetes de datos de acuerdo con el protocolo de TCP conocido. Pueden utilizarse alternativamente otros protocolos, como UDP. El procesador TCP 108 puede comprender un dispositivo

de hardware, ya sea discreto o integrado, o puede comprender un microprocesador que ejecute una serie de instrucciones informáticas específicamente diseñadas para convertir las tramas del codificador de voz en paquetes de datos adecuados para el protocolo de datos elegido.

Los paquetes de datos generados por el procesador TCP 108 se proporcionan en el procesador RLP 118, donde son convertidos en tramas de datos adecuados para la transmisión inalámbrica. En una realización, el procesador RLP convierte los paquetes de datos TCP del procesador TCP 118 en tramas de datos de acuerdo con el conocido protocolo de enlace radioeléctrico (RLP). RLP especifica los datos que se transmiten en tramas de 20 milisegundos. De acuerdo con IS-99, las tramas de RLP comprenden un campo de secuencia de trama RLP, un campo de tipo de trama RLP, un campo de longitud de datos, un campo de datos para almacenar información de los paquetes de datos TCP proporcionados por el procesador TCP 118, y un campo para colocar un número variable de bits de relleno. Por supuesto, podrían utilizarse otros protocolos inalámbricos en lugar de RLP.

El procesador RLP 118 recibe paquetes de datos TCP del procesador TCP 108 y almacena normalmente los paquetes de datos TCP en un búfer (no mostrado). Las tramas RLP son generadas entonces a partir de los paquetes de datos TCP utilizando técnicas conocidas en la técnica. A medida que el procesador RLP 118 produce tramas RLP de transmisión, son colocadas en un búfer de transmisión 112. El búfer de transmisión 112 es un dispositivo de almacenamiento para almacenar tramas RLP antes de la transmisión, generalmente sobre la base de primero en entrar, primero en salir. El búfer de transmisión 112 proporciona una fuente continua de tramas RLP para transmitir, aunque generalmente el procesador RLP 110 no suministra una tasa constante de tramas RLP. El búfer de transmisión 112 es un dispositivo de memoria capaz de almacenar múltiples tramas RLP, normalmente 100 tramas o más. Dichos dispositivos de memoria son comúnmente conocidos en la técnica.

Las tramas RLP se eliminan del búfer de transmisión 112 a intervalos de tiempo predeterminados equivalentes a 20 milisegundos en una realización. Las tramas RLP se proporcionan entonces al modulador 114, que modula las tramas de datos de acuerdo con la técnica de modulación elegida del sistema de comunicación, por ejemplo, AMPS, TDMA, CDMA, u otros. En la realización ejemplar, el modulador 114 opera de acuerdo con la enseñanza del IS-95. Después de que las tramas RLP hayan sido moduladas, se proporcionan a un transmisor de radiofrecuencia 116 donde son convertidas en sentido ascendente y transmitidas, utilizando técnicas conocidas en la técnica.

El procesador 118 comprende cualquier dispositivo de procesamiento conocido, como un procesador de señal digital, un dispositivo discreto o un ASIC. El procesador 118 puede coordinar las diversas actividades que ocurren dentro del transmisor 100, o las actividades pueden ser llevadas a cabo por uno o más procesadores individuales, asignado cada uno a una o más tareas concretas.

La figura 2 ilustra cómo las tramas del codificador de voz almacenadas en fila 106 son convertidas en paquetes de datos TCP por el procesador TCP 108. El flujo de datos 200 representa el contenido de la fila 106, mostrado como una serie de tramas del codificador de voz secuenciales, teniendo cada trama del codificador de voz una longitud de trama de 20 milisegundos. Debe entenderse que otros codificadores de voz podrían generar tramas del codificador de voz que tienen longitudes de trama de una duración mayor o menor.

Como se muestra en la figura 2, cada trama del codificador de voz contiene un número de bits de información, dependiendo de la tasa de datos para la trama particular. En el presente ejemplo de la figura 2, las tramas del codificador de voz contienen bits de datos equivalentes a 192 para una trama de tasa completa, 96 bits para la mitad de una trama, 48 bits para un cuarto de trama y 24 bits para una octava parte de trama. Como se ha explicado anteriormente, las tramas que tienen tasas de datos elevadas representan periodos de actividad de voz, mientras que las tramas con tasas de datos más bajas representan periodos de menos actividad de voz o silencio.

El procesador TCP 108 llena un paquete de datos TCP secuencialmente con bits incluidos en cada trama del codificador de voz desde la fila 106. Por ejemplo, en la figura 2, los 192 bits contenidos en una trama del codificador de voz 202 se colocan en primer lugar en el paquete de datos TCP 218, a continuación los 96 bits de la trama del codificador de voz 204 y sucesivamente hasta que se hayan colocado los 536 bits en el paquete de datos TCP 218. Nótese que la trama del codificador de datos 212 se divide entre el paquete de datos TCP 218 y el paquete de datos TCP 220, según sea necesario para llenar el paquete de datos TCP 218 con 536 bits.

Debe entenderse que los paquetes de datos TCP no son generados por el procesador TCP 108 de forma continuada, debido a la naturaleza de las tramas del codificador de voz de tasa variable. Si no hay información disponible para la transmisión en fila 106, el codificador de voz 104 producirá una larga serie de tramas de codificador de datos de tasa baja. Por lo tanto, serán necesarias muchas tramas del codificador de voz de tasa baja para llenar los 536 bits necesarios para un paquete de datos TCP y de este modo, un paquete de datos TCP se producirá más lentamente. Inversamente, si existe una elevada actividad de voz, el codificador de voz 104 producirá

tramas del codificador de voz de tasa elevada 104. Por lo tanto, serán necesarias relativamente pocas tramas del codificador de datos para llenar los 536 bits necesarios para un paquete de datos TCP. De este modo, se generará una trama TCP más rápidamente.

La latencia puede estar causada por varios factores, uno de ellos es un incremento en el número de tramas RLP que esperan ser transmitidas en el búfer de transmisión 112. Tener un gran número de tramas en un búfer de transmisión 112 significa que una trama recientemente añadida al búfer de transmisión 112 debe esperar a que se transmitan todas las otras tramas previamente almacenadas en el búfer de transmisión 112. Un incremento en el número de tramas almacenadas en el búfer de transmisión 112 puede estar causado por un canal de comunicación pobre entre el transmisor 100 y el receptor. Este, a su vez, requiere el uso de retransmisiones de tramas, como se conoce en la técnica. También podría estar causado porque la información adicional se ha intercalado con los datos de voz, como la información de señalización para mantener la interfaz de aire. Cada trama RLP intercalada sin voz provoca una copia de seguridad adicional de tramas RLP de voz en el búfer de transmisión 112. Por último, las transmisiones pueden producirse a nivel de TCP. Por ejemplo, en lugar de la retransmisión de tramas RLP individuales, el protocolo TCP puede requerir una trama de TCP retransmitida. La trama de TCP que va a retransmitirse a menudo comprende muchas tramas de RLP, creando de este modo una gran copia de seguridad en el búfer de transmisión (o en la fila 106) de forma bastante rápida.

Cuando la latencia aumenta hasta un punto que provoca considerables retrasos en las transmisiones de audio, la presente invención altera la operación del codificador de voz 104 para generar tramas del codificador de voz a una tasa de codificación menor que la tasa de codificación utilizada cuando la latencia no representa un problema. En general, el procesador 118 mide al menos un parámetro operativo del transmisor 100 para determinar la latencia entre el transmisor 100 y un receptor, a continuación ordena al codificador de voz 104 que opere en una tasa de codificación de datos diferente.

En una realización de la presente invención, el codificador de voz 104 opera en un primer modo operativo, generando tramas de codificador de voz utilizando una tasa fija de codificación, si la latencia no representa un problema. El procesador 118 determina la latencia determinando el número de tramas de RLP almacenadas en el búfer de transmisión 112 en periodos de tiempo predeterminados. Si el número de tramas de RLP almacenadas en un búfer de transmisión 112 es inferior a un número de tramas predeterminado, el codificador de voz 104 puede continuar generando tramas del codificador de voz a la tasa fija de codificación. Sin embargo, cuando el número de tramas almacenadas en el búfer de transmisión 112 supera el número predeterminado de tramas, el procesador 118 envía un comando al codificador de voz 104 para operar en un segundo modo de operación. El segundo modo de operación comprende una tasa fija de codificación o un conjunto de tasas de codificación.

En el escenario de una tasa fija de codificación, el codificador de voz 104 codifica la información a una segunda tasa fija, la segunda tasa fija generalmente a una tasa de codificación menor que la primera tasa de codificación. Reduciendo la tasa de codificación del codificador de voz 104 en el segundo modo, se producen menos bits por trama del codificador de voz. En última instancia, esto significa que las tramas de TCP, y por tanto las tramas de RLP, se generan a una tasa menor, permitiendo al búfer de transmisión 112 agotar las tramas pendientes más rápidamente de lo que se pueden restaurar del procesador de RLP 110. En último caso, el número de tramas almacenadas en el búfer de transmisión 112 disminuye por debajo del umbral predeterminado, o un segundo umbral en otra realización. Cuando el número de tramas cae por debajo del umbral predeterminado, el procesador 118 ordena al codificador de voz 104 que vuelva al primer modo de operación, codificando la información en la primera tasa de datos.

Alternativamente, el segundo modo de operación comprende un codificador de voz operativo 104 en un conjunto de tasas de codificación de datos. En esta realización, cuando el número de tramas en el búfer de transmisión 112 supera el umbral predeterminado, indicando un nivel inaceptable de latencia, el procesador 118 ordena al codificador de voz 104 que codifique los datos utilizando múltiples tasas de codificación. En otras palabras, el codificador de voz 104 es operado como un codificador de voz de tasa variable, como se ha descrito anteriormente. Como se ha explicado anteriormente, en una realización, el codificador de voz 104 codifica los datos en una de las cuatro tasas, dependiendo del nivel de actividad de voz en la señal de información. Al operar el codificador de voz 104 en un conjunto de tasas de codificación, resulta una tasa de codificación media que puede ser inferior a la tasa fija. En otra realización, el conjunto de tasas de codificación se elige de modo que la tasa de codificación mayor sea inferior a, o igual que, la tasa fija de codificación del primer modo de operación. Esto aumentará las posibilidades de que la tasa de codificación media sea inferior a la tasa fija de codificación. Por ejemplo, en el primer modo de operación, la tasa fija de codificación puede ser igual a la mitad de la tasa. Cuando se introduce el segundo modo de operación, el codificador de voz 104 codifica las tramas del codificador de voz a la mitad, un cuarto o un octavo de la tasa. En otro ejemplo, en el segundo modo de operación, las tramas del codificador de voz son codificadas a un cuarto o un octavo de la tasa.

En otra realización de la presente invención, el codificador de voz 104 es operado en un primer modo de operación cuando al menos un parámetro operativo es inferior a un umbral predeterminado. En esta realización, el primer modo de operación comprende un codificador de voz operativo 104 en un conjunto de tasas de codificación, operando de este modo el codificador de voz 104 como un codificador de voz de tasa variable, como se ha descrito anteriormente. El procesador 118 determina el valor de al menos un parámetro operativo del transmisor 100, como el número de tramas almacenadas en el búfer de transmisión 112. Si el número de tramas en el búfer de transmisión es inferior a un número predeterminado de tramas, representando un aceptable nivel de latencia, el codificador de voz 104 es operado en el primer modo de operación como un codificador de voz de tasa variable. Si el número de tramas almacenadas en el búfer de transmisión 112 supera el número predeterminado de tramas, indicando una latencia inaceptable, el procesador 118 ordena al codificador de voz 104 que opere en el segundo modo de operación en una tasa fija de codificación o en un segundo conjunto de tasas de codificación.

En el escenario de tasa fija de codificación, el codificador de voz 104 codifica información en una tasa fija de codificación. La tasa se elige de modo que sea inferior a las tasas de codificación media de las tramas producidas en el primer modo de operación. De nuevo, esto reduce el número medio de bits por trama del codificador de voz y por lo tanto, la tasa a la que se producen las tramas de TCP y las tramas de RLP. Esto permite al búfer de transmisión 112 agotar las tramas pendientes más rápidamente de lo que puede restaurar el procesador RLP 110. Finalmente, el número de tramas almacenadas en el búfer de transmisión 112 desciende por debajo del umbral predeterminado, o un segundo umbral en otra realización. Cuando el número de tramas almacenadas en el búfer de transmisión 112 cae por debajo del umbral predeterminado, el procesador 118 ordena al codificador de voz 104 que vuelva al primer modo de operación, codificando la información en el conjunto de tasa de codificación de datos.

Alternativamente, el segundo modo de operación comprende un codificador de voz operativo 104 en un segundo conjunto de tasas de codificación de datos. En una realización alternativa, se utiliza un segundo codificador de voz 104 para codificar datos de voz en el segundo conjunto de tasas de codificación. En cualquiera de los casos, cuando el número de tramas en el búfer de transmisión 112 supera el umbral predeterminado, indicando un nivel inaceptable de latencia, el procesador 118 ordena al codificador de voz 104 que codifique los datos utilizando múltiples tasas de codificación. El segundo conjunto de tasas de codificación de datos se elige para codificar los datos a una tasa de codificación media inferior al primer conjunto de tasas de codificación. Esto puede lograrse eliminando una o más de las tasas de codificación de datos mayores del primer conjunto de tasas de codificación. Por ejemplo, si el primer conjunto de tasas de codificación se elige como tasa completa, media tasa, cuarto de tasa y octavo de tasa, el segundo conjunto de tasas de codificación podría elegirse como media tasa, cuarto de tasa y octavo de tasa. Alternativamente, el segundo conjunto de tasas de codificación de datos comprende el mismo número de tasas de codificación con una o más del segundo conjunto de tasas de codificación inferior a una tasa de codificación respectiva en el primer conjunto de tasas de codificación. Por ejemplo, si el primer conjunto de tasas de codificación se elige como tasa completa, media tasa, cuarto de tasa y octavo de tasa, el segundo conjunto de tasas de codificación podría comprender tasa completa, tres cuartos de tasa, cuarto de tasa y octavo de tasa. O bien el segundo conjunto de tasas de codificación podría comprender siete octavos de tasa, cinco octavos de tasa, tres octavos de tasa y un octavo de tasa. Por supuesto, son posibles otras combinaciones.

En otras realizaciones, el procesador 118 determina la latencia de transmisión supervisando otros parámetros operativos del transmisor 100. Por ejemplo, el procesador 118 puede determinar un número de tramas de reconocimiento negativas (NAK) recibidas durante u periodo de tiempo predeterminado para determinar la latencia. Las tramas de reconocimiento negativas se utilizan para ordenar al transmisor 100 que retransmita información, como tramas RLP, tramas TCP o información de señalización, y son conocidos en la técnica. Cuando un transmisor 100 recibe una trama de reconocimiento negativa, generalmente tiene lugar una retransmisión, evitando de este modo que se transmitan las tramas RLP almacenadas en el búfer de transmisión 112. Como resultado, el número de tramas almacenadas en el búfer de transmisión 112 aumenta durante la retransmisión.

El procesador 118 puede calcular la latencia contando el número de tramas de reconocimiento negativas recibidas en un periodo determinado. A medida que aumenta el número de tramas de reconocimiento negativas recibidas en un periodo de tiempo determinado, se produce un número mayor de retransmisiones que, a su vez, provocan una acumulación de tramas en el búfer de transmisión 112. Cuando el procesador 118 establece que se ha recibido un número predeterminado de tramas de reconocimiento negativas en un periodo de tiempo determinado, el procesador 118 ordena al codificador de voz 104 que opere en el segundo modo de operación.

Alternativamente o en combinación con el proceso de cálculo de tramas de reconocimiento negativas, el procesador 118 cuenta el número de tramas retransmitidas asociadas a cada trama de reconocimiento negativa durante un periodo de tiempo dado para determinar cuándo la latencia se ha vuelto inaceptable. En esta realización, el procesador 118 determina cuándo el número de tramas retransmitidas supera un umbral predeterminado. Cuando esto ocurre, el procesador 118 ordena al codificador de voz 104 que opere en el segundo modo de operación.

En otra realización adicional, el procesador 118 utiliza una combinación de los procedimientos anteriormente descritos para determinar cuándo operar el codificador de voz 104 en el segundo modo de operación. Por ejemplo, el procesador 118 cuenta el número de tramas retransmitidas durante un periodo de tiempo determinado. Cuando el número de tramas retransmitidas supera un primer umbral predeterminado, el procesador 118 comprueba el búfer

5 de transmisión 112 para determinar si el número de tramas almacenadas supera un segundo umbral predeterminado. Si se han excedido ambos umbrales, el procesador 118 ordena al codificador de voz 104 que opere en el segundo modo de operación. Por supuesto, son posibles otras variaciones.

La figura 3 es un diagrama de flujo de la presente invención, mostrada en una primera realización. En el paso 300,

10 el procesador 118 determina la latencia determinando al menos un parámetro operativo del transmisor 100. En una realización, el procesador 118 determina el número de tramas almacenadas en el búfer de transmisión 112 para determinar la latencia. Si se determina que la latencia está a un nivel aceptable, el codificador de voz 104 es operado en un primer modo de operación, comprendiendo el codificador de voz operativo 104 en una primera tasa fija de codificación.

15 Más adelante, el procesador 118 determina de nuevo la latencia. Si se determina que la latencia está a un nivel inaceptable, el procesador 118 ordena al codificador de voz 104 que opere en un segundo modo de operación, en esta realización, en una segunda tasa fija. En una realización de la presente invención, la segunda tasa de codificación es inferior a la primera tasa de codificación.

20 De este modo, se han mostrado y descrito las realizaciones preferentes de la presente invención. Sin embargo, las personas expertas en la técnica advertirán que pueden realizarse numerosas alteraciones a las realizaciones divulgadas en la presente memoria sin apartarse del espíritu o alcance de la invención. Por tanto, la presente invención no debe estar limitada excepto de acuerdo con las siguientes reivindicaciones.

Claims

REIVINDICACIONES

1. Un procedimiento para reducir la latencia de voz en un sistema de comunicación inalámbrico de voz/datos, que

comprende los pasos de: operar (302) un codificador de voz (104) en un primer modo de operación en un transmisor (100) midiendo un parámetro operativo de dicho transmisor (100), siendo dicho parámetro operativo proporcional a una latencia entre dicho transmisor (100) y un receptor; operar (304) dicho codificador de voz (104) en un segundo modo de operación si dicho parámetro operativo supera un primer umbral predeterminado.
2.

El procedimiento de la reivindicación 1 en el que el paso de operar (302) dicho codificador de voz (104) en un primer modo de operación comprende la operación de dicho codificador de voz en una primera tasa fija de datos.
3.

El procedimiento de la reivindicación 1 en el que el paso de operar (302) dicho codificador de voz (104) en un primer modo de operación comprende la operación de dicho codificador de voz en un primer conjunto de tasas de datos.
4.

El procedimiento de la reivindicación 1 en el que el paso de operar (304) dicho codificador de voz (104) en un segundo modo de operación comprende la operación de dicho codificador de voz en una primera tasa de datos predefinida.
5.

El procedimiento de la reivindicación 1 en el que el paso de operar (304) dicho codificador de voz en un segundo modo de operación comprende la operación de dicho codificador de voz en un primer conjunto de tasas de datos predefinida.
6.

El procedimiento de la reivindicación 1, en el que el paso de operar (302) dicho codificador de voz (104) en un primer modo de operación comprende la operación de dicho codificador de voz (104) a una primera tasa de datos fija; y el paso de operar (304) dicho codificador de voz (104) en un segundo modo de operación comprende la operación de dicho codificador de voz a una segunda tasa de datos fija, siendo dicha segunda tasa de datos fija menor que dicha primera tasa de datos fija.
7.

El procedimiento de la reivindicación 1 en el que el paso de operar (302) dicho codificador de voz (104) en un primer modo de operación comprende la operación de dicho codificador de voz a un conjunto de tasas de datos; y el paso de operar dicho codificador de voz en un segundo modo de operación comprende la operación de dicho codificador de voz a una tasa fija de datos.
8.

El procedimiento de la reivindicación 1 en el que el paso de operar (302) dicho codificador de voz en una tasa fija de datos; y el paso de operar (304) dicho codificador de voz en un segundo modo de operación comprende la operación de dicho codificador de voz en un conjunto de tasas de datos.
9.

El procedimiento de la reivindicación 1 en el que el paso de operar (302) dicho codificador de voz en un primer modo de operación comprende la operación de dicho codificador de voz en un primer conjunto de tasas de datos; y el paso de operar (304) dicho codificador de voz en un segundo modo de operación comprende la operación de dicho codificador de voz en un segundo conjunto de tasas de datos.
10.

Un aparato para reducir la latencia de voz en un sistema de comunicación inalámbrico de voz/datos, que

comprende: un codificador de voz (104) para codificar la información de audio en tramas de datos en un transmisor (100); un procesador (118) para determinar el valor de un parámetro operativo dentro de dicho transmisor, siendo dicho parámetro operativo proporcional a una latencia entre dicho transmisor y un receptor, dicho procesador además para comparar con dicho parámetro operativo en un umbral predeterminado, dicho procesador además para controlar dicho codificador de voz para operar en un primer modo de operación si dicho parámetro operativo es inferior a dicho umbral predeterminado y para controlar dicho codificador de voz para operar en un segundo modo de operación si dicho parámetro operativo es superior a dicho umbral predeterminado.
11.

El aparato de la reivindicación 10 en el que dicho primer modo de operación comprende una tasa fija de datos.
12.

El aparato de la reivindicación 10 en el que dicho primer modo de operación comprende un conjunto de tasas de datos.
13.

El aparato de la reivindicación 10 en el que dicho segundo modo de operación comprende una tasa fija de datos.
14.

El aparato de la reivindicación 10 en el que dicho segundo modo de operación comprende un conjunto de tasas de datos.

5 15. El aparato de la reivindicación 10 en el que dicho primer modo de operación comprende una primera tasa de datos; y dicho segundo modo de operación comprende una segunda tasa fija de datos.
16. El aparato de la reivindicación 10 en el que dicho primer modo de operación comprende una tasa fija de datos; y

dicho segundo modo de operación comprende un conjunto de tasas de datos. 10
17. El aparato de la reivindicación 10 en el que dicho primer modo de operación comprende un conjunto de tasas de datos; y dicho segundo modo de operación comprende un segundo conjunto de tasas de datos.
18. El aparato de la reivindicación 10 en el que dicho primer modo de operación comprende un conjunto de tasas 15 de datos; y dicho segundo modo de operación comprende una tasa fija de datos.
19. Un medio legible por ordenador que comprende instrucciones de ordenador para realizar un procedimiento de acuerdo con la reivindicación 1.

20 20. Un aparato para realizar un procedimiento de acuerdo con la reivindicación 1, que comprende: un medio para operar un codificador de voz (104) en un primer modo de operación en un transmisor (100);

un medio para medir un parámetro operativo de dicho transmisor, siendo dicho parámetro operativo proporcional a una latencia entre dicho transmisor y un receptor; y

un medio para operar dicho codificador de voz (104) en un segundo modo de operación si dicho parámetro 25 operativo supera un primer umbral predeterminado.