ES2240121T3

ES2240121T3 - Metodo y aparato para mantener un volumen determinado de bits en un audiocodificador.

Info

Publication number: ES2240121T3
Application number: ES00947533T
Authority: ES
Inventors: Sharath Manjunath; Andrew P. Dejaco
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-07-19
Filing date: 2000-07-19
Publication date: 2005-10-16
Anticipated expiration: 2020-07-19
Also published as: CN1161749C; AU6112000A; US6330532B1; BR0012538A; HK1045397B; JP4782332B2; EP1214705B1; ATE288122T1; CN1361912A; JP2003505723A; WO2001006490A1; EP1214705A1; DE60017763D1; KR20020013963A; KR100754591B1; DE60017763T2; HK1045397A1

Abstract

Procedimiento para mantener una cadencia media de bits determinada para un codificador de voz (100, 106, 200, 500), codificador (100, 106, 200, 500) que está configurado para codificar una serie de fotogramas de diversas cadencias codificadoras, procedimiento que comprende: la codificación (400 a 416) de un fotograma a un ritmo de codificación preseleccionado; el cálculo(600) de una cadencia media de bits en servicio para un número predefinido de fotogramas codificados; la sustracción(602) de la cadencia media de bits en servicio de una cadencia media de bits determinada para obtener un valor diferencial; la división (602) del valor diferencial por el tipo de codificación preseleccionada para obtener un valor cociente.

Description

Método y aparato para mantener un volumen determinado de bits en un audiocodificador.

Antecedentes de la invención I. Ámbito de la invención

La presente invención forma parte generalmente del procesado de audio y más concretamente de los métodos y aparatos para mantener una cantidad determinada de bits en los audio codificadores.

II. Antecedentes

La transmisión de la voz por procedimientos digitales viene extendiéndose especialmente en aplicaciones de larga distancia y de radioteléfonos digitales y esto, a su vez, ha generado interés para determinar el máximo volumen de información que puede transmitirse a través de un canal manteniendo la calidad conseguida de conversación reconstruida. Si la conversación se transmite simplemente por muestreo y digitización, se necesita un volumen de datos del orden de sesenta y cuatro kilobits por segundo (kbps) para alcanzar una calidad de conversación de los teléfonos analógicos usuales. Ello no obstante, mediante un análisis de los sonidos y luego de una codificación, transmisión y resíntesis adecuadas en el receptor, puede conseguirse una significativa reducción de la cantidad de datos.

En muchos sectores de las telecomunicaciones se utilizan dispositivos para reducir la cantidad de sonidos y un campo que sirve de ejemplo es el de las comunicaciones inalámbricas, campo que tiene múltiples aplicaciones con inclusión, por ejemplo, de los teléfonos sin cordones, la paginación, los circuitos locales inalámbricos, la telefonía inalámbrica tal como los sistemas telefónicos celulares y PCS, la telefonía móvil de Protocolo de Internet (IP) y los sistemas de comunicaciones por satélite. Una aplicación especialmente importante es la telefonía inalámbrica para abonados móviles.

Para los sistemas de comunicación inalámbricos se han desarrollado diversas interfases a través del aire con inclusión, por ejemplo, del acceso múltiple por división de frecuencias (FDMA), del acceso múltiple por división de tiempo (TDMA) y del acceso múltiple por división de códigos (CDMA). En relación con esto, se han establecido diversas normas nacionales e internacionales entre las que figuran el Servicio Telefónico Móvil Avanzado (AMPS), el Sistema Global para Comunicaciones Móviles (GSM) y la Norma Provisional 95 (IS-95).Un sistema de comunicación telefónica inalámbrica que puede servir de ejemplo es un sistema de acceso múltiple por división de códigos (CDMA). La norma IS-95 y sus derivadas IS-95A, ANSI J-STD-008, IS-95B,la tercera generación de normas propuesta IS-95C e IS-2000 etc (denominada colectivamente IS-95C) han sido promulgadas por la Asociación de la Industria de las Telecomunicaciones (TIA) y otros organismos de normalización perfectamente conocidos para especificar el empleo de una interfase CDMA a través del aire para sistemas de telecomunicaciones telefónicos celulares o PCS. Unos sistemas de comunicación inalámbricos que pueden servir de ejemplo y configurados esencialmente de acuerdo con el empleo de la norma IS-95, se describen en las patentes 5,103,459 y 4,901,307 concedidas al titular de la presente invención.

Los dispositivos que emplean procedimientos para reducir las voces extrayendo parámetros que se refieren a un modelo de generación de la voz humana, se denominan audio codificadores. Un codificador de audio divide la señal de audio de entrada en bloques de tiempo o marcos analíticos. Los audio codificadores suelen comprender un codificador y un descodificador. El codificador analiza el marco vocal de entrada para extraer cierto parámetro relevante y cuantifica los parámetros en representación binaria; es decir, una serie de bits o un paquete de datos binarios, paquetes que se transmiten a través del canal de comunicaciones a un receptor y a un descodificador. Este, procesa los paquetes de datos, los descuantifica para producir los parámetros y resintetiza los marcos de conversación utilizando los parámetros descuantificados.

El cometido del codificador es el de condensar la señal de conversación digitizada en una señal de bits bajos eliminando todas las redundancias naturales inherentes a la conversación. La reducción digital se consigue representando el marco de conversación de entrada con un juego de parámetros y empleando la cuantificación para representar los parámetros con una serie de bits. Si el marco de conversación de entrada tiene un número de bits Ni y el paquete de datos producido por el codificador tiene un número de bits No, el factor de condensación conseguido por el codificador es C, =Ni/No. La dificultad estriba en mantener la elevada calidad de la voz de la conversación descodificada, pero manteniendo el factor de condensación fijado como objetivo. El rendimiento del codificador depende 1) de lo bien que funcione el modelo de conversación o la combinación de los procesos de síntesis y análisis antes descritos y 2) de lo bien que se efectúe el proceso de cuantificación de parámetros con una cantidad de bits prefijada de No bits por marco. La finalidad del modelo de conversación es la de reflejar la esencia de la señal de conversación con una pequeña cantidad de parámetros por cada marco.

Quizás lo más importante al proyectar un audio codificador sea encontrar un buen juego de parámetros (incluidos vectores) para describir la señal de conversación. Un buen juego de parámetros requiere una anchura de banda baja del sistema para reconstruir una señal de conversación perceptualmente precisa. El paso, la potencia de la señal, la envoltura espectral (o formantes), la amplitud y los espectros de fase son ejemplos de los parámetros de codificación de la conversación. Los codificadores de conversación pueden desarrollarse como codificadores de tiempo-dominio, que tratan de captar la forma de onda de la conversación de tiempo-dominio empleando un elevado proceso de tiempo-resolución para codificar pequeños fragmentos de conversión (generalmente, sub-marcos de 5 milisegundos(ms) de una vez. Para cada submarco, se encuentra un representante de alta precisión de un espacio codificable empleando diversos algoritmos de búsqueda que conocen los expertos en la materia. Como variante, pueden desarrollarse codificadores de conversación como codificadores de frecuencia-dominio que tratan de captar el espectro de conversación de corto plazo del marco de conversación de entrada con una serie de parámetros (análisis) y emplean el correspondiente procesos de síntesis para recrear la forma de onda de conversación de los parámetros espectrales. El cuantificador de parámetros conserva los parámetros representándolos con representaciones almacenadas de vectores codificados de acuerdo con los procedimientos de cuantificación conocidos descritos en A.Gersho & R.M. Gray "Vector Quantization and Signal Compression"(1992).

Un codificador de conversación tiempo-dominio bien conocido es el codificador predictivo lineal excitado por código (CELP) descrito por L.B.Rabiner y R.W.Schafer en "Digital Processing of Speech Signals"396-453(1978). En un codificador CELP las correlaciones a corto plazo o redundancias de la señal de conversación se eliminan por un análisis de predicción lineal (LP9 que tiene los coeficientes de un filtro formante a corto plazo. Aplicando el filtro de predicción a corto plazo al marco de conversación de entrada, se genera una señal residual LP, que se modela y cuantifica con parámetros filtrantes de predicción a largo plazo y el subsiguiente código estocástico. De esta manera, la codificación CELP divide la tarea de codificar la forma de onda de conversación Tiempo-dominio, en las tareas independientes de codificar los coeficientes de filtro LP a corto plazo y codificar el residuo LP. La codificación tiempo-dominio puede efectuarse a una velocidad fija (es decir, utilizando el mismo número de bits, No para cada marco) o a una velocidad variable (en la que se utilizan diferentes bits para diferentes contenidos de marcos).Los codificadores de velocidad variable suelen utilizar solamente la cantidad de bits necesaria para obtener una calidad determinada. Un codificador CELP de velocidad variable que sirve de ejemplo se describe en la patente U.S. 5,414,796 concedida al titular de la presente invención. Los codificadores de tiempo-dominio tales como el CELP se suelen basar en un elevado número de bits No por marco para preservar la precisión de la forma de onda de la conversación de tiempo-dominio. Tales codificadores suelen suministrar una excelente calidad de voz siempre que el número de bits No, por marco sea relativamente grande (por ej. de 8kbps o superior). En cambio, con un número de bits bajo (4 kbps y menos),los codificadores de tiempo-dominio dejan de mantener una calidad elevada y un sólido rendimiento por el limitado número de bits disponible. Con un número de bits bajo, el espacio de código limitado reduce la capacidad de formación de onda de los codificadores de tiempo-dominio usuales que se emplean satisfactoriamente para aplicaciones comerciales de magnitud elevada y, en consecuencia, a pesar de las mejoras en función del tiempo, muchos sistemas de codificación CELP que funcionan con bajos bits sufren la deformación perceptualmente significativa caracterizada como ruido.

En la actualidad se registra un incremento del interés investigatorio, así como una fuerte necesidad comercial por desarrollar un codificador de conversación de alta calidad que funcione con unas cantidades de bits entre medias y bajas(es decir, del orden de 2.4a 4 kbps y menos). Los ámbitos de aplicación incluyen la telefonía inalámbrica, las comunicaciones por satélite, la telefonía Internet, diversas aplicaciones multimedios y de propagación de la voz, correo por audio y otros sistemas de almacenamiento de la voz. Las fuerzas impulsoras son la necesidad de conseguir una elevada capacidad, así como la demanda de un sólido rendimiento en situaciones de pérdida de paquetes. Diversos esfuerzos normalizadores recientes de codificación de la conversación son otra fuerza impulsora directa de incremento de la investigación y desarrollo de algoritmos codificadores de conversación de baja proporción. Un codificador de conversación de baja intensidad crea más canales o usuarios por anchura de banda de aplicación admisible y un codificador de voz de baja intensidad en combinación con una capa adicional de codificación de canal adecuada puede ajustar el presupuesto total de bits de las especificaciones de los codificadores y proporcionar un firme rendimiento en condiciones de error de los canales.

Un procedimiento eficaz para codificar eficazmente la conversación con bajas intensidades de bits, es la codificación multimodo. Un procedimiento de codificación multimodo que puede servir de ejemplo se describe en la patente U.S 6.691,084 titulada "Codificación de conversación de intensidad variable", concedida al titular de la presente invención. Los codificadores multimodo usuales aplican diferentes modos o algoritmos de codificación-descodificación para diferentes tipos de marcos de conversación de entrada. Cada modo o proceso de codificación-descodificación se adapta para representar óptimamente un tipo de segmento de conversación determinado, como por ej. conversación con voz, conversación sin voz, conversación de transición (por ej. entre la con voz y la sin voz) y ruido de fondo (sin conversación) de la manera más eficaz. Un mecanismo exterior sobre la decisión de modos de circuito abierto, examina el marco de conversación de entrada y toma una decisión sobre el modo a aplicar al marco. La decisión sobre el modo de circuito abierto se suele adoptar extrayendo un número de parámetros del marco de entrada, evaluando los parámetros como ciertas características temporales y espectrales y basando la decisión sobre el modo en la evaluación. De esta manera, la decisión sobre el modo se efectúa sin conocer de antemano el estado exacto de la conversación de salida; es decir, la cercanía de la conversación de salida con respecto a la de entrada en términos de calidad de la voz u otras medidas sobre el rendimiento.

Los sistemas codificadores que funcionan con regímenes del orden de 2.4 kbps, tienen, generalmente, una naturaleza paramétrica; es decir, dichos sistemas funcionan transmitiendo parámetros que describen el periodo de paso y la envoltura espectral (o formantes) de la señal de audio a intervalos regulares. Una forma de estos codificadores denominados paramétricos es el sistema de vocodificador LP.

Los vocodificadores LP modulan una señal de audio con voz con un impulso sencillo por período de paso. Esta técnica básica puede incrementarse para incluir información de transmisión sobre la envoltura espectral, entre otras cosas. Aunque los vocodificadores LP suministran generalmente un rendimiento razonable, pueden introducir una deformación perceptualmente significativa normalmente denominada zumbido.

En los últimos años, han surgido codificadores que son híbridos de codificadores de forma de onda y de codificadores paramétricos. Es representativo de estos codificadores híbridos el sistema de codificación de interpolación de forma de onda prototipo (PWI), el cual puede conocerse también como codificador de conversación de periodo de paso prototipo (PPP). Un sistema de codificación PWI suministra un método eficaz de codificación con voz. El concepto básico del PWI consiste en extraer un ciclo de pasos representativo (la forma de onda prototipo) a intervalos fijos para transmitir su descripción y para reconstruir la señal de conversación mediante interpolación entre formas de onda prototipos. Un codificador PWI o PPP que puede servir de ejemplo es el que se describe en la patente U.S. 6.456,964 titulada "Codificación de conversación periódica", concedida el 21 de diciembre de 1998 al titular de la presente invención. Otros codificadores de conversación PWI, o PPP se describen en la patente U.S. 5.884,253 y en W. Bastiaan Kleijn & Wolfgang Granzow "Métodos para interpolar la forma de onda en la codificación de conversación en 1 procesado de señales digitales" 215-230 (1991).

Los codificadores usuales de baja intensidad de bits y conversación de intensidad variable, utilizan una decisión sobre el modo de codificación de circuito abierto basada en la energía del marco para determinar cuando debe conectarse de un régimen de codificación inferior a otro superior. Así, el codificador puede explotar la presencia de diferentes clases de conversación y codificarlas a intensidades diferentes. Ello no obstante, la codificación al tipo decidido por la clasificación del circuito abierto puede dar lugar a una calidad mala o mediocre para marcos determinados y, por lo tanto, resultaría ventajoso mejorar la eficacia de la decisión de circuito abierto. Así, sería deseable emplear estimaciones de calidad para cambiar(es decir, incrementar si es preciso) el régimen de codificación para un marco determinado. Sin embargo, el aumento de la intensidad de codificación del marco cambia (aumenta) la intensidad media de codificación para el codificador de conversación. Por lo tanto, también sería conveniente proporcionar un codificador de conversación que mantuviera una intensidad media de bits constante y permitiera simultáneamente desviaciones de los tipos codificantes sobre una base de marco por marco con respecto a lo decidido por la clasificación del circuito abierto. También sería conveniente especificar unas intensidades medias determinadas para el codificador de conversación. Igualmente, sería ventajoso mantener un tipo de bits concreto para el codificador de conversación. Así, pues, hay necesidad de un codificador de conversación que mejore las decisiones sobre los modos de codificación con un proceso de decisiones de circuito cerrado para obtener una calidad óptima de la voz, pero manteniendo un tipo de bits codificantes determinado.

Resumen de la invención

La presente invención se refiere a un codificador de conversación que perfecciona las decisiones sobre modos codificadores mediante un proceso de decisión en circuito cerrado para obtener una calidad óptima de la voz; pero manteniendo una intensidad de bits codificantes determinada. Por lo tanto, en un aspecto de la invención, en un codificador de voz configurado para codificar una serie de marcos a diversas velocidades codificadores, un método para mantener una intensidad media de bits determinada para el codificador incluye ventajosamente un marco a una velocidad de codificación pre-elegida; el cálculo de un régimen medio de bits para un número predefinido de marcos codificados; la sustracción del tipo medio de bits en servicio de un tipo medio predefinido para obtener un valor diferencial; la división del valor diferencial por el tipo codificador pre-elegido para obtener un valor diferencial; la división del valor diferencial por el tipo codificador pre-seleccionado para obtener un cociente; si el valor del cociente es inferior a cero, la acumulación de un primer número predefinido de posible presencia de impulsos de valores umbrales de rendimiento del codificador que sean inferiores al valor umbral de rendimiento corriente para obtener un primer valor acumulado, eligiéndose el número predefinido de presencia de impulsos de valores umbrales del rendimiento del codificador de tal manera que el primer valor acumulado sea mayor que el valor absoluto del cociente; si éste es inferior a cero, sustracción del producto de un valor de un decremento por rendimiento del codificador de conversación por impulsos presentes y el primer número predefinido de presencia de impulsos de valores umbrales de rendimiento del codificador de conversación con respecto al valor umbral de rendimiento corriente, para obtener un nuevo valor umbral de rendimiento; si el cociente es mayor o igual a cero, la acumulación de un segundo número predefinido de posible presencia de impulsos de valores umbrales de rendimiento del codificador para obtener un segundo valor acumulado, eligiéndose el número predefinido de presencia de impulsos de los valores umbrales de rendimiento del codificador de tal manera que el segundo valor cumulado sea mayor que el cociente; y, si este cociente es mayor o igual a cero, adición del producto de un valor de impulso de incremento por presencia de valores umbrales de rendimiento del codificador y el segundo número predefinido de presencia de valores umbrales de rendimiento del codificador al valor umbral de rendimiento usual, para obtener un nuevo valor umbral de rendimiento.

En otro aspecto de la invención, un codificador incluye medios para codificar un marco a un régimen codificado pre-seleccionado; medios para calcular un tipo medio de bits de servicio para un número predefinido de marcos codificados; medios para sustraer el tipo medio de bits en servicio de un tipo medio de bits predefinidos para obtener un valor diferencial; medios para dividir el valor diferencial por el tipo codificador preseleccionado para obtener un cociente; medios para acumular una primera cantidad predefinida de posible presencia de impulsos de valores umbrales de rendimiento del codificador de conversación inferior a un valor umbral de rendimiento normal para producir un primer valor acumulado, eligiéndose el número predefinido de impulsos de valores umbrales de rendimiento del codificador de forma tal que el primer valor acumulado sea mayor que el valor absoluto del cociente; medios para sustraer el producto de un decremento por rendimiento del codificador de conversación-valor de impulsos presentes del valor umbral y el primer número predefinido de presencia de impulsos de valores umbrales de rendimiento del codificador de conversación, del valor umbral de rendimiento normal, si el cociente es inferior a cero, para obtener un nuevo valor umbral de rendimiento; medios para acumular un segundo número predefinido de posible presencia de impulsos de valores umbrales de rendimiento del codificador superiores al valor umbral de rendimiento normal para producir un segundo valor acumulado, eligiéndose el numero predefinido de impulsos presentes de valores umbrales de rendimiento del codificador de tal manera que el segundo valor acumulado sea mayor que el cociente; y medios para adicionar el producto de un incremento por el valor de los impulsos de presencia umbral de rendimiento del codificador y el segundo número de impulsos predefinidos de valores umbrales del rendimiento del codificador al valor umbral de rendimiento del codificador, si el cociente es superior o igual a cero, con el fin de obtener un nuevo valor umbral de rendimiento.

Preferentemente, un codificador de conversación incluye ventajosamente un módulo analítico configurado para analizar una serie de marcos, así como un módulo cuantificador acoplado al módulo de análisis y configurado para codificar parámetros generados por el módulo analítico en donde el módulo de cuantificación está además configurado para codificar un marco a un ritmo codificador preseleccionado; para calcular un tipo de bit medio para un número predefinido de marcos codificados; para sustraer el funcionamiento del tipo de bit medio a partir de un tipo de bit medio predefinido para obtener un valor diferencial; a dividir el valor diferencial por el tipo codificador preseleccionado para obtener un cociente; a acumular un primer número predefinido de posible de impulsos de valores umbrales de rendimiento del codificador de conversación que sean inferiores a un valor umbral de rendimiento normal para producir un primer valor acumulado, eligiéndose el número predefinido de impulsos de valores umbrales de rendimiento del codificador de conversación de tal manera que el primer valor acumulado sea mayor que el valor absoluto del cociente; sustraer el producto de un decremento por valor de impulsos de presencia umbral de rendimiento del codificador y el primer número predefinido de presencia de impulsos de valores umbrales de rendimiento del codificador de conversación procedentes del valor umbral de rendimiento normal, si el valor del cociente es inferior a cero, con el fin de obtener un nuevo valor umbral de rendimiento; acumular un segundo número predefinido de posible presencia de impulsos de valores umbrales de rendimiento del codificador de conversación que sean mayores que el valor umbral de rendimiento normal para producir un segundo valor acumulado, eligiéndose el número predefinido de impulsos de los valores umbrales de rendimiento del codificador de forma tal que el segundo valor acumulado se superior al valor del cociente; y añadiendo el producto de un incremento por valor de impulso del umbral de rendimiento del codificador de conversación y el segundo número predefinido de presencia de impulsos de valores umbrales del rendimiento del codificador de conversación al valor umbral de rendimiento normal, si el valor del cociente es mayor o igual acero, para obtener un nuevo valor umbral de rendimiento.

Breve descripción de los dibujos

La fig.1 es un diagrama en bloques de un sistema telefónico inalámbrico; la fig.2 es un diagrama de bloques de un canal de comunicaciones terminado en cada extremo por codificadores de conversación; la fig.3 es un diagrama de bloques de un codificador; la fig.4 es un diagrama de bloques de un descodificador; la fig.5 es un gráfico de circulación representando un proceso de decisiones de codificación de conversación; la fig.6A es un gráfico de la amplitud de la señal de conversación en función del tiempo y la fig.6B es un gráfico de la amplitud residual de predicción lineal(LP) en función del tiempo; la fig.7 es un diagrama de bloques de un codificador de conversación de periodo de paso prototipo (PPP); la fig.8 es un gráfico de circulación representando las fases de algoritmo desarrolladas por un codificador de conversación tal como el codificador de la fig.7, para aplicar una medida del rendimiento de codificación de circuito cerrado a cada uno de los marcos codificados manteniendo al mismo tiempo una proporción de bits media determinada para el codificador de conversación; la fig.9 es un gráfico de circulación representando las fases de algo ritmo desarrolladas por un codificador de conversación para actualizar los valores de los conjuntos de histogramas durante la codificación de un marco de conversación.

Descripción detallada de las realizaciones preferentes

Las disposiciones que como ejemplo, se citan a continuación, se basan en un sistema de comunicaciones telefónicas inalámbrico configurado para emplear una interfase CDMA "on the air". Ello no obstante, los peritos en la materia pueden comprender que un método de muestreo y las características de los aparatos de la presente invención pueden basarse en diversos sistemas de comunicaciones que utilizan una amplia gama de tecnologías conocidas por los expertos en la materia.

Según se representa en la fig.1, un sistema telefónico inalámbrico CDMA suele incluir una serie de unidades de abonados móviles 10, una serie de estaciones de base 12, controladores de estaciones de base (BSCs)14 y un centro de conexión móvil (MSC) 16. El MSC 16 está configurado para interconexión con una red telefónica pública (PSTN) 18. El MSC 16 está también configurado para interconectarse con los BSC 14 los cuales se acoplan a las estaciones de base 12 a través de líneas de retorno, las cuales pueden estar configuradas para soportar alguna de las interfases conocidas como por ej., E1/T1, ATM, IP, PPP, relee de fotograma, HDSL, ADSL o xDSL. Se sobreentiende que puede haber más de dos BSCs 14 en el sistema. Cada estación de base 12 incluye ventajosamente, por lo menos, un sector (no representado) comprendiendo cada sector una antena omnidireccional o una antena que apunta en una dirección determinada radialmente apartada de la estación de base 12. Como alternativa, cada sector puede comprender dos antenas para diversas recepciones. Cada estación de base 12 puede estar ventajosamente concebida para una serie de asignaciones de frecuencia. La intersección de un sector y una asignación de frecuencia pueden designarse como canal CDMA. Las estaciones de base 12 pueden conocerse también como subsistemas de transceptores de estaciones de base (BTs) 12. Como alternativa, "estación de base" puede utilizarse en la industria para designar colectivamente una BSC 14 y uno o más BTS 12,los cuales pueden denominarse también "cell sites" 12. Alternativamente, sectores individuales de un BTS 12 determinado puede designarse como "cell sites". Las unidades de abonados móviles 10 son generalmente móviles o teléfonos PCS 10. El sistema está configurado ventajosamente para ser utilizado de acuerdo con la norma IS-95.

Durante el funcionamiento usual del sistema telefónico celular, las estaciones de base 12 reciben serie de señales de conexión invertida procedentes de los móviles 10. Estos móviles 10 conducen llamadas telefónicas u otras comunicaciones. Cada señal de conexión invertida recibida en una estación de base12 se procesa dentro de la estación de base 12 y los datos resultantes se envían a los BSC 14,los cuales suministran recursos de llamadas y funcionalidad reguladora de la movilidad incluida la orquestación de "manos fuera" blanda entre estaciones de base 12. Los BSC 14 conducen también los datos recibidos al MSC 16, que suministra servicios de ruta adicionales para la interfase con la PSTN 18. Análogamente, la PSTN 18 se interconecta con el MSC 16 y éste se interconecta con los BSC que, por su parte, controlan las estaciones de base 12 para transmitir series de señales de conexiones a juegos de unidades móviles 10.

En la fig.2 un primer codificador 100 recibe muestras de conversación digitalizadas y las codifica para transmitir a un medio de transmisión 102 o canal de comunicaciones 102, a un primer codificador 104. Este descodificador 104 descodifica las muestras de conversación codificadas y las sintetiza en la señal de salida s-sint (n). Para transmitir en dirección opuesta, un segundo codificador 106 codifica muestras de conversación digitalizadas s(n) que son transmitidas a un canal de comunicaciones 108. Un segundo descodificador 110 recibe y descodifica las muestras de conversación codificadas, generando una señal de salida sintetizada s-sint (n).

Las muestras de conversación s(n) representan señales de conversación que han sido digitalizadas y cuantificadas de acuerdo con alguno de los diferentes métodos conocidos por los expertos que incluyen por ej., modulación codificada de impulsos (PCM),Ley u comprimida-expandida o Ley A. Como saben los expertos, las muestras de conversación s(n) se organizan en fotogramas de datos de entrada en los que cada fotograma contiene un número predeterminado de muestras de conversación digitalizadas s(n). En un modelo de ejemplo, se utiliza un muestreo de 8 kHz, comprendiendo cada fotograma de 20 ms 160 muestras. En los modelos que se describen más adelante, la velocidad de transmisión de datos puede alterarse satisfactoriamente sobre la base de fotograma a fotograma desde 13,2 kbps (completa) a 6.2 kbps(media) a 2.6 kbps(cuarto) a 1 kbps(octavo). Variar la velocidad de transmisión de datos resulta ventajoso porque pueden emplearse bajas cantidades de bits para fotogramas que contengan relativamente menos información sobre conversaciones. Como saben los expertos en el tema, pueden utilizarse otras formas de muestreo, tamaños de fotogramas y velocidades de transmisión de datos.

El primer codificador 100 y el segundo 110 comprenden conjuntamente un primer codificador de voz o codificador de conversación. El codificador de voz puede utilizarse en cualquier aparato de comunicaciones para transmitir señales de voz, incluidas, por ej. las unidades de abonados, BTS o BSC antes descritas en relación con la fig.1. Análogamente, el segundo codificador 106 y el primer codificador 104 comprenden conjuntamente un segundo codificador de voz. Se sobreentiende por los expertos en la materia que los codificadores de voz pueden utilizarse con un procesador de señales digitales (DSP), un circuito integrado de aplicación específica (ASIC),lógica de circuito discreta, artículos de empresa o cualquier módulo usual de software programable y microprocesador. El módulo de software puede residir en memoria RAM, memoria flash, registradoras o cualquier otra forma de medio de almacenamiento escrito de esta clase. Como alternativa, cualquier procesador usual, controlador o máquina estatal puede sustituir al microprocesador. Los ASIC citados como ejemplo destinados específicamente para codificación de voz se describen en las patentes U.S. 5,727, concedida al titular de la presente invención y U.S.5,784,532 titulada "Vocoder asic", concedida al titular de la presente invención.

En la fig.3, un codificador 200 que puede utilizarse en un codificador de voz incluye un módulo de decisión de modos 202, un módulo de estimación de pasos 204,un módulo de análisis LP 206, un filtro de análisis LP 208, un módulo de cuantificación LP 210 y un módulo de cuantificación de residuos 212. En el módulo de decisión de modos 202, en el módulo de estimación de pasos 204, en el módulo de análisis LP 206 y en el filtro de análisis LP 208, se dispone de fotogramas de voz de entrada s(n). El módulo de decisión de modos 202 produce un índice de modos IM y un modo M basados en la periodicidad, energía, relación señal-ruido (SNR) o velocidad de cruce cero, entre otras características de cada fotograma de voz de entrada s(n). En la patente U.S. 5,911,128 concedida al titular de la presente invención se describen varios procedimientos de clasificación de fotogramas de voz según la periodicidad. Dichos procedimientos están también contenidos en las Normas Provisionales de la Industria de la Asociación de la Industria de las Telecomunicaciones TIA/EIA IS-127 y en TIA/EIA IS-733. Un esquema de decisión de modos citado como ejemplo se describe también en la citada patente U.S. 6,691084.

El módulo de estimación de pasos 204 genera un índice de pasos Ip y un valor de potencia Po sobre la base de cada fotograma de voz de entrada s(n). El módulo de análisis LP 206 efectúa un análisis predictivo lineal de cada fotograma de voz de entrada s(n) para generar un parámetro a alfa que se facilita al módulo de cuantificación LP 210. Este módulo de cuantificación 210 recibe también el modo M, desarrollando el proceso de cuantificación de una manera dependiente del modo. El módulo de cuantificación LP 210 produce un índice I-LP y un parámetro LP cuantificado "a". El filtro de análisis LP 208 recibe el parámetro LP "a" cuantificado además del fotograma s(n) de voz de entrada. El filtro de análisis 208 genera una señal residual R(n) que representa el error existente entre los fotogramas de voz de entrada s(n) y la voz reconstruida sobre la base de los parámetros "a" lineales cuantificados pronosticados. El residuo LP R(n), el modo M y el parámetro LP "a" se facilitan al modo de cuantificación de residuos 212. Sobre la base de estos valores, el módulo de cuantificación de residuos 212 produce un índice de residuos I-R y una señal de residuos cuantificada R(n).

En la fig.4, el descodificador 300 que puede utilizarse en un codificador de voz incluye un módulo 302 descodificador de parámetros LP, un módulo descodificador de residuos 304,un módulo descodificador de modos 306 y un filtro de síntesis 308. El módulo descodificador de modos 306 recibe y descodifica un índice de modos I-M generando un modo M y el módulo descodificador de parámetros LP 302 recibe el modo M y un índice LP I-LP. Este módulo 302 descodificador de parámetros LP descodifica los valores recibidos para producir un parámetro LP cuantificado "\hat{a}". El módulo descodificador de residuos 304 recibe un índice de residuos I-R, un índice de paso I-p, y un índice de modos I-M. El módulo descodificador de residuos 304 descodifica los valores recibidos para generar una señal de residuos cuantificados R(n), la cual, como el parámetro cuantificado LP \hat{a} son suministrados al filtro de síntesis LP 308, que sintetiza una señal de voz de salida descodificada s(n) a partir del mismo.

El funcionamiento y utilización de los diversos módulos del codificador 200 de la fig.3 y del descodificador 300 de la fig.4 son conocidos de los expertos y se describen en la mencionada patente U.S. 5,414,796 y en el documento de L.B.Rabiner & R.W Schafer "Procesado digital de señales de voz" 396-453(1978).

Según se representa en el diagrama de circulación de la fig.5, un codificador de voz como el de uno de los modelos efectúa una serie de operaciones para procesar las muestras para su transmisión. En la fase 400, el codificador de voz recibe muestras digitales de una señal de voz en fotogramas sucesivos y, una vez recibido uno determinado, pasa a la fase 402 en la que el codificador detecta la energía del fotograma. La energía es una medida de la actividad de voz del fotograma y la detección de la voz se efectúa sumando los cuadrados de las amplitudes de las muestras de voz digitizadas y comparando la energía resultante con un valor umbral. En uno de los modelos, el vapor umbral se adapta sobre la base del nivel de cambio del ruido de fondo. En la citada patente U.S. 5,414,796 se describe un detector de actividad de voz umbral variable citado como ejemplo. Algunos sonidos sin voz pueden ser muestras de energía extraordinariamente baja que pueden codificarse erróneamente como ruido de fondo y, para evitar que esto ocurra, la deformación espectral de muestras de baja energía puede utilizarse para distinguir el sonido sin voz del ruido de fondo, tal como se describe en la citada patente U.S. 5.414.796.

Después de detectar la energía del fotograma, el codificador de voz pasa a la fase 404, en la que el codificador determina si la energía del fotograma detectado es suficiente para clasificar el mismo como poseedor de información de conversación. Si esta energía es inferior a un nivel umbral predefinido, el codificador de voz pasa a la fase 406 en la que codifica al fotograma como ruido de fondo (por ej., sin voz o silencio). En uno de los modelos, el fotograma de ruido de fondo se codifica a 1/8 de ritmo o 1 kbps. Si en la fase 404, la energía detectada en el fotograma es igual o superior al nivel umbral predefinido, el fotograma se clasifica como conversación y el codificador pasa a la fase 408.

En la fase 408, el codificador determina si el fotograma es conversación sin voz; es decir, el codificador examina la periodicidad del fotograma. Entre los diversos métodos conocidos de determinación de la periodicidad figuran por ej. el empleo de cruces cero y la utilización de funciones de auto correlación normalizadas (NACF). En particular, el empleo de cruces cero y NACF para detectar la periodicidad, se describe en las citadas patentes U.S. 5,911,128 y 6,609/217,341. Además, los métodos citados empleados para distinguir conversación con voz de conversación sin voz, se describen en las Normas Provisionales de la Asociación de la Industria de las Telecomunicaciones TIA/EIA IS-127 y TIA/EIA IS-733. Si se comprueba que el fotograma es una conversación sin voz en la fase 408, el codificador pasa a la fase 410 en la que el codificador codifica el fotograma como conversación sin voz. En uno de los modelos, los fotogramas de conversación sin voz se codifican en la cuarta cadencia o 2.6 kbps. Si en la fase 408 no se establece que el fotograma es conversación sin voz, el codificador pasa a la fase 412.

En la fase 412, el codificador de voz determina si el fotograma es conversación transitoria, utilizando los métodos de detección de la periodicidad ya conocidos, tal como se describe en la citada patente U.S. 5,911,128. Si se establece que el fotograma es conversación transitoria, el codificador pasa a la fase 414 en la que el fotograma se codifica como conversación transitoria (es decir, transición de conversación sin voz a conversación con voz). En uno de los modelos, el fotograma de conversación transitoria se codifica de acuerdo con un método codificador interpolados de multi-impulsos tal como se describe en la patente U.S. 6,260,017 titulada "Codificación interpoladora multi-impulsos de fotogramas de conversación transitoria", concedida al titular de la presente invención. En otro modelo, el fotograma de conversación transitoria se codifica en ritmo total o sea, a 13,2 kbps.

Si en la fase 412, el codificador de voz establece que el fotograma no es conversación transitoria, el codificador pasa a la fase 46, en la que codifica al fotograma como conversación con voz. En uno de los modelos, los fotogramas de conversación con voz pueden codificarse a medio ritmo o sea con 6.2 kbps. También es posible codificar los fotogramas de conversación con voz a pleno ritmo o 13,2 kbps (o a pleno ritmo 8 kbps en un codificador CELP de 8 k).Los expertos en la materia, sin embargo, consideran que al codificar fotogramas a medio ritmo, el codificador ahorra una valiosa anchura de banda al explotar la naturaleza de estado permanente de los fotogramas con voz. Además, cualquiera que sea la cadencia utilizada para codificar la conversación con voz, ésta se codifica ventajosamente utilizando información de otros fotogramas y por ello, se dice que se codifica predictivamente.

Los expertos en la materia consideran que la señal de voz o el residuo LP correspondiente pueden codificarse siguiendo las etapas de la fig.5. Las características de forma de onda del ruido, sin voz, transición y conversación con voz, pueden considerarse en función del tiempo en el gráfico de la fig.6A. Las característica de forma de onda del ruido, carencia de voz, transición y residuo LP con voz pueden considerarse en función del tiempo en el gráfico de la fig.6B.

En uno de los modelos, una codificadora de voz 500 de periodo de paso prototipo (PPP)incluye un filtro de inversión 502, un extractor de prototipos 504, un cuantificador de prototipos 506, un no cuantificador de prototipos 508, un módulo de síntesis/interpolación 510 y un módulo de síntesis LPC 512, tal como se representa en la fig.7. El codificador de voz 500 puede funcionar satisfactoriamente como parte de un DSP y puede encontrarse por ej. en una unidad de abonado o en una estación de base en un PCS o en un sistema de teléfono celular o en una unidad de abonado o en el acceso a un sistema de satélite.

En el codificador de voz 500, se ha previsto una señal de voz digitizada s(n) en la que n es el número del fotograma, para el filtro de LP de inversión 502. En un modelo especial la longitud del fotograma es de veinte ms. La función de transferencia del filtro de inversión A(z) se calcula de acuerdo con la siguiente ecuación:

A(z) l-a,z-1- a2z-l-...-apz-p,

en donde los coeficientes l son derivaciones filtrantes con valores predefinidos elegidos de acuerdo con métodos conocidos, tal como se describe en las mencionadas patentes U.S. 5.414,796 y 6,456.964. El número indica el número de muestras previas que utiliza el filtro de inversión LP 502 para los pronósticos. En un caso determinado, se considera que p es diez.

El filtro de inversión 502 suministra una señal residual r(n) de LP al extractor de prototipos 504, el cual extrae un prototipo del fotograma de corriente. El prototipo es una parte del fotograma que se interpola linealmente por el módulo de interpolación/síntesis 510 con prototipos de fotogramas anteriores que se situaron análogamente dentro del fotograma con el fin de reconstruir la señal residual LP en el descodificador.

El extractor de prototipos 504 suministra el prototipo al cuantificador 506 el cual cuantifica el prototipo por alguno de los procedimiento de cuantificación que conocen los expertos en la materia. Los valores cuantificados, que pueden obtenerse de una tabla explicativa (no reproducida), se acumulan en un paquete que contiene parámetros de potencia y codificados, para transmitir a través del canal. El paquete se envía a un transmisor (no mostrado) y se transmite a través del mismo a un receptor(tampoco mostrado). El filtro LP de inversión 502, el extractor de prototipos 504 y el cuantificador de prototipos 506 son informados de que se han efectuado el análisis PPP en el fotograma
normal.

El receptor recibe el paquete y le envía al no-cuantificador de prototipos 508, el cual puede no cuantificar el paquete de acuerdo con diverso procedimientos conocidos. El no-cuantificador de prototipos 508 suministra el prototipo no cuantificado al módulo de interpolación/síntesis 510 el cual interpola el prototipo con prototipos de fotogramas anteriores análogamente ubicados en el fotograma con el fin de reconstruir la señal residual LP para el fotograma actual. La interpolación y síntesis del fotograma se efectúan ventajosamente por medio de métodos conocidos que se describen en las patentes U.S. 5.884,253 y en la antes citada U.S. 6,456,964.

El módulo de interpolación/síntesis 510 suministra la señal residual LP reconstruida r^(n) al módulo de síntesis LPC 512,el cual recibe también los valores (LSP) de par espectral procedentes del paquete transmitido que se utilizan para efectuar el filtrado LPC sobre la señal residual LP reconstruida ^r(n) para crear la señal de voz reconstruida s(n) para el fotograma normal. En un modelo alternativo, la síntesis LPC de la señal de voz s(n) puede efectuarse para el prototipo antes de efectuar la interpolación/síntesis del fotograma normal. El descuantificador de prototipos 508,el módulo de interpolación/síntesis 510 y el módulo de síntesis LPC 512 se ve que han efectuado la síntesis PPP del fotograma normal.

En uno de los modelos de codificador de voz tal como el codificador de voz PPP 500 de la fig.7, se aplica una medida de rendimiento de codificación de circuito cerrado a cada uno de los fotogramas codificados manteniendo al mismo tiempo un tipo de bit medio determinado para el codificador de voz, el cual puede ser un codificador de voz PPP o cualquier otro tipo de codificador de baja proporción de bits que pueda mejorar la calidad de la voz incrementando la velocidad de codificación sobre una base "por fotograma".

Después de la clasificación en circuito abierto de un fotograma de voz (un fotograma de uno de los modelos comprende un segmento de conversación de veinte ms), el fotograma de voz se codifica utilizando una intensidad Rp preseleccionada. Después, se efectúa una prueba de rendimiento de circuito cerrado. Una medida del rendimiento del codificador se obtiene después de la codificación completa o parcial utilizando la intensidad preseleccionada Rp. Unas medidas de rendimiento tomadas como ejemplo, bien conocidas por los expertos en la materia incluyen la relación señal-ruido (SNR),la predicción SNR en esquemas codificantes tales como el codificador de voz PPP, la cuantificación del error de predicción SNR, la cuantificación de fase SNR, la cuantificación de amplitud SNR, la NR perceptual y una correlación cruzada normalizada entre los fotogramas en curso y pasados como medida de estacionaridad). Si la medida de rendimiento PNM cae por debajo de un valor umbral PNM TH, la intensidad de la codificación pasa a un valor con el que se espera que el esquema codificante proporcione mejor calidad. Normalmente, esto significa que el cambio de intensidad codificante es un aumento. Un esquema de clasificación de circuito cerrado tomado como ejemplo para mantener la calidad de un codificador de voz de intensidad variable, se describe en la patente N0-A-0030075 titulada "Codificador de voz predictivo multimodo de intensidad variable y de circuito cerrado", concedido al titular de la presente invención.

La medida de rendimiento PNM se emplea también ventajosamente par actualizar un histograma de umbrales alrededor del valor actual del umbral, PNM-TH. El histograma se utiliza para efectuar un control general de la cadencia media de bits para el codificador de voz de la siguiente manera: El codificador de voz calcula la cadencia media de bits sobre un window de fotogramas W, reajusta a cero la cadencia media de bits después de los fotogramas W y recalcula la cadencia media de servicio de bits para los fotogramas W siguientes. El final del periodo de fotogramas W, la cadencia media de bits se sustrae de la cadencia media de bits determinada, AVR y la diferencia se divide por el valor original codificante preseleccionado Rp.

Si el cociente NR de la división AVR/Rp es positivo, se acumulan los valores de los histogramas de los primeros depósitos BR o anchuras de barras de histogramas, a la derecha de PNM-TH (es decir, los primeros depósitos BR asociados a un ritmo codificante más elevado que el umbral) El valor de BR se elige ventajosamente de tal manera que el valor acumulado sea superior a NR. Después, se incrementa el umbral PNM-TH en una cantidad igual al producto DTH-HI*BR, en donde DTH-HI es la cantidad de incremento por depósito. Debe tenerse en cuenta que DTH-HI se inicializa primero a un valor idóneo. Uno de estos valores adecuados es (MAX-TH-PNM-TH)/HB (los parámetros se definen más adelante).

Si el cociente NR es negativo, se acumulan los valores de los histogramas de los primeros depósitos BL a la izquierda de PNM-TH. El valor de BL se elige ventajosamente de forma tal que el valor acumulado sea superior a -NR. Después, se reduce el umbral PNM-TH en una cantidad igual al producto DTH-LO*BL, en donde DTH-LO es el volumen de decremento por depósito. Debe tenerse en cuenta que DTH- LO se inicializa primero a un valor adecuado. Uno de estos valores adecuados es (PNM-TH-MIN-TH)/HB (los parámetros se definen a continuación). El umbral de rendimiento PNM-TH- puede limitarse a los valores máximo y mínimo MAX-TH y MIN-TH, respectivamente, si se conocen tales valores máximo y mínimo o estimaciones de los mismos. Ventajosamente, el decremento por depósito DTH-LO y el incremento por depósito DTH-HI pueden actualizarse, si se desea a las cantidades de los cocientes (PNM-TH-MIN-TH)/HB y (MAX-TH-PNM-TH/HB, respectivamente, en donde HB es igual a la mitad del número de depósitos del histograma. Cuando el codificador de voz ha terminado de mantener el ritmo medio de bits cerca del ritmo medio determinado, AVR para window de marco W, se reajustan ventajosamente a cero los valores de los histogramas para todos los depósitos 2HB del histograma.

En uno de los modelos, la actualización de los valores de los histogramas se efectúa durante la codificación utilizando la cadencia preseleccionada Rp. La operación se efectúa de la siguiente manera; en primer lugar, se actualizan los depósitos, ajustando cada uno de los depósitos HB de la izquierda del umbral PNM-TH igual al valor de la diferencia PNM-TH-DTH-LO*i para el depósito ith de la izquierda del umbral PNM-TH (el umbral PNM-TH está situado en el centro del histograma). Cada uno de los depósitos HB de la derecha del umbral PNM-TH se ajusta igual al valor de la suma PNM-TH+DTH-HI*i para el depósito ith de la derecha del umbral PNM-TH y en segundo lugar, el valor del histograma del depósito que contiene PNM, el valor de medida del rendimiento normal, se incrementa en uno. En uno de los modelos, un codificador de voz tal como el codificador PPP de la fig.7, desarrolla las fases de algoritmo representadas en el gráfico de circulación de la fig.8 para aplicar una medida del rendimiento codificador de circuito cerrado PNM a cada fotograma codificado, manteniendo al mismo tiempo una cadencia media de bits determinada para el codificador de voz. Este codificador de voz puede ser un codificador PPP o cualquier otro tipo de codificador de voz de baja cadencia de bits que puede mejorar la calidad de voz incrementando el ritmo de codificación sobre una base "por fotograma".

El fotograma de voz normal se codifica a una cadencia Rp basada en la clasificación de circuito abierto de los contenidos del fotograma. Entonces, se aplica al fotograma un ensayo de circuito cerrado de tal manera que si una medida de rendimiento de codificación de voz, PNM, queda por debajo de un valor umbral de rendimiento, PNM-TH, se incrementa la cadencia de codificación. Después, se ajusta el umbral PNM-TH de acuerdo con las fases del método siguiente para mantener el ritmo medio de bits en funcionamiento del codificador de voz a una cadencia igual o próxima a la de los bits medios del objetivo, AVR.

En la fase 600, el codificador de voz calcula el ritmo medio de bits en servicio para un "window" de W fotogramas en longitud. Entonces, el codificador de voz pasa a la fase 602 en la que el codificador de voz calcula el cociente NR= (AVR=cadencia media de bits en servicio)/Rp. Luego, el codificador de voz pasa a la fase 604 en la que el codificador determina si NR es superior o igual a cero. Si NR es superior o igual que cero, el codificador pasa a la fase 606. Si, por el contrario, NR no es superior o igual a cero, el codificador de voz pasa a la fase 608.

En la fase 606, el codificador de voz acumula el primer valor del depósito de histogramas a la derecha de PNM-TH (que se encuentra en el centro del histograma), eligiendo BR de forma tal que el valor acumulado sea mayor que NR. A continuación, el codificador de voz pasa a la fase 610 en la que ajusta PNM-TH igual a la suma de PNM-TH y DTH-HI*BR, en donde DTH- HI es igual a la cantidad de incremento por depósito de histogramas. Después, el codificador de voz pasa a la fase 612.

En la fase 608, el codificador de voz acumula el primer BL de valores del depósito de histogramas a la izquierda de PNM-TH, eligiendo BL de tal manera que el valor acumulado sea mayor que -NR-. Entonces, el codificador de voz pasa a la fase 614 en la que ajusta PNM-TH igual a la diferencia existente entre PNM-TH y DTH-LO*BR, en donde DTH-LO es igual al volumen de decremento por depósito de histogramas. Después, el codificador de voz pasa a la fase 612.

Las fases de restricción de PNM-TH a valores máximos y mínimos, MAX-TH y MIN-TH respectivamente, pueden, si se desea, desarrollarse antes de la fase 612. Además, las fases de actualización del decremento por depósito DTH-LO y del incremento por depósito DTH-HI a las cantidades del cociente (PNM-TH-MIN-TH)/HB y (MAX-TH-PNM-TH)/HB, respectivamente, en las que HB es igual a la mitad del número de bits del histograma, pueden desarrollarse, si se desea, antes de la fase 612. También debe tenerse en cuenta que DTH-HI y DTH-LO, deben inicializarse primero a valores idóneos tales como (MAX-TH-PNM-TH)/HB y (PNM-TH-MIN-TH)/HB, respectivamente.

En la fase 612, el codificador de voz reajusta los valores de los histogramas de todos los depósitos 2HB a cero. Después, el codificador de voz vuelve a la fase 600 para calcular la cadencia media de bits en funcionamiento para los histogramas próximos W.

En uno de los modelos el codificador de voz desarrolla las fases de algoritmo reproducidas en el gráfico de corriente de la fig.9 para actualizar los valores de los depósitos de histogramas durante la codificación del fotograma de voz al ritmo codificador Rp, para cada uno de los fotogramas W. En la fase 700, el codificador de voz justa todos los depósitos de histogramas de la izquierda de PNM-TH iguales al valor de la diferencia PNM-TH-DTH-LO*i para el depósito ith de la izquierda del umbral PNM-TH. Después, el codificador de voz pasa a la fase 702, en la que el codificador sitúa todos los depósitos de histogramas de la derecha de PNM-TH en un valor igual a la suma de PNM-TH+DTH-NI* para el depósito ith de la derecha del umbral PNM-TH. Entonces, el codificador de voz pasa a la fase 704 en la que el codificador incrementa en uno el valor del depósito de histogramas que contiene PNM, el valor de medida del rendimiento normal.

Así, se ha descrito un nuevo procedimiento y aparato para mantener una cadencia de bits determinada en un codificador de voz. Los expertos en la materia entienden que los diversos bloques ilustrativos y fases de algoritmos descritas en relación con los modelos aquí descritos pueden desarrollarse o efectuarse con un procesador de señales digitales (DSP), un circuito integrado de aplicación específica (ASIC),lógica discreta de circuitos o transistores, componentes discretos de hardware tales como registradores y FIFO, un procesador que desarrolla una serie de instrucciones de "firmware" o cualquier módulo usual programable de software y un procesador. El procesador puede ver ventajosamente un microprocesador; pero como alternativa puede ser un procesador usual, un controlador, un microcontrolador o una máquina fija. El módulo de software puede encontrarse en una memoria RAM, memoria de flash, registradores o cualquier otra forma de medios de almacenamiento por escrito conocidos por el personal experto. Este personal considera también que los datos, instrucciones, comandos, información, señales, bits, símbolos y chips a los que pueda haberse hecho referencia a través de la descripción anterior están satisfactoriamente representados por tensiones, corrientes, indas electromagnéticas, campos magnéticos o partículas, campos ópticos o partículas o cualquier combinación de los mismos.

Así pues, se han mostrado y descrito los modelos preferidos de la presente invención; pero es evidente para los expertos en la materia, que pueden introducirse numerosas alteraciones en los modelos aquí dados a conocer sin apartarse del alcance de la invención. Por lo tanto, la presente invención no está limitada, sino en lo que está de acuerdo con las reivindicaciones que siguen.

Claims

1. Procedimiento para mantener una cadencia media de bits determinada para un codificador de voz (100,106,200,
500), codificador (100,106,200,500) que está configurado para codificar una serie de fotogramas de diversas cadencias codificadoras, procedimiento que comprende:

la codificación (400 a 416) de un fotograma a un ritmo de codificación preseleccionado;

el cálculo (600) de una cadencia media de bits en servicio para un número predefinido de fotogramas codificados;

la sustracción (602) de la cadencia media de bits en servicio de una cadencia media de bits determinada para obtener un valor diferencial;

la división (602) del valor diferencial por el tipo de codificación preseleccionada para obtener un valor cociente;

si (604) el valor cociente es inferior a cero, la acumulación (608) de una primera cantidad predefinida de posibles impulsos presentes de valores umbrales de rendimiento del codificador de voz que sean menores que un valor umbral de rendimiento normal para obtener un primer valor acumulado, eligiéndose el número predefinido de impulsos presentes de valores umbrales de rendimiento del codificador de voz de tal manera que el primer valor acumulado sea mayor que el valor absoluto del cociente;

si (604) el valor del cociente es inferior a cero, la sustracción (614) del producto de un decremento por valor del impulso de presencia umbral de rendimiento del codificador de voz y el primer número predefinido de impulsos presentes de valores umbrales de rendimiento del codificador con respecto al valor umbral de rendimiento normal para obtener un nuevo valor umbral de rendimiento;

si (604) el valor del cociente es mayor o igual a cero, la acumulación (606) de una segunda cantidad predefinida de posible presencia de valores umbrales de rendimiento del codificador de voz que sean mayores que el valor umbral de rendimiento normal, para producir un segundo valor acumulado, eligiéndose el número predefinido de presencia de valores umbrales de rendimiento del codificador de voz de tal manera que el segundo valor acumulado sea mayor que el valor del cociente; y

si (604) el valor del cociente es mayor o igual que cero, la adición (610) del producto de un incremento por valor de impulsos de presencia umbral de rendimiento del codificador y el segundo número predefinido de producción de valores umbrales de rendimiento del codificador de voz al valor umbral de rendimiento normal para obtener un nuevo valor umbral de rendimiento.

2. Procedimiento de la reivindicación 1 que comprende, además, la comparación del rendimiento del codificador de voz con una medida de rendimiento predefinida, así como el ajuste de la cadencia codificadora preseleccionada para el fotograma si el rendimiento del codificador de voz para el fotograma cae por debajo del nuevo valor umbral de rendimiento.

3. El procedimiento de la reivindicación 2 en el que el ajuste supone un incremento del ritmo de codificación del fotograma.

4. El procedimiento de la reivindicación 2 que comprende, además, durante la codificación (400 a 416):

para cada presencia de un valor umbral de rendimiento del codificador de voz inferior al valor umbral de rendimiento normal, la sustracción (700) del producto del decremento por valor del impulso de presencia del umbral de rendimiento del codificador de voz y, además, el número presente de impulsos de valores umbrales de rendimiento del codificador de voz entre el impulso de presencia de un valor umbral de rendimiento del codificador de voz y el valor umbral de rendimiento normal del valor umbral de rendimiento normal, así como el ajuste (700) de la presencia de un impulso de un valor umbral de rendimiento del codificador de voz igual al resultado de la sustracción;

para cada existencia de impulso de un valor umbral de rendimiento del codificador de voz que sea mayor que el valor umbral de rendimiento normal, la adición (702) del producto por incremento del valor del impulso de presencia umbral de rendimiento del codificador de voz y además la cantidad de impulsos de presencia de valores umbrales de rendimiento del codificador de voz entre el impulso de producción de un valor umbral de rendimiento del codificador de voz y el valor umbral de rendimiento normal, y el ajuste (702) de la presencia de impulso de un valor umbral de rendimiento del codificador de voz igual al resultado de la adición; y

el incremento (704) en uno del impulso de producción de un valor umbral del rendimiento del codificador de voz que corresponda al rendimiento del codificador de voz normal

5. El procedimiento de la reivindicación 1, que comprende, además, la obtención de la cadencia preseleccionada de una clasificación de circuito abierto del fotograma.

6. El procedimiento de la reivindicación 1, que comprende, además, la limitación a un valor máximo del umbral de rendimiento normal.

7. El procedimiento de la reivindicación 1 que comprende, además, la limitación a un valor mínimo del umbral de rendimiento normal.

8. El procedimiento de la reivindicación 1, que comprende, además, la asignación de valores iniciales al decremento por valor de impulsos de producción del umbral de rendimiento del codificador de voz, así como al incremento por valor de impulsos de producción del umbral de rendimiento del codificador de voz.

9. El procedimiento de la reivindicación 1, que comprende, además, el reajuste de todos los impulsos de producción de valores umbrales de rendimiento del codificador de voz a cero después de realizar cualquiera de las operaciones de adición o sustracción.

10. El procedimiento de la reivindicación 1, en el que el fotograma es un fotograma de audio.

11. El procedimiento de la reivindicación 1, en el que el fotograma es un fotograma residual predictivo lineal.

12. El procedimiento de la reivindicación 1, en el que el codificador de voz (100,106,200,500) se encuentra en una unidad de abonado (10) de un sistema de comunicaciones inalámbrico.

13. Un codificador de voz (100,106,200,500), que comprende:

medios para codificar (400 a 416) un fotograma a un ritmo codificador preseleccionado; medios para calcular (600) un ritmo medio de servicio de bits para un número predefinido de fotogramas codificados; medios para sustraer (602) la cadencia media de bits en servicio de un ritmo determinado predefinido para obtener un valor diferencial; medios para dividir (602) el valor diferencial por el tipo de codificación preseleccionado para obtener un valor cociente; medios para acumular (608), si (604) el valor del cociente es inferior a cero, un primer número predefinido de posibles impulsos de producción de valores umbrales de rendimiento del codificador de voz que sean inferiores a un valor umbral de rendimiento normal de los valores umbrales de rendimiento del codificador de voz de tal manera que el primer valor acumulado sea mayor que el valor absoluto del cociente; medios para sustraer (614) el producto de un decremento por valor del impulso de producción umbral de rendimiento del codificador de voz, así como el primer número predefinido de producción de impulsos de valores umbrales de rendimiento del codificador de voz, del valor umbral de rendimiento normal, si (604) el valor del cociente es inferior a cero, con el fin de obtener un nuevo valor umbral de rendimiento; medios para acumular (606), si (604) el valor del cociente es mayor o igual a cero, un segunda cantidad predefinida de posibles impulsos de producción de valores umbrales de rendimiento del codificador de voz mayores que el valor umbral de rendimiento normal para producir un segundo valor acumulado, eligiéndose el número predefinido de producción de impulsos de los valores umbrales de rendimiento del codificador de voz de forma tal que el segundo valor acumulado sea mayor que el valor del cociente: y medios para agregar (610) el producto de un incremento por valor de impulsos de producción del umbral de rendimiento del codificador de voz y la segunda cantidad predefinida de impulsos de producción de valores umbrales de rendimiento del codificador de voz, al valor umbral de rendimiento normal, si (604), el valor del cociente es mayor o igual a cero, con el fin de obtener un nuevo valor umbral de rendimiento.

14. El codificador de voz (100,106,200,500) de la reivindicación 13, que comprende, además, medios para comparar el rendimiento del codificador de voz con una medida y unos medios de rendimiento predefinidos para ajustar el ritmo de codificación preseleccionado para el fotograma si el rendimiento del codificador de voz para el fotograma cae por debajo del nuevo valor umbral de rendimiento.

15. El codificador de voz (100,106,200,500) de la reivindicación 14, en el que los medios de ajuste comprenden medios para incrementar el ritmo de codificación del fotograma.

16. El codificador de voz (100,106,200.500) de la reivindicación 14 comprende, además: medios para sustraer(700) durante la codificación (400 a 416) del fotograma, para cada generación de impulsos de un valor umbral de rendimiento del codificador de voz que es inferior al valor umbral de rendimiento normal, el producto del decremento por valor de impulso de producción del umbral de rendimiento del codificador de voz y además, el número de impulsos producidos de valores umbrales del rendimiento del codificador de voz entre el impulso producido de un valor umbral de rendimiento del codificador de voz y el valor umbral de rendimiento normal, para ajustar la aparición de impulsos de un valor umbral de rendimiento del codificador de voz igual al resultado de la sustracción; medios para añadir (702), durante la codificación 400 a 416) del fotograma, cada vez que se produzca un impulso de un valor umbral de rendimiento del codificador de voz que sea mayor que el valor umbral de rendimiento normal, el producto del incremento por valor de impulso de presencia umbral de rendimiento del codificador de voz y, además, el número de impulsos producidos de valores umbrales de rendimiento del codificador de voz entre la generación de impulsos de valores umbrales de rendimiento del codificador de voz y el valor umbral de rendimiento normal con respecto al valor umbral de rendimiento, y ajuste de la generación de impulsos de un valor umbral de rendimiento del codificador de voz igual al resultado de la adición; y medios para incrementar (704) en uno, durante la codificación (400 a 416) del fotograma, el impulsos generador de un valor umbral de rendimiento del codificador de voz que corresponde al rendimiento del codificador de voz normal.

17. El codificador de voz (100,106,200,500) de la reivindicación 13, comprende, además, medios para conseguir el ritmo codificador preseleccionado a partir de una clasificación de circuito abierto del fotograma.

18. El codificador de voz (100,106,200,500) de la reivindicación 13, comprende, además, medios para limitar el umbral de rendimiento normal a un valor máximo.

19. El codificador de voz (100,106,200,500) de la reivindicación 13, comprende, además, medios para limitar el umbral de rendimiento normal a un valor mínimo.

20. El codificador de voz (100,106,200,500) de la reivindicación 13, comprende, además, medios para asignar valores iniciales al decremento por valor de impulsos de generación del umbral de rendimiento del codificador de voz y al incremento por valor de impulsos umbrales de generación del rendimiento del codificador de voz.

21. El codificador de voz (100,106,200,500) de la reivindicación 13, comprende, además, medios para reajustar (612) a cero toda la generación de impulsos de valores umbrales de rendimiento del codificador de voz, una vez se ha ajustado el valor umbral de rendimiento normal.

22. El codificador de voz (100,106,200,500) de la reivindicación 13 en el que el fotograma es un fotograma con voz.

23. El codificador de voz (100,106,200,500) de la reivindicación 13, en el que el fotograma es un fotograma residual predictivo lineal.

24. El codificador de voz de la reivindicación 13, en el que, el codificador de voz (100,106,200,500) tiene asiento en un unidad de abonado (10) de un sistema de comunicaciones inalámbrico.