ES2240121T3 - Metodo y aparato para mantener un volumen determinado de bits en un audiocodificador. - Google Patents
Metodo y aparato para mantener un volumen determinado de bits en un audiocodificador.Info
- Publication number
- ES2240121T3 ES2240121T3 ES00947533T ES00947533T ES2240121T3 ES 2240121 T3 ES2240121 T3 ES 2240121T3 ES 00947533 T ES00947533 T ES 00947533T ES 00947533 T ES00947533 T ES 00947533T ES 2240121 T3 ES2240121 T3 ES 2240121T3
- Authority
- ES
- Spain
- Prior art keywords
- performance
- value
- encoder
- threshold
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004364 calculation method Methods 0.000 claims abstract description 3
- 238000004891 communication Methods 0.000 claims description 16
- 238000009825 accumulation Methods 0.000 claims description 4
- 230000033764 rhythmic process Effects 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 description 16
- 238000011002 quantification Methods 0.000 description 16
- 238000003786 synthesis reaction Methods 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 239000002699 waste material Substances 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000009833 condensation Methods 0.000 description 2
- 230000005494 condensation Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001955 cumulated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Detection And Correction Of Errors (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Procedimiento para mantener una cadencia media de bits determinada para un codificador de voz (100, 106, 200, 500), codificador (100, 106, 200, 500) que está configurado para codificar una serie de fotogramas de diversas cadencias codificadoras, procedimiento que comprende: la codificación (400 a 416) de un fotograma a un ritmo de codificación preseleccionado; el cálculo(600) de una cadencia media de bits en servicio para un número predefinido de fotogramas codificados; la sustracción(602) de la cadencia media de bits en servicio de una cadencia media de bits determinada para obtener un valor diferencial; la división (602) del valor diferencial por el tipo de codificación preseleccionada para obtener un valor cociente.
Description
Método y aparato para mantener un volumen
determinado de bits en un audiocodificador.
La presente invención forma parte generalmente
del procesado de audio y más concretamente de los métodos y
aparatos para mantener una cantidad determinada de bits en los
audio codificadores.
La transmisión de la voz por procedimientos
digitales viene extendiéndose especialmente en aplicaciones de
larga distancia y de radioteléfonos digitales y esto, a su vez, ha
generado interés para determinar el máximo volumen de información
que puede transmitirse a través de un canal manteniendo la calidad
conseguida de conversación reconstruida. Si la conversación se
transmite simplemente por muestreo y digitización, se necesita un
volumen de datos del orden de sesenta y cuatro kilobits por segundo
(kbps) para alcanzar una calidad de conversación de los teléfonos
analógicos usuales. Ello no obstante, mediante un análisis de los
sonidos y luego de una codificación, transmisión y resíntesis
adecuadas en el receptor, puede conseguirse una significativa
reducción de la cantidad de datos.
En muchos sectores de las telecomunicaciones se
utilizan dispositivos para reducir la cantidad de sonidos y un
campo que sirve de ejemplo es el de las comunicaciones
inalámbricas, campo que tiene múltiples aplicaciones con
inclusión, por ejemplo, de los teléfonos sin cordones, la
paginación, los circuitos locales inalámbricos, la telefonía
inalámbrica tal como los sistemas telefónicos celulares y PCS, la
telefonía móvil de Protocolo de Internet (IP) y los sistemas de
comunicaciones por satélite. Una aplicación especialmente
importante es la telefonía inalámbrica para abonados móviles.
Para los sistemas de comunicación inalámbricos se
han desarrollado diversas interfases a través del aire con
inclusión, por ejemplo, del acceso múltiple por división de
frecuencias (FDMA), del acceso múltiple por división de tiempo
(TDMA) y del acceso múltiple por división de códigos (CDMA). En
relación con esto, se han establecido diversas normas nacionales e
internacionales entre las que figuran el Servicio Telefónico Móvil
Avanzado (AMPS), el Sistema Global para Comunicaciones Móviles
(GSM) y la Norma Provisional 95 (IS-95).Un sistema
de comunicación telefónica inalámbrica que puede servir de ejemplo
es un sistema de acceso múltiple por división de códigos (CDMA). La
norma IS-95 y sus derivadas IS-95A,
ANSI J-STD-008,
IS-95B,la tercera generación de normas propuesta
IS-95C e IS-2000 etc (denominada
colectivamente IS-95C) han sido promulgadas por la
Asociación de la Industria de las Telecomunicaciones (TIA) y otros
organismos de normalización perfectamente conocidos para
especificar el empleo de una interfase CDMA a través del aire para
sistemas de telecomunicaciones telefónicos celulares o PCS. Unos
sistemas de comunicación inalámbricos que pueden servir de ejemplo y
configurados esencialmente de acuerdo con el empleo de la norma
IS-95, se describen en las patentes 5,103,459 y
4,901,307 concedidas al titular de la presente invención.
Los dispositivos que emplean procedimientos para
reducir las voces extrayendo parámetros que se refieren a un modelo
de generación de la voz humana, se denominan audio codificadores.
Un codificador de audio divide la señal de audio de entrada en
bloques de tiempo o marcos analíticos. Los audio codificadores
suelen comprender un codificador y un descodificador. El codificador
analiza el marco vocal de entrada para extraer cierto parámetro
relevante y cuantifica los parámetros en representación binaria; es
decir, una serie de bits o un paquete de datos binarios, paquetes
que se transmiten a través del canal de comunicaciones a un
receptor y a un descodificador. Este, procesa los paquetes de
datos, los descuantifica para producir los parámetros y resintetiza
los marcos de conversación utilizando los parámetros
descuantificados.
El cometido del codificador es el de condensar la
señal de conversación digitizada en una señal de bits bajos
eliminando todas las redundancias naturales inherentes a la
conversación. La reducción digital se consigue representando el
marco de conversación de entrada con un juego de parámetros y
empleando la cuantificación para representar los parámetros con una
serie de bits. Si el marco de conversación de entrada tiene un
número de bits Ni y el paquete de datos producido por el
codificador tiene un número de bits No, el factor de condensación
conseguido por el codificador es C, =Ni/No. La dificultad estriba
en mantener la elevada calidad de la voz de la conversación
descodificada, pero manteniendo el factor de condensación fijado
como objetivo. El rendimiento del codificador depende 1) de lo bien
que funcione el modelo de conversación o la combinación de los
procesos de síntesis y análisis antes descritos y 2) de lo bien que
se efectúe el proceso de cuantificación de parámetros con una
cantidad de bits prefijada de No bits por marco. La finalidad del
modelo de conversación es la de reflejar la esencia de la señal de
conversación con una pequeña cantidad de parámetros por cada
marco.
Quizás lo más importante al proyectar un audio
codificador sea encontrar un buen juego de parámetros (incluidos
vectores) para describir la señal de conversación. Un buen juego de
parámetros requiere una anchura de banda baja del sistema para
reconstruir una señal de conversación perceptualmente precisa. El
paso, la potencia de la señal, la envoltura espectral (o
formantes), la amplitud y los espectros de fase son ejemplos de los
parámetros de codificación de la conversación. Los codificadores de
conversación pueden desarrollarse como codificadores de
tiempo-dominio, que tratan de captar la forma de
onda de la conversación de tiempo-dominio empleando
un elevado proceso de tiempo-resolución para
codificar pequeños fragmentos de conversión (generalmente,
sub-marcos de 5 milisegundos(ms) de una vez.
Para cada submarco, se encuentra un representante de alta precisión
de un espacio codificable empleando diversos algoritmos de búsqueda
que conocen los expertos en la materia. Como variante, pueden
desarrollarse codificadores de conversación como codificadores de
frecuencia-dominio que tratan de captar el espectro
de conversación de corto plazo del marco de conversación de entrada
con una serie de parámetros (análisis) y emplean el correspondiente
procesos de síntesis para recrear la forma de onda de conversación
de los parámetros espectrales. El cuantificador de parámetros
conserva los parámetros representándolos con representaciones
almacenadas de vectores codificados de acuerdo con los
procedimientos de cuantificación conocidos descritos en A.Gersho
& R.M. Gray "Vector Quantization and Signal
Compression"(1992).
Un codificador de conversación
tiempo-dominio bien conocido es el codificador
predictivo lineal excitado por código (CELP) descrito por
L.B.Rabiner y R.W.Schafer en "Digital Processing of Speech
Signals"396-453(1978). En un codificador
CELP las correlaciones a corto plazo o redundancias de la señal de
conversación se eliminan por un análisis de predicción lineal (LP9
que tiene los coeficientes de un filtro formante a corto plazo.
Aplicando el filtro de predicción a corto plazo al marco de
conversación de entrada, se genera una señal residual LP, que se
modela y cuantifica con parámetros filtrantes de predicción a largo
plazo y el subsiguiente código estocástico. De esta manera, la
codificación CELP divide la tarea de codificar la forma de onda de
conversación Tiempo-dominio, en las tareas
independientes de codificar los coeficientes de filtro LP a corto
plazo y codificar el residuo LP. La codificación
tiempo-dominio puede efectuarse a una velocidad fija
(es decir, utilizando el mismo número de bits, No para cada marco)
o a una velocidad variable (en la que se utilizan diferentes bits
para diferentes contenidos de marcos).Los codificadores de
velocidad variable suelen utilizar solamente la cantidad de bits
necesaria para obtener una calidad determinada. Un codificador CELP
de velocidad variable que sirve de ejemplo se describe en la
patente U.S. 5,414,796 concedida al titular de la presente
invención. Los codificadores de tiempo-dominio
tales como el CELP se suelen basar en un elevado número de bits No
por marco para preservar la precisión de la forma de onda de la
conversación de tiempo-dominio. Tales codificadores
suelen suministrar una excelente calidad de voz siempre que el
número de bits No, por marco sea relativamente grande (por ej. de
8kbps o superior). En cambio, con un número de bits bajo (4 kbps y
menos),los codificadores de tiempo-dominio dejan de
mantener una calidad elevada y un sólido rendimiento por el
limitado número de bits disponible. Con un número de bits bajo, el
espacio de código limitado reduce la capacidad de formación de onda
de los codificadores de tiempo-dominio usuales que
se emplean satisfactoriamente para aplicaciones comerciales de
magnitud elevada y, en consecuencia, a pesar de las mejoras en
función del tiempo, muchos sistemas de codificación CELP que
funcionan con bajos bits sufren la deformación perceptualmente
significativa caracterizada como ruido.
En la actualidad se registra un incremento del
interés investigatorio, así como una fuerte necesidad comercial por
desarrollar un codificador de conversación de alta calidad que
funcione con unas cantidades de bits entre medias y bajas(es
decir, del orden de 2.4a 4 kbps y menos). Los ámbitos de aplicación
incluyen la telefonía inalámbrica, las comunicaciones por satélite,
la telefonía Internet, diversas aplicaciones multimedios y de
propagación de la voz, correo por audio y otros sistemas de
almacenamiento de la voz. Las fuerzas impulsoras son la necesidad
de conseguir una elevada capacidad, así como la demanda de un sólido
rendimiento en situaciones de pérdida de paquetes. Diversos
esfuerzos normalizadores recientes de codificación de la
conversación son otra fuerza impulsora directa de incremento de la
investigación y desarrollo de algoritmos codificadores de
conversación de baja proporción. Un codificador de conversación de
baja intensidad crea más canales o usuarios por anchura de banda de
aplicación admisible y un codificador de voz de baja intensidad en
combinación con una capa adicional de codificación de canal adecuada
puede ajustar el presupuesto total de bits de las especificaciones
de los codificadores y proporcionar un firme rendimiento en
condiciones de error de los canales.
Un procedimiento eficaz para codificar
eficazmente la conversación con bajas intensidades de bits, es la
codificación multimodo. Un procedimiento de codificación multimodo
que puede servir de ejemplo se describe en la patente U.S 6.691,084
titulada "Codificación de conversación de intensidad variable",
concedida al titular de la presente invención. Los codificadores
multimodo usuales aplican diferentes modos o algoritmos de
codificación-descodificación para diferentes tipos
de marcos de conversación de entrada. Cada modo o proceso de
codificación-descodificación se adapta para
representar óptimamente un tipo de segmento de conversación
determinado, como por ej. conversación con voz, conversación sin
voz, conversación de transición (por ej. entre la con voz y la sin
voz) y ruido de fondo (sin conversación) de la manera más eficaz. Un
mecanismo exterior sobre la decisión de modos de circuito abierto,
examina el marco de conversación de entrada y toma una decisión
sobre el modo a aplicar al marco. La decisión sobre el modo de
circuito abierto se suele adoptar extrayendo un número de
parámetros del marco de entrada, evaluando los parámetros como
ciertas características temporales y espectrales y basando la
decisión sobre el modo en la evaluación. De esta manera, la
decisión sobre el modo se efectúa sin conocer de antemano el estado
exacto de la conversación de salida; es decir, la cercanía de la
conversación de salida con respecto a la de entrada en términos de
calidad de la voz u otras medidas sobre el rendimiento.
Los sistemas codificadores que funcionan con
regímenes del orden de 2.4 kbps, tienen, generalmente, una
naturaleza paramétrica; es decir, dichos sistemas funcionan
transmitiendo parámetros que describen el periodo de paso y la
envoltura espectral (o formantes) de la señal de audio a intervalos
regulares. Una forma de estos codificadores denominados
paramétricos es el sistema de vocodificador LP.
Los vocodificadores LP modulan una señal de audio
con voz con un impulso sencillo por período de paso. Esta técnica
básica puede incrementarse para incluir información de transmisión
sobre la envoltura espectral, entre otras cosas. Aunque los
vocodificadores LP suministran generalmente un rendimiento
razonable, pueden introducir una deformación perceptualmente
significativa normalmente denominada zumbido.
En los últimos años, han surgido codificadores
que son híbridos de codificadores de forma de onda y de
codificadores paramétricos. Es representativo de estos
codificadores híbridos el sistema de codificación de interpolación
de forma de onda prototipo (PWI), el cual puede conocerse también
como codificador de conversación de periodo de paso prototipo (PPP).
Un sistema de codificación PWI suministra un método eficaz de
codificación con voz. El concepto básico del PWI consiste en
extraer un ciclo de pasos representativo (la forma de onda
prototipo) a intervalos fijos para transmitir su descripción y para
reconstruir la señal de conversación mediante interpolación entre
formas de onda prototipos. Un codificador PWI o PPP que puede
servir de ejemplo es el que se describe en la patente U.S.
6.456,964 titulada "Codificación de conversación periódica",
concedida el 21 de diciembre de 1998 al titular de la presente
invención. Otros codificadores de conversación PWI, o PPP se
describen en la patente U.S. 5.884,253 y en W. Bastiaan Kleijn
& Wolfgang Granzow "Métodos para interpolar la forma de onda
en la codificación de conversación en 1 procesado de señales
digitales" 215-230 (1991).
Los codificadores usuales de baja intensidad de
bits y conversación de intensidad variable, utilizan una decisión
sobre el modo de codificación de circuito abierto basada en la
energía del marco para determinar cuando debe conectarse de un
régimen de codificación inferior a otro superior. Así, el
codificador puede explotar la presencia de diferentes clases de
conversación y codificarlas a intensidades diferentes. Ello no
obstante, la codificación al tipo decidido por la clasificación del
circuito abierto puede dar lugar a una calidad mala o mediocre para
marcos determinados y, por lo tanto, resultaría ventajoso mejorar
la eficacia de la decisión de circuito abierto. Así, sería deseable
emplear estimaciones de calidad para cambiar(es decir,
incrementar si es preciso) el régimen de codificación para un marco
determinado. Sin embargo, el aumento de la intensidad de
codificación del marco cambia (aumenta) la intensidad media de
codificación para el codificador de conversación. Por lo tanto,
también sería conveniente proporcionar un codificador de
conversación que mantuviera una intensidad media de bits constante
y permitiera simultáneamente desviaciones de los tipos codificantes
sobre una base de marco por marco con respecto a lo decidido por la
clasificación del circuito abierto. También sería conveniente
especificar unas intensidades medias determinadas para el
codificador de conversación. Igualmente, sería ventajoso mantener un
tipo de bits concreto para el codificador de conversación. Así,
pues, hay necesidad de un codificador de conversación que mejore
las decisiones sobre los modos de codificación con un proceso de
decisiones de circuito cerrado para obtener una calidad óptima de
la voz, pero manteniendo un tipo de bits codificantes
determinado.
La presente invención se refiere a un codificador
de conversación que perfecciona las decisiones sobre modos
codificadores mediante un proceso de decisión en circuito cerrado
para obtener una calidad óptima de la voz; pero manteniendo una
intensidad de bits codificantes determinada. Por lo tanto, en un
aspecto de la invención, en un codificador de voz configurado para
codificar una serie de marcos a diversas velocidades codificadores,
un método para mantener una intensidad media de bits determinada
para el codificador incluye ventajosamente un marco a una velocidad
de codificación pre-elegida; el cálculo de un
régimen medio de bits para un número predefinido de marcos
codificados; la sustracción del tipo medio de bits en servicio de
un tipo medio predefinido para obtener un valor diferencial; la
división del valor diferencial por el tipo codificador
pre-elegido para obtener un valor diferencial; la
división del valor diferencial por el tipo codificador
pre-seleccionado para obtener un cociente; si el
valor del cociente es inferior a cero, la acumulación de un primer
número predefinido de posible presencia de impulsos de valores
umbrales de rendimiento del codificador que sean inferiores al
valor umbral de rendimiento corriente para obtener un primer valor
acumulado, eligiéndose el número predefinido de presencia de
impulsos de valores umbrales del rendimiento del codificador de tal
manera que el primer valor acumulado sea mayor que el valor
absoluto del cociente; si éste es inferior a cero, sustracción del
producto de un valor de un decremento por rendimiento del
codificador de conversación por impulsos presentes y el primer
número predefinido de presencia de impulsos de valores umbrales de
rendimiento del codificador de conversación con respecto al valor
umbral de rendimiento corriente, para obtener un nuevo valor umbral
de rendimiento; si el cociente es mayor o igual a cero, la
acumulación de un segundo número predefinido de posible presencia
de impulsos de valores umbrales de rendimiento del codificador para
obtener un segundo valor acumulado, eligiéndose el número
predefinido de presencia de impulsos de los valores umbrales de
rendimiento del codificador de tal manera que el segundo valor
cumulado sea mayor que el cociente; y, si este cociente es mayor o
igual a cero, adición del producto de un valor de impulso de
incremento por presencia de valores umbrales de rendimiento del
codificador y el segundo número predefinido de presencia de valores
umbrales de rendimiento del codificador al valor umbral de
rendimiento usual, para obtener un nuevo valor umbral de
rendimiento.
En otro aspecto de la invención, un codificador
incluye medios para codificar un marco a un régimen codificado
pre-seleccionado; medios para calcular un tipo
medio de bits de servicio para un número predefinido de marcos
codificados; medios para sustraer el tipo medio de bits en servicio
de un tipo medio de bits predefinidos para obtener un valor
diferencial; medios para dividir el valor diferencial por el tipo
codificador preseleccionado para obtener un cociente; medios para
acumular una primera cantidad predefinida de posible presencia de
impulsos de valores umbrales de rendimiento del codificador de
conversación inferior a un valor umbral de rendimiento normal para
producir un primer valor acumulado, eligiéndose el número
predefinido de impulsos de valores umbrales de rendimiento del
codificador de forma tal que el primer valor acumulado sea mayor
que el valor absoluto del cociente; medios para sustraer el
producto de un decremento por rendimiento del codificador de
conversación-valor de impulsos presentes del valor
umbral y el primer número predefinido de presencia de impulsos de
valores umbrales de rendimiento del codificador de conversación,
del valor umbral de rendimiento normal, si el cociente es inferior
a cero, para obtener un nuevo valor umbral de rendimiento; medios
para acumular un segundo número predefinido de posible presencia de
impulsos de valores umbrales de rendimiento del codificador
superiores al valor umbral de rendimiento normal para producir un
segundo valor acumulado, eligiéndose el numero predefinido de
impulsos presentes de valores umbrales de rendimiento del
codificador de tal manera que el segundo valor acumulado sea mayor
que el cociente; y medios para adicionar el producto de un
incremento por el valor de los impulsos de presencia umbral de
rendimiento del codificador y el segundo número de impulsos
predefinidos de valores umbrales del rendimiento del codificador al
valor umbral de rendimiento del codificador, si el cociente es
superior o igual a cero, con el fin de obtener un nuevo valor
umbral de rendimiento.
Preferentemente, un codificador de conversación
incluye ventajosamente un módulo analítico configurado para
analizar una serie de marcos, así como un módulo cuantificador
acoplado al módulo de análisis y configurado para codificar
parámetros generados por el módulo analítico en donde el módulo de
cuantificación está además configurado para codificar un marco a un
ritmo codificador preseleccionado; para calcular un tipo de bit
medio para un número predefinido de marcos codificados; para
sustraer el funcionamiento del tipo de bit medio a partir de un
tipo de bit medio predefinido para obtener un valor diferencial; a
dividir el valor diferencial por el tipo codificador
preseleccionado para obtener un cociente; a acumular un primer
número predefinido de posible de impulsos de valores umbrales de
rendimiento del codificador de conversación que sean inferiores a
un valor umbral de rendimiento normal para producir un primer valor
acumulado, eligiéndose el número predefinido de impulsos de valores
umbrales de rendimiento del codificador de conversación de tal
manera que el primer valor acumulado sea mayor que el valor
absoluto del cociente; sustraer el producto de un decremento por
valor de impulsos de presencia umbral de rendimiento del
codificador y el primer número predefinido de presencia de impulsos
de valores umbrales de rendimiento del codificador de conversación
procedentes del valor umbral de rendimiento normal, si el valor del
cociente es inferior a cero, con el fin de obtener un nuevo valor
umbral de rendimiento; acumular un segundo número predefinido de
posible presencia de impulsos de valores umbrales de rendimiento
del codificador de conversación que sean mayores que el valor umbral
de rendimiento normal para producir un segundo valor acumulado,
eligiéndose el número predefinido de impulsos de los valores
umbrales de rendimiento del codificador de forma tal que el segundo
valor acumulado se superior al valor del cociente; y añadiendo el
producto de un incremento por valor de impulso del umbral de
rendimiento del codificador de conversación y el segundo número
predefinido de presencia de impulsos de valores umbrales del
rendimiento del codificador de conversación al valor umbral de
rendimiento normal, si el valor del cociente es mayor o igual acero,
para obtener un nuevo valor umbral de rendimiento.
La fig.1 es un diagrama en bloques de un sistema
telefónico inalámbrico; la fig.2 es un diagrama de bloques de un
canal de comunicaciones terminado en cada extremo por codificadores
de conversación; la fig.3 es un diagrama de bloques de un
codificador; la fig.4 es un diagrama de bloques de un
descodificador; la fig.5 es un gráfico de circulación representando
un proceso de decisiones de codificación de conversación; la fig.6A
es un gráfico de la amplitud de la señal de conversación en función
del tiempo y la fig.6B es un gráfico de la amplitud residual de
predicción lineal(LP) en función del tiempo; la fig.7 es un
diagrama de bloques de un codificador de conversación de periodo de
paso prototipo (PPP); la fig.8 es un gráfico de circulación
representando las fases de algoritmo desarrolladas por un
codificador de conversación tal como el codificador de la fig.7,
para aplicar una medida del rendimiento de codificación de circuito
cerrado a cada uno de los marcos codificados manteniendo al mismo
tiempo una proporción de bits media determinada para el codificador
de conversación; la fig.9 es un gráfico de circulación
representando las fases de algo ritmo desarrolladas por un
codificador de conversación para actualizar los valores de los
conjuntos de histogramas durante la codificación de un marco de
conversación.
Las disposiciones que como ejemplo, se citan a
continuación, se basan en un sistema de comunicaciones telefónicas
inalámbrico configurado para emplear una interfase CDMA "on the
air". Ello no obstante, los peritos en la materia pueden
comprender que un método de muestreo y las características de los
aparatos de la presente invención pueden basarse en diversos
sistemas de comunicaciones que utilizan una amplia gama de
tecnologías conocidas por los expertos en la materia.
Según se representa en la fig.1, un sistema
telefónico inalámbrico CDMA suele incluir una serie de unidades de
abonados móviles 10, una serie de estaciones de base 12,
controladores de estaciones de base (BSCs)14 y un centro de
conexión móvil (MSC) 16. El MSC 16 está configurado para
interconexión con una red telefónica pública (PSTN) 18. El MSC 16
está también configurado para interconectarse con los BSC 14 los
cuales se acoplan a las estaciones de base 12 a través de líneas de
retorno, las cuales pueden estar configuradas para soportar alguna
de las interfases conocidas como por ej., E1/T1, ATM, IP, PPP,
relee de fotograma, HDSL, ADSL o xDSL. Se sobreentiende que puede
haber más de dos BSCs 14 en el sistema. Cada estación de base 12
incluye ventajosamente, por lo menos, un sector (no representado)
comprendiendo cada sector una antena omnidireccional o una antena
que apunta en una dirección determinada radialmente apartada de la
estación de base 12. Como alternativa, cada sector puede comprender
dos antenas para diversas recepciones. Cada estación de base 12
puede estar ventajosamente concebida para una serie de asignaciones
de frecuencia. La intersección de un sector y una asignación de
frecuencia pueden designarse como canal CDMA. Las estaciones de
base 12 pueden conocerse también como subsistemas de transceptores
de estaciones de base (BTs) 12. Como alternativa, "estación de
base" puede utilizarse en la industria para designar
colectivamente una BSC 14 y uno o más BTS 12,los cuales pueden
denominarse también "cell sites" 12. Alternativamente,
sectores individuales de un BTS 12 determinado puede designarse
como "cell sites". Las unidades de abonados móviles 10 son
generalmente móviles o teléfonos PCS 10. El sistema está configurado
ventajosamente para ser utilizado de acuerdo con la norma
IS-95.
Durante el funcionamiento usual del sistema
telefónico celular, las estaciones de base 12 reciben serie de
señales de conexión invertida procedentes de los móviles 10. Estos
móviles 10 conducen llamadas telefónicas u otras comunicaciones.
Cada señal de conexión invertida recibida en una estación de base12
se procesa dentro de la estación de base 12 y los datos resultantes
se envían a los BSC 14,los cuales suministran recursos de llamadas y
funcionalidad reguladora de la movilidad incluida la orquestación
de "manos fuera" blanda entre estaciones de base 12. Los BSC
14 conducen también los datos recibidos al MSC 16, que suministra
servicios de ruta adicionales para la interfase con la PSTN 18.
Análogamente, la PSTN 18 se interconecta con el MSC 16 y éste se
interconecta con los BSC que, por su parte, controlan las
estaciones de base 12 para transmitir series de señales de
conexiones a juegos de unidades móviles 10.
En la fig.2 un primer codificador 100 recibe
muestras de conversación digitalizadas y las codifica para
transmitir a un medio de transmisión 102 o canal de comunicaciones
102, a un primer codificador 104. Este descodificador 104
descodifica las muestras de conversación codificadas y las
sintetiza en la señal de salida s-sint (n). Para
transmitir en dirección opuesta, un segundo codificador 106 codifica
muestras de conversación digitalizadas s(n) que son
transmitidas a un canal de comunicaciones 108. Un segundo
descodificador 110 recibe y descodifica las muestras de
conversación codificadas, generando una señal de salida sintetizada
s-sint (n).
Las muestras de conversación s(n)
representan señales de conversación que han sido digitalizadas y
cuantificadas de acuerdo con alguno de los diferentes métodos
conocidos por los expertos que incluyen por ej., modulación
codificada de impulsos (PCM),Ley u
comprimida-expandida o Ley A. Como saben los
expertos, las muestras de conversación s(n) se organizan en
fotogramas de datos de entrada en los que cada fotograma contiene un
número predeterminado de muestras de conversación digitalizadas
s(n). En un modelo de ejemplo, se utiliza un muestreo de 8
kHz, comprendiendo cada fotograma de 20 ms 160 muestras. En los
modelos que se describen más adelante, la velocidad de transmisión
de datos puede alterarse satisfactoriamente sobre la base de
fotograma a fotograma desde 13,2 kbps (completa) a 6.2
kbps(media) a 2.6 kbps(cuarto) a 1
kbps(octavo). Variar la velocidad de transmisión de datos
resulta ventajoso porque pueden emplearse bajas cantidades de bits
para fotogramas que contengan relativamente menos información sobre
conversaciones. Como saben los expertos en el tema, pueden
utilizarse otras formas de muestreo, tamaños de fotogramas y
velocidades de transmisión de datos.
El primer codificador 100 y el segundo 110
comprenden conjuntamente un primer codificador de voz o codificador
de conversación. El codificador de voz puede utilizarse en
cualquier aparato de comunicaciones para transmitir señales de voz,
incluidas, por ej. las unidades de abonados, BTS o BSC antes
descritas en relación con la fig.1. Análogamente, el segundo
codificador 106 y el primer codificador 104 comprenden conjuntamente
un segundo codificador de voz. Se sobreentiende por los expertos en
la materia que los codificadores de voz pueden utilizarse con un
procesador de señales digitales (DSP), un circuito integrado de
aplicación específica (ASIC),lógica de circuito discreta, artículos
de empresa o cualquier módulo usual de software programable y
microprocesador. El módulo de software puede residir en memoria
RAM, memoria flash, registradoras o cualquier otra forma de medio de
almacenamiento escrito de esta clase. Como alternativa, cualquier
procesador usual, controlador o máquina estatal puede sustituir al
microprocesador. Los ASIC citados como ejemplo destinados
específicamente para codificación de voz se describen en las
patentes U.S. 5,727, concedida al titular de la presente invención
y U.S.5,784,532 titulada "Vocoder asic", concedida al titular
de la presente invención.
En la fig.3, un codificador 200 que puede
utilizarse en un codificador de voz incluye un módulo de decisión
de modos 202, un módulo de estimación de pasos 204,un módulo de
análisis LP 206, un filtro de análisis LP 208, un módulo de
cuantificación LP 210 y un módulo de cuantificación de residuos
212. En el módulo de decisión de modos 202, en el módulo de
estimación de pasos 204, en el módulo de análisis LP 206 y en el
filtro de análisis LP 208, se dispone de fotogramas de voz de
entrada s(n). El módulo de decisión de modos 202 produce un
índice de modos IM y un modo M basados en la periodicidad,
energía, relación señal-ruido (SNR) o velocidad de
cruce cero, entre otras características de cada fotograma de voz de
entrada s(n). En la patente U.S. 5,911,128 concedida al
titular de la presente invención se describen varios procedimientos
de clasificación de fotogramas de voz según la periodicidad. Dichos
procedimientos están también contenidos en las Normas Provisionales
de la Industria de la Asociación de la Industria de las
Telecomunicaciones TIA/EIA IS-127 y en TIA/EIA
IS-733. Un esquema de decisión de modos citado como
ejemplo se describe también en la citada patente U.S.
6,691084.
El módulo de estimación de pasos 204 genera un
índice de pasos Ip y un valor de potencia Po sobre la base de cada
fotograma de voz de entrada s(n). El módulo de análisis LP
206 efectúa un análisis predictivo lineal de cada fotograma de voz
de entrada s(n) para generar un parámetro a alfa que se
facilita al módulo de cuantificación LP 210. Este módulo de
cuantificación 210 recibe también el modo M, desarrollando el
proceso de cuantificación de una manera dependiente del modo. El
módulo de cuantificación LP 210 produce un índice
I-LP y un parámetro LP cuantificado "a". El
filtro de análisis LP 208 recibe el parámetro LP "a"
cuantificado además del fotograma s(n) de voz de entrada. El
filtro de análisis 208 genera una señal residual R(n) que
representa el error existente entre los fotogramas de voz de entrada
s(n) y la voz reconstruida sobre la base de los parámetros
"a" lineales cuantificados pronosticados. El residuo LP
R(n), el modo M y el parámetro LP "a" se facilitan al
modo de cuantificación de residuos 212. Sobre la base de estos
valores, el módulo de cuantificación de residuos 212 produce un
índice de residuos I-R y una señal de residuos
cuantificada R(n).
En la fig.4, el descodificador 300 que puede
utilizarse en un codificador de voz incluye un módulo 302
descodificador de parámetros LP, un módulo descodificador de
residuos 304,un módulo descodificador de modos 306 y un filtro de
síntesis 308. El módulo descodificador de modos 306 recibe y
descodifica un índice de modos I-M generando un modo
M y el módulo descodificador de parámetros LP 302 recibe el modo M
y un índice LP I-LP. Este módulo 302 descodificador
de parámetros LP descodifica los valores recibidos para producir un
parámetro LP cuantificado "\hat{a}". El módulo
descodificador de residuos 304 recibe un índice de residuos
I-R, un índice de paso I-p, y un
índice de modos I-M. El módulo descodificador de
residuos 304 descodifica los valores recibidos para generar una
señal de residuos cuantificados R(n), la cual, como el
parámetro cuantificado LP \hat{a} son suministrados al filtro de
síntesis LP 308, que sintetiza una señal de voz de salida
descodificada s(n) a partir del mismo.
El funcionamiento y utilización de los diversos
módulos del codificador 200 de la fig.3 y del descodificador 300 de
la fig.4 son conocidos de los expertos y se describen en la
mencionada patente U.S. 5,414,796 y en el documento de L.B.Rabiner
& R.W Schafer "Procesado digital de señales de voz"
396-453(1978).
Según se representa en el diagrama de circulación
de la fig.5, un codificador de voz como el de uno de los modelos
efectúa una serie de operaciones para procesar las muestras para su
transmisión. En la fase 400, el codificador de voz recibe muestras
digitales de una señal de voz en fotogramas sucesivos y, una vez
recibido uno determinado, pasa a la fase 402 en la que el
codificador detecta la energía del fotograma. La energía es una
medida de la actividad de voz del fotograma y la detección de la
voz se efectúa sumando los cuadrados de las amplitudes de las
muestras de voz digitizadas y comparando la energía resultante con
un valor umbral. En uno de los modelos, el vapor umbral se adapta
sobre la base del nivel de cambio del ruido de fondo. En la citada
patente U.S. 5,414,796 se describe un detector de actividad de voz
umbral variable citado como ejemplo. Algunos sonidos sin voz pueden
ser muestras de energía extraordinariamente baja que pueden
codificarse erróneamente como ruido de fondo y, para evitar que
esto ocurra, la deformación espectral de muestras de baja energía
puede utilizarse para distinguir el sonido sin voz del ruido de
fondo, tal como se describe en la citada patente U.S.
5.414.796.
Después de detectar la energía del fotograma, el
codificador de voz pasa a la fase 404, en la que el codificador
determina si la energía del fotograma detectado es suficiente para
clasificar el mismo como poseedor de información de conversación.
Si esta energía es inferior a un nivel umbral predefinido, el
codificador de voz pasa a la fase 406 en la que codifica al
fotograma como ruido de fondo (por ej., sin voz o silencio). En uno
de los modelos, el fotograma de ruido de fondo se codifica a 1/8 de
ritmo o 1 kbps. Si en la fase 404, la energía detectada en el
fotograma es igual o superior al nivel umbral predefinido, el
fotograma se clasifica como conversación y el codificador pasa a la
fase 408.
En la fase 408, el codificador determina si el
fotograma es conversación sin voz; es decir, el codificador examina
la periodicidad del fotograma. Entre los diversos métodos conocidos
de determinación de la periodicidad figuran por ej. el empleo de
cruces cero y la utilización de funciones de auto correlación
normalizadas (NACF). En particular, el empleo de cruces cero y NACF
para detectar la periodicidad, se describe en las citadas patentes
U.S. 5,911,128 y 6,609/217,341. Además, los métodos citados
empleados para distinguir conversación con voz de conversación sin
voz, se describen en las Normas Provisionales de la Asociación de
la Industria de las Telecomunicaciones TIA/EIA
IS-127 y TIA/EIA IS-733. Si se
comprueba que el fotograma es una conversación sin voz en la fase
408, el codificador pasa a la fase 410 en la que el codificador
codifica el fotograma como conversación sin voz. En uno de los
modelos, los fotogramas de conversación sin voz se codifican en la
cuarta cadencia o 2.6 kbps. Si en la fase 408 no se establece que
el fotograma es conversación sin voz, el codificador pasa a la fase
412.
En la fase 412, el codificador de voz determina
si el fotograma es conversación transitoria, utilizando los métodos
de detección de la periodicidad ya conocidos, tal como se describe
en la citada patente U.S. 5,911,128. Si se establece que el
fotograma es conversación transitoria, el codificador pasa a la fase
414 en la que el fotograma se codifica como conversación
transitoria (es decir, transición de conversación sin voz a
conversación con voz). En uno de los modelos, el fotograma de
conversación transitoria se codifica de acuerdo con un método
codificador interpolados de multi-impulsos tal como
se describe en la patente U.S. 6,260,017 titulada "Codificación
interpoladora multi-impulsos de fotogramas de
conversación transitoria", concedida al titular de la presente
invención. En otro modelo, el fotograma de conversación transitoria
se codifica en ritmo total o sea, a 13,2 kbps.
Si en la fase 412, el codificador de voz
establece que el fotograma no es conversación transitoria, el
codificador pasa a la fase 46, en la que codifica al fotograma como
conversación con voz. En uno de los modelos, los fotogramas de
conversación con voz pueden codificarse a medio ritmo o sea con 6.2
kbps. También es posible codificar los fotogramas de conversación
con voz a pleno ritmo o 13,2 kbps (o a pleno ritmo 8 kbps en un
codificador CELP de 8 k).Los expertos en la materia, sin embargo,
consideran que al codificar fotogramas a medio ritmo, el
codificador ahorra una valiosa anchura de banda al explotar la
naturaleza de estado permanente de los fotogramas con voz. Además,
cualquiera que sea la cadencia utilizada para codificar la
conversación con voz, ésta se codifica ventajosamente utilizando
información de otros fotogramas y por ello, se dice que se codifica
predictivamente.
Los expertos en la materia consideran que la
señal de voz o el residuo LP correspondiente pueden codificarse
siguiendo las etapas de la fig.5. Las características de forma de
onda del ruido, sin voz, transición y conversación con voz, pueden
considerarse en función del tiempo en el gráfico de la fig.6A. Las
característica de forma de onda del ruido, carencia de voz,
transición y residuo LP con voz pueden considerarse en función del
tiempo en el gráfico de la fig.6B.
En uno de los modelos, una codificadora de voz
500 de periodo de paso prototipo (PPP)incluye un filtro de
inversión 502, un extractor de prototipos 504, un cuantificador de
prototipos 506, un no cuantificador de prototipos 508, un módulo de
síntesis/interpolación 510 y un módulo de síntesis LPC 512, tal como
se representa en la fig.7. El codificador de voz 500 puede
funcionar satisfactoriamente como parte de un DSP y puede
encontrarse por ej. en una unidad de abonado o en una estación de
base en un PCS o en un sistema de teléfono celular o en una unidad
de abonado o en el acceso a un sistema de satélite.
En el codificador de voz 500, se ha previsto una
señal de voz digitizada s(n) en la que n es el número del
fotograma, para el filtro de LP de inversión 502. En un modelo
especial la longitud del fotograma es de veinte ms. La función de
transferencia del filtro de inversión A(z) se calcula de
acuerdo con la siguiente ecuación:
A(z)
l-a,z-1-
a2z-l-...-apz-p,
en donde los coeficientes l son
derivaciones filtrantes con valores predefinidos elegidos de
acuerdo con métodos conocidos, tal como se describe en las
mencionadas patentes U.S. 5.414,796 y 6,456.964. El número indica
el número de muestras previas que utiliza el filtro de inversión
LP 502 para los pronósticos. En un caso determinado, se considera
que p es
diez.
El filtro de inversión 502 suministra una señal
residual r(n) de LP al extractor de prototipos 504, el cual
extrae un prototipo del fotograma de corriente. El prototipo es una
parte del fotograma que se interpola linealmente por el módulo de
interpolación/síntesis 510 con prototipos de fotogramas anteriores
que se situaron análogamente dentro del fotograma con el fin de
reconstruir la señal residual LP en el descodificador.
El extractor de prototipos 504 suministra el
prototipo al cuantificador 506 el cual cuantifica el prototipo por
alguno de los procedimiento de cuantificación que conocen los
expertos en la materia. Los valores cuantificados, que pueden
obtenerse de una tabla explicativa (no reproducida), se acumulan en
un paquete que contiene parámetros de potencia y codificados, para
transmitir a través del canal. El paquete se envía a un transmisor
(no mostrado) y se transmite a través del mismo a un
receptor(tampoco mostrado). El filtro LP de inversión 502,
el extractor de prototipos 504 y el cuantificador de prototipos 506
son informados de que se han efectuado el análisis PPP en el
fotograma
normal.
normal.
El receptor recibe el paquete y le envía al
no-cuantificador de prototipos 508, el cual puede
no cuantificar el paquete de acuerdo con diverso procedimientos
conocidos. El no-cuantificador de prototipos 508
suministra el prototipo no cuantificado al módulo de
interpolación/síntesis 510 el cual interpola el prototipo con
prototipos de fotogramas anteriores análogamente ubicados en el
fotograma con el fin de reconstruir la señal residual LP para el
fotograma actual. La interpolación y síntesis del fotograma se
efectúan ventajosamente por medio de métodos conocidos que se
describen en las patentes U.S. 5.884,253 y en la antes citada U.S.
6,456,964.
El módulo de interpolación/síntesis 510
suministra la señal residual LP reconstruida r^(n) al módulo de
síntesis LPC 512,el cual recibe también los valores (LSP) de par
espectral procedentes del paquete transmitido que se utilizan para
efectuar el filtrado LPC sobre la señal residual LP reconstruida
^r(n) para crear la señal de voz reconstruida s(n)
para el fotograma normal. En un modelo alternativo, la síntesis LPC
de la señal de voz s(n) puede efectuarse para el prototipo
antes de efectuar la interpolación/síntesis del fotograma normal.
El descuantificador de prototipos 508,el módulo de
interpolación/síntesis 510 y el módulo de síntesis LPC 512 se ve
que han efectuado la síntesis PPP del fotograma normal.
En uno de los modelos de codificador de voz tal
como el codificador de voz PPP 500 de la fig.7, se aplica una
medida de rendimiento de codificación de circuito cerrado a cada
uno de los fotogramas codificados manteniendo al mismo tiempo un
tipo de bit medio determinado para el codificador de voz, el cual
puede ser un codificador de voz PPP o cualquier otro tipo de
codificador de baja proporción de bits que pueda mejorar la calidad
de la voz incrementando la velocidad de codificación sobre una base
"por fotograma".
Después de la clasificación en circuito abierto
de un fotograma de voz (un fotograma de uno de los modelos
comprende un segmento de conversación de veinte ms), el fotograma
de voz se codifica utilizando una intensidad Rp preseleccionada.
Después, se efectúa una prueba de rendimiento de circuito cerrado.
Una medida del rendimiento del codificador se obtiene después de la
codificación completa o parcial utilizando la intensidad
preseleccionada Rp. Unas medidas de rendimiento tomadas como
ejemplo, bien conocidas por los expertos en la materia incluyen la
relación señal-ruido (SNR),la predicción SNR en
esquemas codificantes tales como el codificador de voz PPP, la
cuantificación del error de predicción SNR, la cuantificación de
fase SNR, la cuantificación de amplitud SNR, la NR perceptual y una
correlación cruzada normalizada entre los fotogramas en curso y
pasados como medida de estacionaridad). Si la medida de rendimiento
PNM cae por debajo de un valor umbral PNM TH, la intensidad de la
codificación pasa a un valor con el que se espera que el esquema
codificante proporcione mejor calidad. Normalmente, esto significa
que el cambio de intensidad codificante es un aumento. Un esquema
de clasificación de circuito cerrado tomado como ejemplo para
mantener la calidad de un codificador de voz de intensidad
variable, se describe en la patente
N0-A-0030075 titulada "Codificador
de voz predictivo multimodo de intensidad variable y de circuito
cerrado", concedido al titular de la presente invención.
La medida de rendimiento PNM se emplea también
ventajosamente par actualizar un histograma de umbrales alrededor
del valor actual del umbral, PNM-TH. El histograma
se utiliza para efectuar un control general de la cadencia media de
bits para el codificador de voz de la siguiente manera: El
codificador de voz calcula la cadencia media de bits sobre un
window de fotogramas W, reajusta a cero la cadencia media de bits
después de los fotogramas W y recalcula la cadencia media de
servicio de bits para los fotogramas W siguientes. El final del
periodo de fotogramas W, la cadencia media de bits se sustrae de la
cadencia media de bits determinada, AVR y la diferencia se divide
por el valor original codificante preseleccionado Rp.
Si el cociente NR de la división AVR/Rp es
positivo, se acumulan los valores de los histogramas de los
primeros depósitos BR o anchuras de barras de histogramas, a la
derecha de PNM-TH (es decir, los primeros depósitos
BR asociados a un ritmo codificante más elevado que el umbral) El
valor de BR se elige ventajosamente de tal manera que el valor
acumulado sea superior a NR. Después, se incrementa el umbral
PNM-TH en una cantidad igual al producto
DTH-HI*BR, en donde DTH-HI es la
cantidad de incremento por depósito. Debe tenerse en cuenta que
DTH-HI se inicializa primero a un valor idóneo. Uno
de estos valores adecuados es
(MAX-TH-PNM-TH)/HB
(los parámetros se definen más adelante).
Si el cociente NR es negativo, se acumulan los
valores de los histogramas de los primeros depósitos BL a la
izquierda de PNM-TH. El valor de BL se elige
ventajosamente de forma tal que el valor acumulado sea superior a
-NR. Después, se reduce el umbral PNM-TH en una
cantidad igual al producto DTH-LO*BL, en donde
DTH-LO es el volumen de decremento por depósito.
Debe tenerse en cuenta que DTH- LO se inicializa primero a un valor
adecuado. Uno de estos valores adecuados es
(PNM-TH-MIN-TH)/HB
(los parámetros se definen a continuación). El umbral de
rendimiento PNM-TH- puede limitarse a los valores
máximo y mínimo MAX-TH y MIN-TH,
respectivamente, si se conocen tales valores máximo y mínimo o
estimaciones de los mismos. Ventajosamente, el decremento por
depósito DTH-LO y el incremento por depósito
DTH-HI pueden actualizarse, si se desea a las
cantidades de los cocientes
(PNM-TH-MIN-TH)/HB y
(MAX-TH-PNM-TH/HB,
respectivamente, en donde HB es igual a la mitad del número de
depósitos del histograma. Cuando el codificador de voz ha terminado
de mantener el ritmo medio de bits cerca del ritmo medio
determinado, AVR para window de marco W, se reajustan
ventajosamente a cero los valores de los histogramas para todos los
depósitos 2HB del histograma.
En uno de los modelos, la actualización de los
valores de los histogramas se efectúa durante la codificación
utilizando la cadencia preseleccionada Rp. La operación se efectúa
de la siguiente manera; en primer lugar, se actualizan los
depósitos, ajustando cada uno de los depósitos HB de la izquierda
del umbral PNM-TH igual al valor de la diferencia
PNM-TH-DTH-LO*i
para el depósito ith de la izquierda del umbral
PNM-TH (el umbral PNM-TH está
situado en el centro del histograma). Cada uno de los depósitos HB
de la derecha del umbral PNM-TH se ajusta igual al
valor de la suma PNM-TH+DTH-HI*i
para el depósito ith de la derecha del umbral
PNM-TH y en segundo lugar, el valor del histograma
del depósito que contiene PNM, el valor de medida del rendimiento
normal, se incrementa en uno. En uno de los modelos, un
codificador de voz tal como el codificador PPP de la fig.7,
desarrolla las fases de algoritmo representadas en el gráfico de
circulación de la fig.8 para aplicar una medida del rendimiento
codificador de circuito cerrado PNM a cada fotograma codificado,
manteniendo al mismo tiempo una cadencia media de bits determinada
para el codificador de voz. Este codificador de voz puede ser un
codificador PPP o cualquier otro tipo de codificador de voz de baja
cadencia de bits que puede mejorar la calidad de voz incrementando
el ritmo de codificación sobre una base "por fotograma".
El fotograma de voz normal se codifica a una
cadencia Rp basada en la clasificación de circuito abierto de los
contenidos del fotograma. Entonces, se aplica al fotograma un
ensayo de circuito cerrado de tal manera que si una medida de
rendimiento de codificación de voz, PNM, queda por debajo de un
valor umbral de rendimiento, PNM-TH, se incrementa
la cadencia de codificación. Después, se ajusta el umbral
PNM-TH de acuerdo con las fases del método
siguiente para mantener el ritmo medio de bits en funcionamiento del
codificador de voz a una cadencia igual o próxima a la de los bits
medios del objetivo, AVR.
En la fase 600, el codificador de voz calcula el
ritmo medio de bits en servicio para un "window" de W
fotogramas en longitud. Entonces, el codificador de voz pasa a la
fase 602 en la que el codificador de voz calcula el cociente NR=
(AVR=cadencia media de bits en servicio)/Rp. Luego, el codificador
de voz pasa a la fase 604 en la que el codificador determina si NR
es superior o igual a cero. Si NR es superior o igual que cero, el
codificador pasa a la fase 606. Si, por el contrario, NR no es
superior o igual a cero, el codificador de voz pasa a la fase
608.
En la fase 606, el codificador de voz acumula el
primer valor del depósito de histogramas a la derecha de
PNM-TH (que se encuentra en el centro del
histograma), eligiendo BR de forma tal que el valor acumulado sea
mayor que NR. A continuación, el codificador de voz pasa a la fase
610 en la que ajusta PNM-TH igual a la suma de
PNM-TH y DTH-HI*BR, en donde DTH- HI
es igual a la cantidad de incremento por depósito de histogramas.
Después, el codificador de voz pasa a la fase 612.
En la fase 608, el codificador de voz acumula el
primer BL de valores del depósito de histogramas a la izquierda de
PNM-TH, eligiendo BL de tal manera que el valor
acumulado sea mayor que -NR-. Entonces, el codificador de voz pasa a
la fase 614 en la que ajusta PNM-TH igual a la
diferencia existente entre PNM-TH y
DTH-LO*BR, en donde DTH-LO es igual
al volumen de decremento por depósito de histogramas. Después, el
codificador de voz pasa a la fase 612.
Las fases de restricción de
PNM-TH a valores máximos y mínimos,
MAX-TH y MIN-TH respectivamente,
pueden, si se desea, desarrollarse antes de la fase 612. Además,
las fases de actualización del decremento por depósito
DTH-LO y del incremento por depósito
DTH-HI a las cantidades del cociente
(PNM-TH-MIN-TH)/HB
y
(MAX-TH-PNM-TH)/HB,
respectivamente, en las que HB es igual a la mitad del número de
bits del histograma, pueden desarrollarse, si se desea, antes de la
fase 612. También debe tenerse en cuenta que DTH-HI
y DTH-LO, deben inicializarse primero a valores
idóneos tales como
(MAX-TH-PNM-TH)/HB y
(PNM-TH-MIN-TH)/HB,
respectivamente.
En la fase 612, el codificador de voz reajusta
los valores de los histogramas de todos los depósitos 2HB a cero.
Después, el codificador de voz vuelve a la fase 600 para calcular
la cadencia media de bits en funcionamiento para los histogramas
próximos W.
En uno de los modelos el codificador de voz
desarrolla las fases de algoritmo reproducidas en el gráfico de
corriente de la fig.9 para actualizar los valores de los depósitos
de histogramas durante la codificación del fotograma de voz al
ritmo codificador Rp, para cada uno de los fotogramas W. En la fase
700, el codificador de voz justa todos los depósitos de histogramas
de la izquierda de PNM-TH iguales al valor de la
diferencia
PNM-TH-DTH-LO*i para
el depósito ith de la izquierda del umbral PNM-TH.
Después, el codificador de voz pasa a la fase 702, en la que el
codificador sitúa todos los depósitos de histogramas de la derecha
de PNM-TH en un valor igual a la suma de
PNM-TH+DTH-NI* para el depósito ith
de la derecha del umbral PNM-TH. Entonces, el
codificador de voz pasa a la fase 704 en la que el codificador
incrementa en uno el valor del depósito de histogramas que contiene
PNM, el valor de medida del rendimiento normal.
Así, se ha descrito un nuevo procedimiento y
aparato para mantener una cadencia de bits determinada en un
codificador de voz. Los expertos en la materia entienden que los
diversos bloques ilustrativos y fases de algoritmos descritas en
relación con los modelos aquí descritos pueden desarrollarse o
efectuarse con un procesador de señales digitales (DSP), un
circuito integrado de aplicación específica (ASIC),lógica discreta
de circuitos o transistores, componentes discretos de hardware
tales como registradores y FIFO, un procesador que desarrolla una
serie de instrucciones de "firmware" o cualquier módulo usual
programable de software y un procesador. El procesador puede ver
ventajosamente un microprocesador; pero como alternativa puede ser
un procesador usual, un controlador, un microcontrolador o una
máquina fija. El módulo de software puede encontrarse en una memoria
RAM, memoria de flash, registradores o cualquier otra forma de
medios de almacenamiento por escrito conocidos por el personal
experto. Este personal considera también que los datos,
instrucciones, comandos, información, señales, bits, símbolos y
chips a los que pueda haberse hecho referencia a través de la
descripción anterior están satisfactoriamente representados por
tensiones, corrientes, indas electromagnéticas, campos magnéticos o
partículas, campos ópticos o partículas o cualquier combinación de
los mismos.
Así pues, se han mostrado y descrito los modelos
preferidos de la presente invención; pero es evidente para los
expertos en la materia, que pueden introducirse numerosas
alteraciones en los modelos aquí dados a conocer sin apartarse del
alcance de la invención. Por lo tanto, la presente invención no
está limitada, sino en lo que está de acuerdo con las
reivindicaciones que siguen.
Claims (24)
1. Procedimiento para mantener una cadencia media
de bits determinada para un codificador de voz (100,106,200,
500), codificador (100,106,200,500) que está configurado para codificar una serie de fotogramas de diversas cadencias codificadoras, procedimiento que comprende:
500), codificador (100,106,200,500) que está configurado para codificar una serie de fotogramas de diversas cadencias codificadoras, procedimiento que comprende:
la codificación (400 a 416) de un fotograma a un
ritmo de codificación preseleccionado;
el cálculo (600) de una cadencia media de bits en
servicio para un número predefinido de fotogramas codificados;
la sustracción (602) de la cadencia media de bits
en servicio de una cadencia media de bits determinada para obtener
un valor diferencial;
la división (602) del valor diferencial por el
tipo de codificación preseleccionada para obtener un valor
cociente;
si (604) el valor cociente es inferior a cero, la
acumulación (608) de una primera cantidad predefinida de posibles
impulsos presentes de valores umbrales de rendimiento del
codificador de voz que sean menores que un valor umbral de
rendimiento normal para obtener un primer valor acumulado,
eligiéndose el número predefinido de impulsos presentes de valores
umbrales de rendimiento del codificador de voz de tal manera que el
primer valor acumulado sea mayor que el valor absoluto del
cociente;
si (604) el valor del cociente es inferior a
cero, la sustracción (614) del producto de un decremento por valor
del impulso de presencia umbral de rendimiento del codificador de
voz y el primer número predefinido de impulsos presentes de valores
umbrales de rendimiento del codificador con respecto al valor
umbral de rendimiento normal para obtener un nuevo valor umbral de
rendimiento;
si (604) el valor del cociente es mayor o igual a
cero, la acumulación (606) de una segunda cantidad predefinida de
posible presencia de valores umbrales de rendimiento del
codificador de voz que sean mayores que el valor umbral de
rendimiento normal, para producir un segundo valor acumulado,
eligiéndose el número predefinido de presencia de valores umbrales
de rendimiento del codificador de voz de tal manera que el segundo
valor acumulado sea mayor que el valor del cociente; y
si (604) el valor del cociente es mayor o igual
que cero, la adición (610) del producto de un incremento por valor
de impulsos de presencia umbral de rendimiento del codificador y
el segundo número predefinido de producción de valores umbrales de
rendimiento del codificador de voz al valor umbral de rendimiento
normal para obtener un nuevo valor umbral de rendimiento.
2. Procedimiento de la reivindicación 1 que
comprende, además, la comparación del rendimiento del codificador
de voz con una medida de rendimiento predefinida, así como el
ajuste de la cadencia codificadora preseleccionada para el
fotograma si el rendimiento del codificador de voz para el fotograma
cae por debajo del nuevo valor umbral de rendimiento.
3. El procedimiento de la reivindicación 2 en el
que el ajuste supone un incremento del ritmo de codificación del
fotograma.
4. El procedimiento de la reivindicación 2 que
comprende, además, durante la codificación (400 a 416):
para cada presencia de un valor umbral de
rendimiento del codificador de voz inferior al valor umbral de
rendimiento normal, la sustracción (700) del producto del
decremento por valor del impulso de presencia del umbral de
rendimiento del codificador de voz y, además, el número presente de
impulsos de valores umbrales de rendimiento del codificador de voz
entre el impulso de presencia de un valor umbral de rendimiento del
codificador de voz y el valor umbral de rendimiento normal del
valor umbral de rendimiento normal, así como el ajuste (700) de la
presencia de un impulso de un valor umbral de rendimiento del
codificador de voz igual al resultado de la sustracción;
para cada existencia de impulso de un valor
umbral de rendimiento del codificador de voz que sea mayor que el
valor umbral de rendimiento normal, la adición (702) del producto
por incremento del valor del impulso de presencia umbral de
rendimiento del codificador de voz y además la cantidad de impulsos
de presencia de valores umbrales de rendimiento del codificador de
voz entre el impulso de producción de un valor umbral de
rendimiento del codificador de voz y el valor umbral de rendimiento
normal, y el ajuste (702) de la presencia de impulso de un valor
umbral de rendimiento del codificador de voz igual al resultado de
la adición; y
el incremento (704) en uno del impulso de
producción de un valor umbral del rendimiento del codificador de
voz que corresponda al rendimiento del codificador de voz
normal
5. El procedimiento de la reivindicación 1, que
comprende, además, la obtención de la cadencia preseleccionada de
una clasificación de circuito abierto del fotograma.
6. El procedimiento de la reivindicación 1, que
comprende, además, la limitación a un valor máximo del umbral de
rendimiento normal.
7. El procedimiento de la reivindicación 1 que
comprende, además, la limitación a un valor mínimo del umbral de
rendimiento normal.
8. El procedimiento de la reivindicación 1, que
comprende, además, la asignación de valores iniciales al
decremento por valor de impulsos de producción del umbral de
rendimiento del codificador de voz, así como al incremento por
valor de impulsos de producción del umbral de rendimiento del
codificador de voz.
9. El procedimiento de la reivindicación 1, que
comprende, además, el reajuste de todos los impulsos de producción
de valores umbrales de rendimiento del codificador de voz a cero
después de realizar cualquiera de las operaciones de adición o
sustracción.
10. El procedimiento de la reivindicación 1, en
el que el fotograma es un fotograma de audio.
11. El procedimiento de la reivindicación 1, en
el que el fotograma es un fotograma residual predictivo lineal.
12. El procedimiento de la reivindicación 1, en
el que el codificador de voz (100,106,200,500) se encuentra en una
unidad de abonado (10) de un sistema de comunicaciones
inalámbrico.
13. Un codificador de voz (100,106,200,500), que
comprende:
medios para codificar (400 a 416) un fotograma a
un ritmo codificador preseleccionado; medios para calcular (600) un
ritmo medio de servicio de bits para un número predefinido de
fotogramas codificados; medios para sustraer (602) la cadencia
media de bits en servicio de un ritmo determinado predefinido para
obtener un valor diferencial; medios para dividir (602) el valor
diferencial por el tipo de codificación preseleccionado para obtener
un valor cociente; medios para acumular (608), si (604) el valor
del cociente es inferior a cero, un primer número predefinido de
posibles impulsos de producción de valores umbrales de rendimiento
del codificador de voz que sean inferiores a un valor umbral de
rendimiento normal de los valores umbrales de rendimiento del
codificador de voz de tal manera que el primer valor acumulado sea
mayor que el valor absoluto del cociente; medios para sustraer (614)
el producto de un decremento por valor del impulso de producción
umbral de rendimiento del codificador de voz, así como el primer
número predefinido de producción de impulsos de valores umbrales de
rendimiento del codificador de voz, del valor umbral de rendimiento
normal, si (604) el valor del cociente es inferior a cero, con el
fin de obtener un nuevo valor umbral de rendimiento; medios para
acumular (606), si (604) el valor del cociente es mayor o igual a
cero, un segunda cantidad predefinida de posibles impulsos de
producción de valores umbrales de rendimiento del codificador de voz
mayores que el valor umbral de rendimiento normal para producir un
segundo valor acumulado, eligiéndose el número predefinido de
producción de impulsos de los valores umbrales de rendimiento del
codificador de voz de forma tal que el segundo valor acumulado sea
mayor que el valor del cociente: y medios para agregar (610) el
producto de un incremento por valor de impulsos de producción del
umbral de rendimiento del codificador de voz y la segunda cantidad
predefinida de impulsos de producción de valores umbrales de
rendimiento del codificador de voz, al valor umbral de rendimiento
normal, si (604), el valor del cociente es mayor o igual a cero,
con el fin de obtener un nuevo valor umbral de rendimiento.
14. El codificador de voz (100,106,200,500) de la
reivindicación 13, que comprende, además, medios para comparar el
rendimiento del codificador de voz con una medida y unos medios de
rendimiento predefinidos para ajustar el ritmo de codificación
preseleccionado para el fotograma si el rendimiento del codificador
de voz para el fotograma cae por debajo del nuevo valor umbral de
rendimiento.
15. El codificador de voz (100,106,200,500) de la
reivindicación 14, en el que los medios de ajuste comprenden medios
para incrementar el ritmo de codificación del fotograma.
16. El codificador de voz (100,106,200.500) de la
reivindicación 14 comprende, además: medios para
sustraer(700) durante la codificación (400 a 416) del
fotograma, para cada generación de impulsos de un valor umbral de
rendimiento del codificador de voz que es inferior al valor umbral
de rendimiento normal, el producto del decremento por valor de
impulso de producción del umbral de rendimiento del codificador de
voz y además, el número de impulsos producidos de valores umbrales
del rendimiento del codificador de voz entre el impulso producido de
un valor umbral de rendimiento del codificador de voz y el valor
umbral de rendimiento normal, para ajustar la aparición de impulsos
de un valor umbral de rendimiento del codificador de voz igual al
resultado de la sustracción; medios para añadir (702), durante la
codificación 400 a 416) del fotograma, cada vez que se produzca un
impulso de un valor umbral de rendimiento del codificador de voz
que sea mayor que el valor umbral de rendimiento normal, el
producto del incremento por valor de impulso de presencia umbral de
rendimiento del codificador de voz y, además, el número de impulsos
producidos de valores umbrales de rendimiento del codificador de voz
entre la generación de impulsos de valores umbrales de rendimiento
del codificador de voz y el valor umbral de rendimiento normal con
respecto al valor umbral de rendimiento, y ajuste de la generación
de impulsos de un valor umbral de rendimiento del codificador de
voz igual al resultado de la adición; y medios para incrementar
(704) en uno, durante la codificación (400 a 416) del fotograma, el
impulsos generador de un valor umbral de rendimiento del
codificador de voz que corresponde al rendimiento del codificador
de voz normal.
17. El codificador de voz (100,106,200,500) de la
reivindicación 13, comprende, además, medios para conseguir el
ritmo codificador preseleccionado a partir de una clasificación de
circuito abierto del fotograma.
18. El codificador de voz (100,106,200,500) de la
reivindicación 13, comprende, además, medios para limitar el umbral
de rendimiento normal a un valor máximo.
19. El codificador de voz (100,106,200,500) de la
reivindicación 13, comprende, además, medios para limitar el umbral
de rendimiento normal a un valor mínimo.
20. El codificador de voz (100,106,200,500) de la
reivindicación 13, comprende, además, medios para asignar valores
iniciales al decremento por valor de impulsos de generación del
umbral de rendimiento del codificador de voz y al incremento por
valor de impulsos umbrales de generación del rendimiento del
codificador de voz.
21. El codificador de voz (100,106,200,500) de la
reivindicación 13, comprende, además, medios para reajustar (612) a
cero toda la generación de impulsos de valores umbrales de
rendimiento del codificador de voz, una vez se ha ajustado el valor
umbral de rendimiento normal.
22. El codificador de voz (100,106,200,500) de la
reivindicación 13 en el que el fotograma es un fotograma con
voz.
23. El codificador de voz (100,106,200,500) de la
reivindicación 13, en el que el fotograma es un fotograma residual
predictivo lineal.
24. El codificador de voz de la reivindicación
13, en el que, el codificador de voz (100,106,200,500) tiene
asiento en un unidad de abonado (10) de un sistema de
comunicaciones inalámbrico.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US356493 | 1999-07-19 | ||
US09/356,493 US6330532B1 (en) | 1999-07-19 | 1999-07-19 | Method and apparatus for maintaining a target bit rate in a speech coder |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2240121T3 true ES2240121T3 (es) | 2005-10-16 |
Family
ID=23401670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00947533T Expired - Lifetime ES2240121T3 (es) | 1999-07-19 | 2000-07-19 | Metodo y aparato para mantener un volumen determinado de bits en un audiocodificador. |
Country Status (12)
Country | Link |
---|---|
US (1) | US6330532B1 (es) |
EP (1) | EP1214705B1 (es) |
JP (1) | JP4782332B2 (es) |
KR (1) | KR100754591B1 (es) |
CN (1) | CN1161749C (es) |
AT (1) | ATE288122T1 (es) |
AU (1) | AU6112000A (es) |
BR (1) | BR0012538A (es) |
DE (1) | DE60017763T2 (es) |
ES (1) | ES2240121T3 (es) |
HK (1) | HK1045397B (es) |
WO (1) | WO2001006490A1 (es) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
US6493664B1 (en) * | 1999-04-05 | 2002-12-10 | Hughes Electronics Corporation | Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system |
US6954727B1 (en) * | 1999-05-28 | 2005-10-11 | Koninklijke Philips Electronics N.V. | Reducing artifact generation in a vocoder |
US6658112B1 (en) * | 1999-08-06 | 2003-12-02 | General Dynamics Decision Systems, Inc. | Voice decoder and method for detecting channel errors using spectral energy evolution |
JP2004515150A (ja) * | 2000-11-30 | 2004-05-20 | アレイコム・インコーポレーテッド | 無線通信システムのトレーニング・シーケンス |
US8090577B2 (en) * | 2002-08-08 | 2012-01-03 | Qualcomm Incorported | Bandwidth-adaptive quantization |
GB0321093D0 (en) * | 2003-09-09 | 2003-10-08 | Nokia Corp | Multi-rate coding |
US7483701B2 (en) * | 2005-02-11 | 2009-01-27 | Cisco Technology, Inc. | System and method for handling media in a seamless handoff environment |
US7634413B1 (en) * | 2005-02-25 | 2009-12-15 | Apple Inc. | Bitrate constrained variable bitrate audio encoding |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
US8725499B2 (en) * | 2006-07-31 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, and apparatus for signal change detection |
US8532984B2 (en) | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
US8780717B2 (en) * | 2006-09-21 | 2014-07-15 | General Instrument Corporation | Video quality of service management and constrained fidelity constant bit rate video encoding systems and method |
DE602006015328D1 (de) * | 2006-11-03 | 2010-08-19 | Psytechnics Ltd | Abtastfehlerkompensation |
US8279889B2 (en) * | 2007-01-04 | 2012-10-02 | Qualcomm Incorporated | Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US8560307B2 (en) * | 2008-01-28 | 2013-10-15 | Qualcomm Incorporated | Systems, methods, and apparatus for context suppression using receivers |
FR2944640A1 (fr) * | 2009-04-17 | 2010-10-22 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. |
KR20110001130A (ko) * | 2009-06-29 | 2011-01-06 | 삼성전자주식회사 | 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법 |
US9263054B2 (en) * | 2013-02-21 | 2016-02-16 | Qualcomm Incorporated | Systems and methods for controlling an average encoding rate for speech signal encoding |
US9437205B2 (en) * | 2013-05-10 | 2016-09-06 | Tencent Technology (Shenzhen) Company Limited | Method, application, and device for audio signal transmission |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4901307A (en) | 1986-10-17 | 1990-02-13 | Qualcomm, Inc. | Spread spectrum multiple access communication system using satellite or terrestrial repeaters |
EP0725384A3 (en) * | 1988-05-26 | 1996-12-27 | Pacific Comm Sciences Inc | Adaptive transform coding |
US5103459B1 (en) | 1990-06-25 | 1999-07-06 | Qualcomm Inc | System and method for generating signal waveforms in a cdma cellular telephone system |
BR9206143A (pt) | 1991-06-11 | 1995-01-03 | Qualcomm Inc | Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados |
US5884253A (en) | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
US5761636A (en) * | 1994-03-09 | 1998-06-02 | Motorola, Inc. | Bit allocation method for improved audio quality perception using psychoacoustic parameters |
TW271524B (es) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5668925A (en) * | 1995-06-01 | 1997-09-16 | Martin Marietta Corporation | Low data rate speech encoder with mixed excitation |
JPH10247098A (ja) * | 1997-03-04 | 1998-09-14 | Mitsubishi Electric Corp | 可変レート音声符号化方法、可変レート音声復号化方法 |
DE69834093T2 (de) * | 1997-04-07 | 2006-12-14 | Koninklijke Philips Electronics N.V. | Sprachübertragungssystem mit veränderlicher bitrate |
AU1524300A (en) * | 1998-11-13 | 2000-06-05 | Qualcomm Incorporated | Closed-loop variable-rate multimode predictive speech coder |
-
1999
- 1999-07-19 US US09/356,493 patent/US6330532B1/en not_active Expired - Lifetime
-
2000
- 2000-07-19 BR BR0012538-5A patent/BR0012538A/pt not_active IP Right Cessation
- 2000-07-19 AT AT00947533T patent/ATE288122T1/de not_active IP Right Cessation
- 2000-07-19 EP EP00947533A patent/EP1214705B1/en not_active Expired - Lifetime
- 2000-07-19 ES ES00947533T patent/ES2240121T3/es not_active Expired - Lifetime
- 2000-07-19 KR KR1020027000693A patent/KR100754591B1/ko active IP Right Grant
- 2000-07-19 AU AU61120/00A patent/AU6112000A/en not_active Abandoned
- 2000-07-19 CN CNB008105979A patent/CN1161749C/zh not_active Expired - Fee Related
- 2000-07-19 JP JP2001511665A patent/JP4782332B2/ja not_active Expired - Fee Related
- 2000-07-19 WO PCT/US2000/019670 patent/WO2001006490A1/en active IP Right Grant
- 2000-07-19 DE DE60017763T patent/DE60017763T2/de not_active Expired - Lifetime
-
2002
- 2002-09-20 HK HK02106875.5A patent/HK1045397B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
CN1161749C (zh) | 2004-08-11 |
AU6112000A (en) | 2001-02-05 |
US6330532B1 (en) | 2001-12-11 |
BR0012538A (pt) | 2002-07-02 |
HK1045397B (zh) | 2005-04-22 |
JP4782332B2 (ja) | 2011-09-28 |
EP1214705B1 (en) | 2005-01-26 |
ATE288122T1 (de) | 2005-02-15 |
CN1361912A (zh) | 2002-07-31 |
JP2003505723A (ja) | 2003-02-12 |
WO2001006490A1 (en) | 2001-01-25 |
EP1214705A1 (en) | 2002-06-19 |
DE60017763D1 (de) | 2005-03-03 |
KR20020013963A (ko) | 2002-02-21 |
KR100754591B1 (ko) | 2007-09-05 |
DE60017763T2 (de) | 2006-01-12 |
HK1045397A1 (en) | 2002-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2240121T3 (es) | Metodo y aparato para mantener un volumen determinado de bits en un audiocodificador. | |
KR100805983B1 (ko) | 가변율 음성 코더에서 프레임 소거를 보상하는 방법 | |
ES2318820T3 (es) | Procedimiento y aparatos de cuantificacion predictiva del habla de voces. | |
JP4861271B2 (ja) | 位相スペクトル情報をサブサンプリングする方法および装置 | |
ES2264420T3 (es) | Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz. | |
JP4874464B2 (ja) | 遷移音声フレームのマルチパルス補間的符号化 | |
ES2276690T3 (es) | Particion de espectro de frecuencia de una forma de onda prototipo. | |
US8279889B2 (en) | Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate |