ES2299175T3 - Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. - Google Patents
Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. Download PDFInfo
- Publication number
- ES2299175T3 ES2299175T3 ES95928266T ES95928266T ES2299175T3 ES 2299175 T3 ES2299175 T3 ES 2299175T3 ES 95928266 T ES95928266 T ES 95928266T ES 95928266 T ES95928266 T ES 95928266T ES 2299175 T3 ES2299175 T3 ES 2299175T3
- Authority
- ES
- Spain
- Prior art keywords
- rate
- speech
- coding
- indicative
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000005540 biological transmission Effects 0.000 claims description 48
- 238000005259 measurement Methods 0.000 claims description 38
- 206010011878 Deafness Diseases 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 6
- 230000001755 vocal effect Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 12
- 101150049692 THR4 gene Proteins 0.000 description 11
- 230000008901 benefit Effects 0.000 description 8
- 230000007423 decrease Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000008447 perception Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 101000712600 Homo sapiens Thyroid hormone receptor beta Proteins 0.000 description 4
- 102100033451 Thyroid hormone receptor beta Human genes 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013383 initial experiment Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Un aparato para seleccionar una tasa de codificación a partir de un conjunto predeterminado de tasas de codificación para codificar una trama de habla que incluye una pluralidad de muestras del habla, que comprende: medios (12) de medición de modo, sensibles a dichas muestras del habla y a al menos una señal derivada de dichas muestras del habla, para generar un conjunto de parámetros indicativo de características de dicha trama del habla; y medios de lógica (14) de determinación de la tasa para recibir dicho conjunto de parámetros, para determinar la importancia psicoacústica de dichas muestras del habla según dicho conjunto de parámetros y para seleccionar una tasa de codificación a partir de dicho conjunto predeterminado de tasas de codificación según dicha importancia psicoacústica determinada utilizando reglas de selección de la tasa predeterminadas.
Description
Procedimiento y aparato para realizar
vocodificación con tasa reducida y tasa variable.
La presente invención se refiere a
comunicaciones. Más en particular, la presente invención se refiere
a un procedimiento y a un aparato novedosos y mejorados para
realizar codificación por predicción lineal excitada por código
(CELP) con tasa, o velocidad, variable.
La transmisión de voz mediante técnicas
digitales se ha extendido, particularmente en aplicaciones de larga
distancia y de radiotelefonía digital. Esto, a su vez, ha despertado
interés en determinar la menor cantidad de información que puede
enviarse por el canal que mantiene la calidad percibida del habla
reconstruida. Si el habla se transmite simplemente muestreando y
digitalizando, se requiere una tasa de transmisión de datos del
orden de 64 kilobits por segundo (kbps) para conseguir una calidad
del habla del teléfono analógico convencional. Sin embargo, a
través del uso de análisis del habla, seguido de la codificación, la
transmisión, y la resíntesis apropiadas en el receptor, puede
lograrse una reducción significativa en la tasa de transmisión de
datos.
Los dispositivos que emplean técnicas para
comprimir habla sonora extrayendo parámetros que se refieren a un
modelo de generación del habla humana normalmente se denominan
vocodificadores. Tales dispositivos están compuestos por un
codificador, que analiza el habla entrante para extraer los
parámetros pertinentes, y un descodificador, que resintetiza el
habla utilizando los parámetros que recibe por el canal de
transmisión. Con el fin de ser precisos, el modelo debe cambiar
continuamente. Así el habla se divide en bloques de tiempo, o
tramas de análisis, durante los que se calculan los parámetros. Los
parámetros entonces se actualizan para cada nueva trama.
De las diversas clases de codificadores del
habla la codificación por predicción lineal excitada por código
(CELP), la codificación estocástica o la codificación del habla
excitada por vector son de una clase. Un ejemplo de un algoritmo de
codificación de esta clase particular se describe en el artículo
"A 4.8kbps Code Excited Linear Predictive Coder" de
Thomas E. Tremain et al., Proceedings of the Mobile
Satellite Conference, 1988.
La función del vocodificador es comprimir la
señal del habla digitalizada en una señal de tasa de transmisión de
bits baja eliminando todas las redundancias naturales inherentes al
habla. El habla normalmente tiene redundancias a corto plazo
debidas principalmente a la operación de filtrado del tracto vocal,
y redundancias a largo plazo debidas a la excitación del tracto
vocal por las cuerdas vocales. En un codificador CELP, estas
operaciones se modelan mediante dos filtros, un filtro formante a
corto plazo y un filtro de altura tonal a largo plazo. Una vez
eliminadas estas redundancias, la señal residual resultante puede
modelarse como ruido blanco gaussiano, que también debe
codificarse. La base de esta técnica es calcular los parámetros de
un filtro, llamado el filtro LPC, que realiza predicción a corto
plazo de la forma de onda del habla utilizando un modelo del tracto
vocal humano. Además, los efectos a largo plazo, relacionados con la
altura tonal del habla, se modelan calculando los parámetros de un
filtro de altura tonal, que esencialmente modela las cuerdas vocales
humanas. Finalmente, estos filtros deben excitarse, y esto se hace
determinando cuál, de un número de formas de onda de excitación
aleatorias en un libro de códigos (codebook), tiene como
resultado la aproximación más próxima al habla original cuando la
forma de onda excita los dos filtros mencionados anteriormente. Así
los parámetros transmitidos se refieren a tres elementos (1) el
filtro LPC, (2) el filtro de altura tonal y (3) la excitación del
libro de códigos.
Aunque el uso de técnicas de vocodificación
favorece el objetivo de intentar reducir la cantidad de información
enviada por el canal mientras se mantiene habla reconstruida de
calidad, es necesario emplear otras técnicas para lograr reducción
adicional. Una técnica utilizada previamente para reducir la
cantidad de información enviada es desconexión de actividad vocal.
En esta técnica no se transmite información durante las pausas del
habla. Aunque esta técnica logra el resultado deseado de reducción
de datos, tiene varias deficiencias.
En muchos casos, la calidad del habla se reduce
debido al recorte de las partes iniciales de las palabras. Otro
problema de desconectar el canal durante la inactividad es que los
usuarios del sistema perciben la falta de ruido de fondo que
normalmente acompaña al habla y juzgan la calidad del canal como
inferior a una llamada telefónica normal. Un problema adicional de
la desconexión de actividad es que ruidos repentinos ocasionales en
el fondo pueden disparar el transmisor cuando no se produce habla,
lo que tiene como resultado ráfagas de ruido molestas en el
receptor.
En un intento de mejorar la calidad del habla
sintetizada en sistemas de desconexión de actividad vocal, se añade
ruido de comodidad sintetizado durante el proceso de
descodificación. Aunque se logra alguna mejora de la calidad de
añadir ruido de comodidad, no mejora sustancialmente la calidad
global ya que el ruido de comodidad no modela el ruido de fondo
real en el codificador.
Una técnica preferida para llevar a cabo la
compresión de datos, para que tenga como resultado una reducción de
información que necesita enviarse, es realizar vocodificación con
tasa variable. Debido a que el habla contiene inherentemente
periodos de silencio, es decir pausas, la cantidad de datos
requeridos para representar estos periodos puede reducirse. La
vocodificación con tasa variable aprovecha de la manera más eficaz
este hecho reduciendo la tasa de transmisión de datos para estos
periodos de silencio. Una reducción en la tasa de transmisión de
datos, en contraposición a una detención completa en la transmisión
de datos, para periodos de silencio supera los problemas asociados
con desconexión de actividad vocal mientras se facilita una
reducción en la información transmitida.
La patente estadounidense en tramitación junto
con la presente 5.414.796, expedida el 9 de mayo de 1995, titulada
"Variable Rate Vocoder" y transferida al cesionario de
la presente invención, detalla un algoritmo de vocodificación de la
clase de codificadores del habla mencionada anteriormente,
codificación por predicción lineal excitada por código (CELP),
codificación estocástica o vocodificación excitada por vector. La
técnica CELP por sí misma proporciona una reducción significativa
en la cantidad de datos necesarios para representar el habla de una
manera que tras la resíntesis tiene como resultado habla de alta
calidad. Tal como se mencionó anteriormente los parámetros del
vocodificador se actualizan para cada trama. El vocodificador
detallado en la solicitud de patente en tramitación junto con la
presente proporciona una tasa de transmisión de datos de salida
variable cambiando la frecuencia y la precisión de los parámetros
del modelo.
El algoritmo de vocodificación de la solicitud
de patente mencionada anteriormente difiere de manera más marcada
de las técnicas de CELP anteriores produciendo una tasa de
transmisión de datos de salida variable basándose en actividad del
habla. La estructura se define para que los parámetros se actualicen
con menos frecuencia, o con menos precisión, durante las pausas en
el habla. Esta técnica permite un descenso incluso mayor en la
cantidad de información que va a transmitirse. El fenómeno que se
aprovecha para reducir la tasa de transmisión de datos es el factor
de actividad vocal, que es el porcentaje medio de tiempo que un
hablante dado está realmente hablando durante una conversación.
Para conversaciones telefónicas bidireccionales típicas, la tasa de
transmisión de datos media se reduce por un factor de 2 o más.
Durante las pausas en el habla, el vocodificador sólo está
codificando el ruido de fondo. En estos momentos, no es necesario
que se transmitan algunos de los parámetros relacionados con el
modelo del tracto vocal humano.
Tal como se mencionó anteriormente un enfoque
anterior para limitar la cantidad de información transmitida
durante el silencio se llama desconexión de actividad vocal, una
técnica en la que no se transmite información durante los momentos
de silencio. En el lado de recepción el periodo puede llenarse con
"ruido de comodidad" sintetizado. En contraposición, un
vocodificador con tasa variable está transmitiendo datos
continuamente que, en la realización ejemplar de la solicitud en
tramitación junto con la presente, está en tasas que varían entre
aproximadamente 8 kbps y 1 kbps. Un vocodificador que proporciona
una transmisión de datos continua elimina la necesidad de "ruido
de comodidad" sintetizado, con la codificación del ruido de fondo
proporcionando una calidad más natural al habla sintetizada. La
invención de la solicitud de patente mencionada anteriormente por
tanto proporciona una mejora significativa en la calidad del habla
sintetizada respecto a la de desconexión de actividad vocal
permitiendo una transición suave entre habla y fondo.
El algoritmo de vocodificación de la solicitud
de patente mencionada anteriormente permite detectar pausas cortas
en el habla, se lleva a cabo un descenso en el factor de actividad
vocal efectivo. Pueden tomarse decisiones de tasa trama a trama sin
retención, de modo que la tasa de transmisión de datos puede bajarse
para pausas en el habla tan cortas como la duración de trama,
normalmente 20 ms. Por tanto pueden capturarse pausas tales como
aquellas entre sílabas. Esta técnica disminuye el factor de
actividad vocal más allá de lo que se ha considerado
tradicionalmente, ya que no sólo las pausas de larga duración entre
frases, sino también las pausas más cortas pueden codificarse con
tasas más bajas.
Puesto que las decisiones de tasas se toman
basándose en una trama, no hay recorte de la parte inicial de la
palabra, tal como en un sistema de desconexión de actividad vocal.
El recorte de esta naturaleza se produce en el sistema de
desconexión de actividad vocal debido a un retardo entre la
detección del habla y una reanudación de la transmisión de datos.
El uso de una decisión de tasa basándose en cada trama tiene como
resultado un habla en la que todas las transiciones tienen un
sonido natural.
Con el vocodificador siempre transmitiendo, el
ruido de fondo ambiente del hablante se escuchará continuamente en
el extremo de recepción produciendo de ese modo un sonido más
natural durante las pausas del habla. La presente invención
proporciona por tanto una transición suave al ruido de fondo. Lo que
escucha el oyente en el fondo durante el habla no cambiará de
repente a un ruido de comodidad sintetizado durante las pausas como
en un sistema de desconexión de actividad vocal.
Debido a que el ruido de fondo se vocodifica
continuamente para su transmisión, pueden enviarse eventos
interesantes en el fondo con total claridad. En ciertos casos el
ruido de fondo interesante puede incluso codificarse con la tasa
más alta. Puede producirse codificación con la tasa máxima, por
ejemplo, cuando alguien está hablando alto en el fondo, o si pasa
una ambulancia al lado de un usuario que está en la esquina de una
calle. El ruido de fondo constante o que varía lentamente, sin
embargo, se codificará con tasas bajas.
El uso de vocodificación con tasa variable
promete aumentar la capacidad de un sistema telefónico celular
digital basado en acceso múltiple por división de código (CDMA) por
más de un factor de dos. CDMA y la vocodificación con tasa variable
se corresponden unívocamente, ya que, con CDMA, la interferencia
entre canales cae automáticamente a medida que la tasa de
transmisión de datos por cualquier canal disminuye. En
contraposición, considérense sistemas en los que se asignan ranuras
de transmisión, tales como TDMA o FDMA. Con el fin de que un sistema
de este tipo se aproveche de cualquier caída en la tasa de
transmisión de datos, se requiere intervención externa para
coordinar la reasignación de ranuras no utilizadas a otros usuarios.
El retardo inherente en un esquema de este tipo implica que el
canal puede reasignarse sólo durante largas pausas del habla. Por
tanto, no puede aprovecharse totalmente el factor de actividad
vocal. Sin embargo, con coordinación externa, la vocodificación con
tasa variable es útil en sistemas distintos de CDMA debido a las
otras razones mencionadas.
En un sistema CDMA la calidad del habla puede
degradarse ligeramente en momentos en los que se desea capacidad de
sistema adicional. Hablando en abstracto, puede pensarse en el
vocodificador como múltiples vocodificadores operando todos con
tasas diferentes con calidades del habla resultantes diferentes. Por
tanto las calidades del habla pueden mezclarse con el fin de
reducir adicionalmente la tasa de transmisión de datos media.
Experimentos iniciales muestran que mezclando habla vocodificado
con tasas total y de la mitad, por ejemplo, se varía la tasa de
transmisión de datos admisible máxima trama a trama entre 8 kbps y 4
kbps, el habla resultante tiene una calidad que es mejor que la
mitad de la tasa variable, 4 kbps como máximo, pero no tan buena
como la tasa variable total, 8 kbps como máximo.
Se conoce ampliamente que en la mayor parte de
las conversaciones telefónicas, sólo habla una persona a la vez.
Como función adicional para enlaces telefónicos dúplex total puede
proporcionarse un interbloqueo de tasa. Si una dirección del enlace
está transmitiendo con la tasa de transmisión más alta, entonces se
fuerza a la otra dirección del enlace a transmitir con la tasa más
baja. Un interbloqueo entre las dos direcciones del enlace puede
garantizar no más del 50% de utilización media de cada dirección del
enlace. Sin embargo, cuando el canal se desconecta, tal como en el
caso para un interbloqueo de tasa en desconexión de actividad, no
hay manera de que un oyente interrumpa al hablante para asumir el
papel de hablante en la conversación. El procedimiento de
vocodificación de la solicitud de patente mencionada anteriormente
proporciona fácilmente la capacidad de un interbloqueo de tasa
adaptativo mediante señales de control que establecen la tasa de
vocodificación.
En la solicitud de patente mencionada
anteriormente el vocodificador se opera o bien con la tasa total
cuando hay habla o con un octavo de la tasa no hay habla. La
operación del algoritmo de vocodificación con la mitad y con un
cuarto de la tasa se reserva para condiciones especiales de
capacidad impactada o cuando van a transmitirse otros datos en
paralelo con los datos del habla.
La solicitud de patente estadounidense en
tramitación junto con la presente número de serie 08/118.473,
presentada el 8 de septiembre de 1993, titulada "Method and
Apparatus for Determining the Transmission Data Rate in a
Multi-User Communication System" y
transferida al cesionario de la presente invención detalla un
procedimiento por el que un sistema de comunicación según
mediciones de capacidad de sistema limita la tasa de transmisión de
datos media de tramas codificadas mediante un vocodificador con tasa
variable. El sistema reduce la tasa de transmisión de datos media
forzando que se codifiquen tramas predeterminadas en una cadena de
tramas de tasa total con una tasa menor, es decir la mitad de la
tasa. El problema de reducir la tasa de codificación para tramas
del habla activa de esta manera es que la limitación no corresponde
a ninguna característica del habla de entrada y por tanto no está
optimizada para calidad de compresión del habla.
Asimismo, en la patente estadounidense número
5.341.456 titulada "Improved Method for Determining Speech
Encoding Rate in a Variable Rate Vocoder", expedida el 23 de
agosto de 1994, y transferida al cesionario de la presente
invención, se da a conocer un procedimiento para distinguir habla
sorda de habla sonora. El procedimiento dado a conocer examina la
energía del habla y la inclinación espectral del habla y utiliza la
inclinación espectral para distinguir el habla sorda de ruido de
fondo.
Los vocodificadores con tasa variable que varían
la tasa de codificación basándose completamente en la actividad
vocal del fallo del habla de entrada para llevar a cabo la eficacia
de compresión de un codificador con tasa variable que varía la tasa
de codificación basándose en la complejidad o contenido de
información que está variando dinámicamente durante el habla
activa. Haciendo corresponder las tasas de codificación con la
complejidad de la forma de onda de entrada pueden construirse
codificadores del habla más eficaces. Además, los sistemas que
buscan ajustar dinámicamente la tasa de transmisión de datos de
salida de los vocodificadores con tasa variable deberían variar las
tasas de transmisión de datos según características del habla de
entrada para conseguir una calidad de voz óptima para una tasa de
transmisión de datos media deseada.
Se llama la atención adicionalmente al documento
WO 92/22891, que da a conocer un aparato y un procedimiento para
llevar a cabo compresión de señal del habla, mediante codificación
con tasa variable de tramas de muestras del habla digitalizadas. Se
determina el nivel de actividad del habla para cada trama de
muestras del habla digitalizadas y se selecciona una tasa por
paquetes de datos de salida a partir de un conjunto de tasas
basándose en el nivel determinado de la actividad del habla de
tramas. Una tasa más baja del conjunto de tasas corresponde a un
nivel mínimo detectado de actividad del habla, tal como ruido de
fondo o pausas del habla, mientras que la tasa más alta corresponde
a un nivel máximo detectado de actividad del habla, tal como
vocalización activa. Cada trama se codifica entonces según un
formato de codificación predeterminado para la tasa seleccionada en
el que cada tasa tiene un número correspondiente de bits
representativo de la trama codificada. Se proporciona un paquete de
datos para cada trama codificada con cada paquete de datos de salida
de una tasa de transmisión de bits correspondiente a la tasa
seleccionada.
Se llama la atención además al documento EP 0
578 436, que da a conocer un procedimiento de codificación del
habla y un aparato que aplica selectivamente técnicas de
codificación del habla a segmentos de tiempo de señales de
información del habla, tales como, por ejemplo formas de onda de
ciclo de altura tonal. Se está enseñando a usar dos codificadores
CELP para conseguir una tasa de transmisión de bits reducida
aplicando selectivamente el segundo codificador. Sin embargo, esta
referencia no se refiere a codificación con tasa variable, en la
que la determinación de la tasa se realiza "sobre la marcha"
basándose en características de la trama del habla.
También se llama la atención al documento
Proceedings of Melecon, 1994, Vol. 1, 12 a 14 de abril de
1994, Antalya, TR, páginas 47 a 50, Paksoy E. et al.,
"Variable Rate Speech Coding for Multiple Access Wireless
Networks", que da a conocer un algoritmo de codificación del
habla con tasa variable controlada por la fuente, en el que la tasa
y la estrategia de codificación están basadas en clasificación
fonética de segmentos del habla.
También se llama la atención al documento
Advances in Speech Coding, 5 a 8 de septiembre de 1989,
Vancouver, CA, páginas 157 a 166, Taniguchi T. et al.,
"Speech Coding with Dynamic Bit Allocation (Multimode
Coding)", que da a conocer el uso de múltiples
codificadores. Los codificadores procesan la trama del habla en
paralelo y se usa el codificador que logra el mejor rendimiento de
codificación.
Por último pero no en menor medida se llama la
atención al documento EP-A-3 433 015
que da a conocer un sistema de codificación con tasa variable que
tiene menos degradación de la calidad de una señal de descodificador
con respecto al abandono de señal paquete por paquete para
garantizar de ese modo una calidad estable y con eficacia de código
alto. El sistema de codificación con tasa de transmisión de bits
variable se caracteriza porque una secuencia de señales digitales
se divide en señales de una pluralidad de zonas de banda y las
señales divididas se codifican trama a trama.
Según la presente invención se proporciona un
aparato para seleccionar una tasa de codificación como se expone en
la reivindicación 1, y un procedimiento para seleccionar una tasa de
codificación según se expone en la reivindicación 27. Realizaciones
preferidas de la invención se dan a conocer en las reivindicaciones
dependientes.
La presente invención es un procedimiento y un
aparato novedosos y mejorados para codificar tramas del habla
activa con una tasa reducida mediante la codificación de tramas del
habla con tasas entre una tasa máxima predeterminada y una tasa
mínima predeterminada. La presente invención designa un conjunto de
modos de funcionamiento del habla activa. En la realización
ejemplar de la presente invención, hay cuatro modos de
funcionamiento del habla activa, habla con tasa total, habla con la
mitad de la tasa, habla sorda con un cuarto de la tasa y habla
sonora con un cuarto de la tasa.
Es un objetivo de la presente invención
proporcionar un procedimiento optimizado para seleccionar un modo
de codificación que proporcione codificación con tasa eficaz del
habla de entrada. Es un segundo objetivo de la presente invención
identificar un conjunto de parámetros idealmente adecuados para esta
selección de modo de funcionamiento y para proporcionar medios para
generar este conjunto de parámetros. En tercer lugar, es un
objetivo de la presente invención proporcionar identificación de dos
condiciones independientes que permitan codificación con tasa baja
con sacrificio mínimo de la calidad. Las dos condiciones son la
presencia del habla sorda y la presencia del habla temporalmente
enmascarada. Es un cuarto objetivo de la presente invención
proporcionar un procedimiento para ajustar dinámicamente la tasa de
transmisión de datos de salida media del codificador del habla con
impacto mínimo en la calidad del habla.
La presente invención, proporciona un conjunto
de criterios de decisión de la tasa denominados medidas de modo.
Una primera medida de modo es la relación señal a ruido
correspondiente al objetivo (TMNSR) a partir de la trama de
codificación anterior, que proporciona información acerca de lo bien
que se corresponde el habla sintetizada con el habla de entrada o,
en otras palabras, lo bien que está actuando el modelo de
codificación. Una segunda medida de modo es la función de
autocorrelación normalizada (NACF), que mide la periodicidad en la
trama del habla. Una tercera medida de modo es el parámetro de
cruces por cero (ZC) que es un procedimiento económico desde el
punto de vista del cálculo para medir el contenido de alta
frecuencia en una trama del habla de entrada. Una cuarta medida es
el diferencial de ganancia de predicción (PGD) que determina si el
modelo LPC está manteniendo su eficacia de predicción. La quinta
medida es el diferencial de energía (ED) que compara la energía en
la trama actual con una energía de trama media.
La realización ejemplar del algoritmo de
vocodificación de la presente invención usa las cinco medidas de
modo enumeradas anteriormente para seleccionar un modo de
codificación para una trama del habla activa. La lógica de
determinación de la tasa de la presente invención compara la NACF
con un primer valor umbral y el ZC con un segundo valor umbral para
determinar si el habla debería codificarse como habla sorda con un
cuarto de la tasa.
Si se determina que la trama del habla activa
contiene habla sonora, entonces el vocodificador examina el
parámetro ED para determinar si la trama del habla debería
codificarse como habla sonora con un cuarto de la tasa. Si se
determina que el habla no ha a codificarse con un cuarto de la tasa,
entonces el vocodificador prueba si el habla puede codificarse con
la mitad de la tasa. El vocodificador prueba los valores TMSNR, PGD
y NACF para determinar si la trama del habla puede codificarse con
la mitad de la tasa. Si se determina que la trama del habla activa
no puede codificarse con un cuarto o la mitad de la tasa, entonces
la trama se codifica con la tasa total.
\global\parskip0.900000\baselineskip
Otro objetivo es proporcionar un procedimiento
para cambiar dinámicamente valores umbral con el fin de adaptarse a
requisitos de tasa. Variando uno o más de los umbrales de selección
de modo, es posible aumentar o disminuir la tasa de transmisión de
datos media. Por tanto, ajustando dinámicamente los valores umbral
puede ajustarse una tasa de salida.
Las características, objetos y ventajas de la
presente invención se harán más evidentes a partir de la descripción
detallada expuesta a continuación cuando se tome conjuntamente con
los dibujos en los que caracteres de referencia similares
identifican correspondientemente a lo largo de los mismos y en los
que:
la figura 1 es un diagrama de bloques del
aparato de determinación de la tasa de codificación de la presente
invención; y
la figura 2 es un diagrama de flujo que ilustra
el proceso de selección de la tasa de codificación de la lógica de
determinación de la tasa.
En la realización ejemplar, se codifican tramas
del habla de 160 muestras. En la realización ejemplar de la
presente invención, hay cuatro tasas de transmisión de datos, tasa
total, la mitad de la tasa, un cuarto de la tasa y un octavo de la
tasa. La tasa total corresponde una tasa transmisión de datos de
salida de 14,4 kbps. La mitad de la tasa corresponde a una tasa de
transmisión de datos de salida de 7,2 kbps. Un cuarto de la tasa
corresponde a una tasa de transmisión de datos de salida de 3,6
kbps. Un octavo de la tasa corresponde a una tasa de transmisión de
datos de salida de 1,8 kbps, y se reserva para la transmisión
durante periodos de silencio.
Debería observarse que la presente invención se
refiere sólo a la codificación de tramas del habla activa, tramas
que se detectan que tienen habla presente en las mismas. El
procedimiento para detectar la presencia del habla se detalla en
las patentes estadounidenses
US-A-5414796 y
US-A-5341456 mencionadas
anteriormente.
Con referencia a la figura 1, el elemento 12 de
medición de modo determina valores de cinco parámetros utilizados
por la lógica 14 de determinación de la tasa para seleccionar una
tasa de codificación para la trama del habla activa. En la
realización ejemplar, el elemento 12 de medición de modo determina
cinco parámetros que proporciona a la lógica 14 de determinación de
la tasa. Basándose en los parámetros proporcionados por el elemento
12 de medición de modo, la lógica 14 de determinación de la tasa
selecciona una tasa de codificación de tasa total, mitad de la tasa
o un cuarto de la tasa.
La lógica 14 de determinación de la tasa
selecciona uno de cuatro modos de codificación según los cinco
parámetros generados. Los cuatro modos de codificación incluyen
modo de tasa total, mitad de la tasa, modo sordo de un cuarto de la
tasa y modo sonoro de un cuarto de la tasa. El modo sonoro de un
cuarto de la tasa y el modo sordo de un cuarto de la tasa
proporcionan datos con la misma tasa pero mediante distintas
estrategias de codificación. El modo de la mitad de la tasa se usa
para codificar habla bien modelada, periódica y estacionaria. Tanto
el modo sonoro de un cuarto de la tasa, como el sordo de un cuarto
de la tasa, así como el de la mitad de la tasa aprovechan de partes
del habla que no requieren alta precisión en la codificación de la
trama.
El modo sordo de un cuarto de la tasa se utiliza
en la codificación del habla sorda. El modo sonoro de un cuarto de
la tasa se utiliza en la codificación de tramas del habla
temporalmente enmascaradas. La mayor parte de los codificadores del
habla CELP se aprovechan de enmascaramiento simultáneo en el que la
energía del habla a una frecuencia dada enmascara la energía de
ruido a la misma frecuencia y al mismo tiempo haciendo el ruido
inaudible. Los codificadores del habla con tasa variable pueden
aprovecharse del enmascaramiento temporal en el que se enmascaran
tramas del habla activa de energía baja mediante tramas del habla de
energía alta anteriores de contenido de frecuencia similar. Debido
a que el oído humano está integrando energía a lo largo del tiempo
en varias bandas de frecuencia, las tramas de energía baja se
promedian en el tiempo con las tramas de energía alta bajando de
ese modo los requisitos de codificación para las tramas de energía
baja. Aprovechar estos fenómenos auditivos de enmascaramiento
temporal permite al codificador del habla con tasa variable reducir
la tasa de codificación durante este modo del habla. Este fenómeno
psicoacústico se detalla en Psychoacoustics de E. Zwicker y
H. Fastl, páginas 56 a 101.
El elemento 12 de medición de modo recibe cuatro
señales de entrada con las que genera los cinco parámetros de modo.
La primera señal que recibe el elemento 12 de medición de modo es
S(n) que son las muestras del habla de entrada sorda. En la
realización ejemplar, las muestras del habla se proporcionan en
tramas que contienen 160 muestras del habla. Las tramas del habla
que se proporcionan al elemento 12 de medición de modo contienen
todas habla activa. Durante periodos de silencio, el sistema de
determinación de la tasa del habla activa de la presente invención
está inactivo.
La segunda señal que recibe el elemento 12 de
medición de modo es la señal del habla sintetizada,
\hat{S}(n), que es el habla descodificada del
descodificador del codificador del codificador CELP con tasa
variable. El descodificador del codificador descodifica una trama
del habla codificada con el fin de actualizar parámetros de filtro
y memorias en análisis mediante el codificador CELP basado en
síntesis. El diseño de descodificadores de este tipo se conoce
ampliamente en la técnica y se detalla en la patente estadounidense
5.414.796 mencionada anteriormente.
\global\parskip1.000000\baselineskip
La tercera señal que recibe el elemento 12 de
medición de modo es la señal e(n) residual formante. La señal
residual formante es la señal S(n) del habla filtrada por el
filtro de codificación de predicción lineal (LPC) del codificador
CELP. El diseño de filtros LPC y el filtrado de señales mediante
filtros de este tipo se conoce ampliamente en la técnica y se
detalla en la patente estadounidense 5.414.796 mencionada
anteriormente. La cuarta entrada para el elemento 12 de medición de
modo es A(z) que son los valores de coeficiente de filtro
del filtro de ponderación de percepción del codificador CELP
asociado. La generación de los valores de coeficiente, y la
operación de filtración de un filtro de ponderación de percepción se
conocen ampliamente en la técnica y se detallan en la solicitud de
patente estadounidense número 08/004.484.
El elemento 2 de cálculo de la relación señal a
ruido (SNR) correspondiente al objetivo recibe la señal del habla
sintetizada, \hat{S}(n), las muestras S(n) del habla
y un conjunto de valores A(z) de coeficiente de filtro de
ponderación de percepción. El elemento 2 de cálculo de SNR
correspondiente al objetivo proporciona un parámetro, denominado
TMSNR, que indica cómo el modelo del habla está rastreando el habla
de entrada. El elemento 2 de cálculo de SNR correspondiente al
objetivo genera TMSNR según la ecuación 1 siguiente:
donde el subíndice w indica que la
señal se ha filtrado mediante un filtro de ponderación de
percepción.
Obsérvese que esta medida se calcula para la
trama del habla anterior, mientras que NACF, PGD, ED, ZC se calculan
en la trama del habla actual. TMSNR se calcula en la trama del
habla anterior ya que está en función de la tasa de codificación
seleccionada y por tanto por razones de complejidad de cálculo se
calcula en la trama anterior de la trama que está
codificándose.
El diseño y la implementación de filtros de
ponderación de percepción son ampliamente conocidos en la técnica y
se detallan en la patente estadounidense 5.414.796 mencionada
anteriormente. Debería observarse que la ponderación de percepción
se prefiere para ponderar las características significativas en
cuanto a percepción de la trama del habla. Sin embargo, se prevé
que la medición podría realizarse sin ponderar las señales en cuanto
a percepción.
El elemento 4 de cálculo de autocorrelación
normalizada recibe la señal residual formante, e(n). La
función del elemento 4 de cálculo de autocorrelación normalizada es
proporcionar una indicación de periodicidad de las muestras en la
trama del habla. El elemento 4 de cálculo de autocorrelación
normalizada genera un parámetro, indicado por NACF según la
ecuación 2 siguiente:
Debería observarse que la generación de este
parámetro requiere memoria de la señal residual formante a partir
de la codificación de la trama anterior. Esto permite probar no sólo
la periodicidad de la trama actual, sino que también prueba la
periodicidad de la trama actual con la trama anterior.
La razón por la que en la realización preferida
se utiliza la señal residual formante, e(n), en lugar de las
muestras del habla, S(n), que podrían utilizarse para generar
NACF, es eliminar la interacción de las formantes de la señal del
habla. Pasando la señal del habla a través del filtro formante sirve
para alisar la envolvente del habla y así blanquear la señal
resultante. Debería observarse que los valores de retardo T en la
realización ejemplar corresponden a frecuencias de altura tonal
entre 66 Hz y 400 Hz para una frecuencia de muestreo de 8000
muestras por segundo. La frecuencia de altura tonal para un valor T
de retardo dado se calcula mediante la ecuación 3 siguiente:
donde f_{s} es la frecuencia de
muestreo.
Debería observarse que el intervalo de
frecuencias puede extenderse o reducirse simplemente seleccionando
un conjunto diferente de valores de retardo. Debería observarse
también que la presente invención puede aplicarse igualmente a
cualquier frecuencia de muestreo.
El contador 6 de cruces por cero recibe las
muestras S(n) del habla y cuenta el número de veces que las
muestras del habla cambian de signo. Este es un procedimiento,
económico desde el punto de vista del cálculo, de detección de
componentes de alta frecuencia en la señal del habla. Este contador
puede implementarse en software mediante un bucle de la forma:
El bucle de las ecuaciones 4 a 6 multiplica
muestras del habla consecutivas y prueba si el producto es menor
que cero indicando que el signo entre las dos muestras consecutivas
difiere. Esto supone que no hay componente CC para la señal del
habla. Es ampliamente conocido en la técnica cómo eliminar
componentes CC de las señales.
El elemento 8 de diferencial de ganancia de
predicción recibe la señal S(n) del habla y la señal
e(n) residual formante. El elemento 8 de diferencial de
ganancia de predicción genera un parámetro indicado por PGD, que
determina si el modelo LPC está manteniendo su eficacia de
predicción. El elemento 8 de diferencial de ganancia de predicción
genera la ganancia de predicción, Pg, según la ecuación 7
siguiente:
La ganancia de predicción de la trama presente
se compara entonces con la ganancia de predicción de la trama
anterior para generar el parámetro PGD de salida mediante la
ecuación 8 siguiente:
donde i indica el número de
trama.
En una realización preferida, el elemento 8 de
diferencial de ganancia de predicción no genera los valores Pg de
ganancia de predicción. En la generación de los coeficientes LPC un
derivado de la recursión de Durbin es la ganancia Pg de predicción
por lo que no es necesaria una repetición del cálculo.
El elemento 10 de diferencial de energía de
trama recibe las muestras s(n) del habla de la trama presente
y calcula la energía de la señal del habla en la trama presente
según la ecuación 9 siguiente:
La energía de la trama presente se compara con
una energía media de tramas anteriores E_{med}. En la realización
ejemplar, la energía media, E_{med} se genera mediante un
integrador con fugas de la forma:
(10)E_{med}=
\alpha \cdot E_{med}+ (1- \alpha) \cdot E_{i}, donde 0<
\alpha<1
El factor, \alpha, determina el intervalo de
tramas que son relevantes en el cálculo. En la realización
ejemplar, \alpha se establece en 0,8825 lo que proporciona un
tiempo constante de 8 tramas. El elemento 10 de diferencial de
energía de trama genera entonces el parámetro ED según la ecuación
11 siguiente:
Los cinco parámetros, TMSNR, NACF, ZC, PGD y ED
se proporcionan a la lógica 14 de determinación de la tasa. La
lógica 14 de determinación de la tasa selecciona una tasa de
codificación para la siguiente trama de muestras según los
parámetros y un conjunto predeterminado de reglas de selección. Con
referencia ahora a la figura 2, se muestra un diagrama de flujo que
ilustra el proceso de selección de la tasa del elemento 14 de lógica
de determinación de la tasa de transmisión.
El proceso de determinación de la tasa comienza
en el bloque 18. En el bloque 20, la salida del elemento 4 de
autocorrelación normalizada, NACF, se compara con un valor umbral
predeterminado, THR1 y la salida del contador de cruces por cero se
compara con un segundo umbral predeterminado, THR2. Si NACF es menor
que THR1 y ZC es mayor que THR2, entonces el flujo continúa al
bloque 22, que codifica el habla como un cuarto de la tasa sorda.
Si NACF es menor que un umbral predeterminado indicaría una falta de
periodicidad en el habla y si ZC es mayor que un umbral
predeterminado indicaría un componente de alta frecuencia en el
habla. La combinación de estas dos condiciones indica que la trama
contiene habla sorda. En la realización ejemplar THR1 es 0,35 y
THR2 es 50 cruces por cero. Si NACF no es menor que THR1 o ZC no es
mayor que THR2, entonces el flujo continúa al bloque 24.
En el bloque 24, la salida del elemento 10 de
diferencial de energía de trama, ED, se compara con un tercer valor
umbral, THR3. Si ED es menor que THR3, entonces la trama del habla
actual se codificará como habla sonora con un cuarto de la tasa en
el bloque 26. Si la diferencia de energía entre la trama actual es
menor que la media en una cantidad mayor que un umbral, entonces se
indica una condición del habla temporalmente enmascarada. En la
realización ejemplar, THR3 es -14dB. Si ED no supera THR3 entonces
el flujo continúa al bloque 28.
En el bloque 28, la salida del elemento 2 de
cálculo de SNR correspondiente al objetivo, TMSNR, se compara con
un cuarto valor umbral, THR4; la salida del elemento 8 de
diferencial de ganancia de predicción, PGD, se compara con un
quinto valor umbral, THR5; y la salida del elemento 4 de cálculo de
autocorrelación normalizada, NACF, se compara con un sexto valor
THR6 umbral. Si TMSNR supera THR4; PGD es menor que THR5; y NACF
supera THR6, entonces el flujo continúa al bloque 30 y el habla se
codifica con la mitad de la tasa. Si TMSNR supera su umbral
indicará que el modelo y el habla que está modelándose corresponden
correctamente en la trama anterior. Si el parámetro PGD es menor
que su umbral predeterminado es indicativo de que el modelo LPC está
manteniendo su eficacia de predicción. Si el parámetro NACF supera
su umbral predeterminado indica que la trama contiene habla
periódica que es periódica con la trama del habla anterior.
En la realización ejemplar, THR4 se establece
inicialmente en 10 dB, THR5 se establece en -5 dB y THR6 se
establece en 0,4. En el bloque 28, si TMSNR no supera THR4, o PGD no
supera THR5, o NACF no supera THR6, entonces el flujo continúa al
bloque 32 y la trama del habla actual se codificará con la tasa
total.
Ajustando dinámicamente los valores umbral puede
lograrse una tasa de transmisión de datos global arbitraria. La
tasa de transmisión de datos media del habla activa global, R, puede
definirse para tramas del habla activa de ventana W de análisis
como:
donde
R_{f} es la tasa de transmisión de datos para
tramas codificadas con tasa total,
R_{h} es la tasa de transmisión de datos para
tramas codificadas con la mitad de la tasa,
R_{q} es la tasa de transmisión de datos para
tramas codificadas con un cuarto de la tasa, y
W = #R_{f} tramas + #R_{h} tramas + #R_{q}
tramas.
Multiplicando cada una de las tasas de
codificación por el número de tramas codificadas con esa tasa y
después dividiendo entre el número total de tramas en la muestra
puede calcularse una tasa de transmisión de datos media para la
muestra del habla activa. Es importante tener un tamaño de muestra
de trama, W, lo suficientemente grande para impedir que una larga
duración del habla sorda, tal como sonidos "s" prolongados,
distorsione la estadística de tasa media. En la realización
ejemplar, el tamaño de muestra de trama, W, para el cálculo de la
tasa media es de 400 tramas.
La tasa de transmisión de datos media puede
disminuirse aumentando el número de tramas codificadas con una tasa
total que va a codificarse a la mitad de la tasa y a la inversa, la
tasa de transmisión de datos media puede aumentarse aumentando el
número de tramas codificadas con la mitad de la tasa para
codificarse con una tasa total. En una realización preferida el
umbral que se ajusta para efectuar este cambio es THR4. En la
realización ejemplar se almacena un histograma de los valores de
TSNR. En la realización ejemplar, los valores TMSNR almacenados se
cuantifican en valores de un número entero de decibelios a partir
del valor actual de THR4. Manteniendo un histograma de este tipo
puede estimarse fácilmente cuántas tramas habrían cambiado en el
bloque de análisis anterior de codificarse con tasa total a
codificarse con la mitad de la tasa si el THR4 se disminuyera un
número entero de decibelios. A la inversa, una estimación de cuántas
tramas codificadas con la mitad de la tasa se codificarían con la
tasa total si se aumentara el umbral un número entero de
decibelios.
La ecuación para determinar el número de tramas
que deberían cambiarse de tramas con 1/2 de la tasa a tramas con la
tasa total se determina por la ecuación:
donde
\Delta es el número de tramas codificadas con
la mitad de la tasa que deberían codificarse con tasa total con el
fin de conseguir la tasa objetivo, y
W = #R_{f} tramas + #R_{h} tramas + #R_{q}
tramas.
TMSNR_{NUEV} = TMSNR_{VIEJ} + (el número de
dB desde TMSNR_{VIEJ} para conseguir diferencias \Deltatrama
definidas en la ecuación 13 anterior).
Obsérvese que el valor inicial de TMSNR está en
función de la tasa objetivo deseada. En una realización ejemplar de
una tasa objetivo de 8,7 kbps, en un sistema con R_{f}=14,4 kbps,
R_{f}=7,2 kbps, R_{q}=3,6 kbps, el valor inicial de TMSNR es
10 dB. Debería observarse que cuantificar los valores TMSNR a
números enteros para la distancia desde el umbral THR4 puede
fácilmente afinarse más tal como a la mitad o un cuarto de los
decibelios o pueden afinarse menos tal como a uno y medio o dos
decibelios.
Se prevé que la tasa objetivo puede almacenarse
o bien en un elemento de memoria o elemento 14 de lógica de
determinación de la tasa, en cuyo caso la tasa objetivo sería un
valor estático según el cual el valor THR4 se determinaría
dinámicamente. Además, con esta tasa objetivo inicial, se prevé que
el sistema de comunicación pueda transmitir una señal de orden de
la tasa al aparato de selección de la tasa de codificación basándose
en las condiciones de capacidad actuales del sistema.
La señal de orden de la tasa podría o bien
especificar la tasa objetivo o simplemente solicitar un aumento o
un descenso en la tasa media. Si el sistema especificara la tasa
objetivo, esa tasa se utilizaría para determinar el valor de THR4
según las ecuaciones 12 y 13. Si el sistema especificara sólo que el
usuario debería transmitir sólo con una tasa de transmisión más
alta o más baja, entonces el elemento 14 de lógica de determinación
de la tasa puede responder cambiando el valor THR4 por un aumento
predeterminado o puede calcular un cambio incremental según un
aumento o un descenso incremental predeterminado en la tasa.
Los bloques 22 y 26 indican una diferencia en el
procedimiento de codificar habla basándose en si las muestras del
habla representan habla sonora o sorda. El habla sonora es habla en
la forma de fricativas y sonidos consonánticos tales como "f",
"s", "sh", "t" y "z". El habla sonora con un
cuarto de la tasa es habla temporalmente enmascarada donde una
trama del habla a bajo volumen sigue una trama del habla a volumen
relativamente alto de contenido de frecuencia similar. El oído
humano no puede escuchar los puntos finos del habla en la trama de
volumen bajo que sigue a tramas de volumen alto de modo que pueden
ahorrarse bits codificando esta habla en un cuarto de la tasa.
En la realización ejemplar de codificar habla
sorda con un cuarto de la tasa, una trama del habla se divide en
cuatro subtramas. Todo lo que se transmite para cada una de las
cuatro subtramas es un valor G de ganancia y los coeficientes
A(z) de filtro LPC. En la realización ejemplar, se transmiten
cinco bits para representar la ganancia en cada subtrama. En un
descodificador, para cada subtrama, se selecciona aleatoriamente un
índice del libro de códigos. El vector del libro de códigos
seleccionado aleatoriamente se multiplica por el valor de ganancia
transmitido y se pasa a través del filtro LPC, A(z), para
generar el habla sorda sintetizada.
En la codificación del habla sonora con un
cuarto de la tasa, una trama del habla se divide en dos subtramas y
el codificador CELP determina un índice y ganancia del libro de
códigos para cada una de las dos subtramas. En la realización
ejemplar, se asignan cinco bits para indicar un índice del libro de
códigos y otros cinco bits se asignan para especificar un valor de
ganancia correspondiente. En la realización ejemplar, el libro de
códigos utilizado para la codificación sonora con un cuarto de la
tasa es un subconjunto de los vectores del libro de códigos
utilizado para la codificación con la mitad y con la tasa total. En
la realización ejemplar, se utilizan siete bits para especificar un
índice del libro de códigos en los modos de codificación de la
mitad y la tasa total.
\newpage
En la figura 1, los bloques pueden implementarse
como bloques estructurales para realizar las funciones designadas o
los bloques pueden representar funciones realizadas en la
programación de un procesador de señal digital (DSP) o un circuito
integrado de aplicación específica ASIC. La descripción de la
funcionalidad de la presente invención permitiría a cualquier
experto implementar la presente invención en un DSP o un ASIC sin
excesiva experimentación.
La descripción anterior de las realizaciones
preferidas se proporciona para permitir a cualquier experto en la
técnica realizar o utilizar la presente invención. Las diversas
modificaciones de estas realizaciones será fácilmente evidente a
los expertos en la técnica, y los principios genéricos definidos en
el presente documento pueden aplicarse a otras realizaciones sin el
uso de la facultad inventiva. Por tanto, la presente invención no
pretende limitarse a las realizaciones mostradas en el presente
documento sino que se le otorga el alcance más amplio como se
define mediante las reivindicaciones adjuntas.
Claims (38)
1. Un aparato para seleccionar una tasa de
codificación a partir de un conjunto predeterminado de tasas de
codificación para codificar una trama de habla que incluye una
pluralidad de muestras del habla, que comprende:
medios (12) de medición de modo, sensibles a
dichas muestras del habla y a al menos una señal derivada de dichas
muestras del habla, para generar un conjunto de parámetros
indicativo de características de dicha trama del habla; y
medios de lógica (14) de determinación de la
tasa para recibir dicho conjunto de parámetros, para determinar la
importancia psicoacústica de dichas muestras del habla según dicho
conjunto de parámetros y para seleccionar una tasa de codificación
a partir de dicho conjunto predeterminado de tasas de codificación
según dicha importancia psicoacústica determinada utilizando reglas
de selección de la tasa predeterminadas.
2. El aparato según la reivindicación 1, en el
que dichas reglas de selección de la tasa seleccionan dicha tasa de
codificación que asigna un primer número de bits para la
codificación de dichas muestras del habla cuando se determina que
dichas muestras del habla son de mayor importancia psicoacústica y
en el que dichas reglas de selección de la tasa seleccionan dicha
tasa de codificación que asigna un segundo número de bits para la
codificación de dichas muestras del habla cuando se cuando se
determina que dichas muestras del habla son de menor importancia
psicoacústica y en el que dicho primer número de bits es mayor que
dicho segundo número de bits.
3. El aparato según la reivindicación 1 ó 2, en
el que dicho conjunto de parámetros incluye una relación (2) de
calidad de codificación indicativa de una correspondencia entre una
trama del habla anterior y el habla sintetizada derivada de la
misma.
4. El aparato según la reivindicación 1 ó 2, en
el que dicho conjunto de parámetros incluye una medición (4) de
autocorrelación normalizada indicativa de la periodicidad en dichas
muestras del habla.
5. El aparato según la reivindicación 1 ó 2, en
el que dicho conjunto de parámetros incluye una cuenta (6) de
cruces por cero indicativa de una presencia de componentes de alta
frecuencia en dicha trama del habla.
6. El aparato según la reivindicación 1 ó 2, en
el que dicho conjunto de parámetros incluye una medición (8) de
diferencial de ganancia de predicción indicativa de una estabilidad
de formantes trama a trama.
7. El aparato según la reivindicación 1 ó 2, en
el que dicho conjunto de parámetros incluye una medición (10) de
diferencial de energía de trama indicativa de cambios en la energía
entre la energía de dicha trama del habla y una energía media de
trama.
8. El aparato según la reivindicación 1 ó 2, en
el que dicho conjunto de parámetros incluye una medición (10) de
diferencial de energía de trama indicativa de cambios en la energía
entre la energía de dichas muestras del habla y la energía media de
trama y en el que cuando dicha medición (10) de diferencial de
energía de trama está por debajo de un umbral predeterminado,
dichos medios (14) de lógica de determinación de la tasa
seleccionan un modo de codificación de codificación (26) sonora de
un cuarto de la tasa.
9. El aparato según la reivindicación 1 ó 2, en
el que dicho conjunto de parámetros incluye una medición (4) de
autocorrelación normalizada indicativa de la periodicidad en dichas
muestras del habla y una cuenta (6) de cruces por cero indicativa
de una presencia de componentes de alta frecuencia en dicha trama
del habla y en el que cuando dicha medición (4) de autocorrelación
normalizada está por debajo de un primer umbral predeterminado y
dicha cuenta (6) de cruces por cero supera un segundo umbral
predeterminado, dichos medios (14) de lógica de determinación de
dicha tasa seleccionan un modo de codificación de codificación (22)
sorda de un cuarto de la tasa.
10. El aparato según la reivindicación 1 ó 2, en
el que dicho conjunto predeterminado de tasas de codificación
comprende tasa completa, mitad de la tasa y un cuarto de la
tasa.
11. El aparato según la reivindicación 1 ó 2, en
el que dicho conjunto de parámetros comprende una medición (4) de
autocorrelación normalizada indicativa de la periodicidad en dichas
muestras del habla, una relación (2) de calidad de codificación
indicativa de una correspondencia entre una trama del habla
anterior y el habla sintetizada derivada de la misma, y una medición
(8) de diferencial de ganancia de predicción indicativa de una
estabilidad trama a trama de un conjunto de parámetros formantes, y
en el que cuando dicha medición (4) de autocorrelación normalizada
supera un primer umbral predeterminado, dicho diferencial (8) de
ganancia de predicción está por debajo de un segundo umbral
predeterminado y dicha relación (2) de calidad de codificación
supera un tercer umbral predeterminado, dichos medios (14) de lógica
de determinación de la tasa seleccionan un modo de codificación de
codificación con la mitad de la tasa.
12. Un subsistema para cambiar dinámicamente la
tasa de transmisión de una trama del habla que transmite desde dicha
estación remota para un sistema de comunicación en el que dicha
estación remota se comunica con un centro de comunicación central,
comprendiendo dicho subsistema dicho aparato según la reivindicación
1, en el que: dichos medios (12) de medición de modo son sensibles
a dicha trama del habla y a una señal derivada de dicha trama del
habla, para generar dicho conjunto de parámetros indicativo de
características de dicha trama del habla; y dichos medios (14) de
lógica de determinación de la tasa están adaptados para recibir una
señal de orden de tasa para generar al menos un valor umbral según
dicha señal de orden de tasa, y comparar al menos un parámetro de
dicho conjunto de parámetros con dicho al menos un valor umbral y
seleccionar una tasa de codificación según dicha comparación.
13. El subsistema según la reivindicación 12, en
el que dicha tasa que asigna un primer número de bits se selecciona
para la codificación de dichas muestras del habla cuando se
determina que dichas muestras del habla son de mayor importancia
psicoacústica y en el que dicha tasa de codificación que asigna un
segundo número de bits se selecciona para la codificación de dichas
muestras del habla cuando se determina que dichas muestras del
habla son de menor importancia psicoacústica y en el que dicho
primer número de bits es mayor que dicho segundo número de
bits.
14. El aparato según la reivindicación 1, en el
que los medios de medición de modo comprenden un calculador de
medición de modo que genera un conjunto de parámetros indicativo de
características de dicha trama del habla según dichas muestras del
habla y una señal derivada de dichas muestras del habla; y en el
que la lógica de determinación de la tasa comprende una lógica (14)
de determinación de la tasa para recibir dicho conjunto de
parámetros, determinar la importancia psicoacústica de dichas
muestras del habla según dicho conjunto de parámetros, y seleccionar
una tasa de codificación a partir de dicho conjunto predeterminado
de tasas de codificación.
15. El aparato según la reivindicación 14, en el
que dicha tasa de codificación que asigna un primer número de bits
se selecciona para la codificación de dichas muestras del habla
cuando se determina que dichas muestras del habla son de mayor
importancia acústica y en el que dicha tasa de codificación que
asigna un segundo número de bits se selecciona para la codificación
de dichas muestras del habla cuando se determina que dichas muestras
del habla son de menor importancia psicoacústica y en el que dicho
primer número de bits es mayor que dicho segundo número de bits.
16. El aparato según la reivindicación 14 ó 15,
en el que dicho conjunto de parámetros incluye una relación (2) de
calidad de codificación indicativa de una correspondencia entre una
trama del habla anterior y el habla sintetizada derivada de la
misma.
17. El aparato según la reivindicación 14 ó 15,
en el que dicho conjunto de parámetros incluye una medición (4) de
autocorrelación normalizada indicativa de la periodicidad en dichas
muestras del habla.
18. El aparato según la reivindicación 14 ó 15,
en el que dicho conjunto de parámetros incluye una cuenta (6) de
cruces por cero indicativa de una presencia de componentes de alta
frecuencia en dicha trama del habla.
19. El aparato según la reivindicación 14 ó 15,
en el que dicho conjunto de parámetros incluye una medición (8) de
diferencial de ganancia de predicción indicativa de una estabilidad
de formantes trama a trama.
20. El aparato según la reivindicación 14 ó 15,
en el que dicho conjunto de parámetros incluye una medición (10) de
diferencial de energía de trama indicativa de cambios en la energía
entre la energía de dicha trama del habla y una energía media de
trama.
21. El aparato según la reivindicación 14 ó 15,
en el que dicho conjunto de parámetros comprende una medición (4) de
autocorrelación normalizada indicativa de la periodicidad en dichas
muestras del habla, una relación (2) de calidad de codificación
indicativa de una correspondencia entre una trama del habla anterior
y el habla sintetizada derivada de la misma, y una medición (8) de
diferencial de ganancia de predicción indicativa de una estabilidad
trama a trama de un conjunto de parámetros formantes, y en el que
cuando dicha medición (4) de autocorrelación normalizada supera un
primer umbral predeterminado, dicho diferencial (8) de ganancia de
predicción está por debajo de un segundo umbral predeterminado y
dicha relación (2) de calidad de codificación supera un tercer
umbral predeterminado, dicha lógica (14) de determinación de la
tasa selecciona un modo de codificación de la mitad de la tasa de
codificación (30).
22. El aparato según la reivindicación 16, en el
que dicho conjunto de parámetros incluye además una medición (4) de
autocorrelación normalizada indicativa de la periodicidad en dichas
muestras del habla y una cuenta (6) de cruces por cero indicativa
de una presencia de componentes de alta frecuencia en dicha trama
del habla y en el que cuando dicha medición (4) de autocorrelación
normalizada está por debajo de un primer umbral predeterminado y
dicha cuenta (6) de cruces por cero supera un segundo umbral
predeterminado, dicha lógica (14) de determinación de la tasa
selecciona un modo de codificación de codificación (22) sorda en
modo de un cuarto de la tasa.
23. El aparato según la reivindicación 16, en el
que dicho conjunto de parámetros incluye además una medición (10)
de diferencial de energía de trama indicativa de cambios en la
energía entre la energía de dichas muestras del habla y una energía
media de trama y en el que cuando dicha medición (10) de
diferencial de energía de trama está por debajo de un umbral
predeterminado, dichos medios de lógica (14) de determinación de la
tasa seleccionan un modo de codificación de codificación (26) sonora
con un cuarto de la tasa.
24. El aparato según la reivindicación 14 ó 15,
en el que dicho conjunto predeterminado de tasas de codificación
comprende tasa completa, mitad de la tasa y un cuarto de la
tasa.
25. El subsistema según la reivindicación 12,
para cambiar dinámicamente la tasa de transmisión de una trama del
habla que transmite desde dicha estación remota, en el que los
medios de medición de modo comprenden un calculador de medición de
modo que genera un conjunto de parámetros indicativo de
características de dicha trama del habla según dichas muestras del
habla y una señal derivada de dichas muestras del habla; y en el
que la lógica de determinación de la tasa comprende una lógica (14)
de determinación de la tasa que recibe dicho conjunto de parámetros
para determinar la importancia psicoacústica de dichas muestras del
habla según dicho conjunto de parámetros, y para recibir una señal
de orden de tasa para generar al menos un valor umbral según dicha
señal de orden de tasa, comparando al menos un parámetro de dicho
conjunto de parámetros con dicho al menos un valor umbral y
seleccionando una tasa de codificación según dicha comparación.
26. El subsistema según la reivindicación 25, en
el que dicha tasa de codificación que asigna un primer número de
bits se selecciona para la codificación de dichas muestras del habla
cuando se determina que dichas muestras del habla son de mayor
importancia psicoacústica y en el que dicha tasa de codificación
que asigna un segundo número de bits se selecciona para la
codificación de dichas muestras del habla cuando se determina que
dichas muestras del habla son de menor importancia psicoacústica y
en el que dicho primer número de bits es mayor que dicho segundo
número de bits.
27. Un procedimiento para seleccionar una tasa
de codificación de un conjunto predeterminado de tasas de
codificación para codificar una trama del habla que incluye una
pluralidad de muestras del habla, que comprende las etapas de:
generar un conjunto de parámetros indicativo de
características de dicha trama del habla según dichas muestras del
habla y una señal derivada de dichas muestras del habla; y
seleccionar una tasa de codificación de dicho
conjunto predeterminado de tasas de codificación, según una
importancia psicoacústica determinada de dichas muestras del habla,
determinándose a partir de dicho conjunto de parámetros.
28. El procedimiento según la reivindicación 27,
en el que dicha tasa de codificación que asigna un primer número de
bits se selecciona para la codificación de dichas muestras del habla
cuando se determina que dichas muestras del habla son de mayor
importancia psicoacústica y en el que la selección de dicha tasa de
codificación que asigna un segundo número de bits se selecciona
para la codificación de dichas muestras del habla cuando se
determina que dichas muestras del habla son de menor importancia
psicoacústica y en el que dicho primer número de bits es mayor que
dicho segundo número de bits.
29. El procedimiento según la reivindicación 27
ó 28, en el que dicho conjunto de parámetros incluye una relación
(2) de calidad de codificación indicativa de una correspondencia
entre una trama del habla anterior y el habla sintetizada derivada
de la misma.
30. El procedimiento según la reivindicación 27
ó 28, en el que dicho conjunto de parámetros incluye una medición
(4) de autocorrelación normalizada indicativa de la periodicidad en
dichas muestras del habla.
31. El procedimiento según la reivindicación 27
ó 28, en el que dicho conjunto de parámetros incluye una cuenta (6)
de cruces por cero indicativa de una presencia de componentes de
alta frecuencia en dicha trama del habla.
32. El procedimiento según la reivindicación 27
ó 28, en el que dicho conjunto de parámetros incluye una medición
(8) de diferencial de ganancia de predicción indicativa de una
estabilidad de formantes trama a trama.
33. El procedimiento según la reivindicación 27
ó 28, en el que dicho conjunto de parámetros incluye además una
medición (10) de diferencial de energía de trama indicativa de
cambios en la energía entre la energía de dicha trama del habla y
una energía media de trama. El procedimiento según la
reivindicación 27 ó 28, en el que dicho conjunto de parámetros
comprende una medición (4) de autocorrelación normalizada
indicativa de periodicidad en dichas muestras del habla, una
relación (2) de calidad de codificación indicativa de una
correspondencia entre una trama del habla anterior y el habla
sintetizada derivada de la misma, y una medición (8) de diferencial
de ganancia de predicción indicativa de una estabilidad trama a
trama de un conjunto de parámetros formantes, y en el que cuando
dicha medición (4) de autocorrelación normalizada supera un primer
umbral predeterminado, dicho diferencial (8) de ganancia de
predicción está por debajo de un segundo umbral predeterminado y
dicha relación (2) de calidad de codificación supera un tercer
umbral predeterminado, dicha etapa de seleccionar un modo de
codificación selecciona codificación (30) con la mitad de la
tasa.
35. El procedimiento según la reivindicación 27
ó 28, en el que dicho conjunto de parámetros incluye una medición
(4) de autocorrelación normalizada indicativa de la periodicidad en
dichas muestras del habla y una cuenta (6) de cruces por cero
indicativa de una presencia de componentes de alta frecuencia en
dicha trama del habla y en el que cuando dicha medición (4) de
autocorrelación normalizada está por debajo de un primer umbral
predeterminado y dicha cuenta (6) de cruces por cero supera un
segundo umbral predeterminado, dicha etapa de seleccionar un modo
de codificación selecciona codificación sorda con un cuarto de la
tasa.
36. El procedimiento según la reivindicación 27
ó 28, en el que dicho conjunto de parámetros incluye una medición
(10) de diferencial de energía de trama indicativa de cambios en la
energía entre la energía de dichas muestras del habla y una energía
media de trama y en el que cuando dicha medición (10) de diferencial
de energía de trama está por debajo de un umbral predeterminado,
dicha etapa de seleccionar un modo de codificación selecciona
codificación sonora con un cuarto de la tasa.
37. El procedimiento según la reivindicación 27
ó 28, en el que dicho conjunto predeterminado de tasas de
codificación comprende tasa completa, mitad de la tasa y un cuarto
de la tasa.
38. Un procedimiento según la reivindicación 27,
para cambiar dinámicamente la tasa de transmisión de una trama del
habla que se transmite desde dicha estación remota para un sistema
de comunicación en el que dicha estación remota se comunica con un
centro de comunicación central, comprendiendo dicho procedimiento
las etapas de:
generar un conjunto de parámetros indicativo de
características de dicha trama del habla según dicha trama del
habla y una señal derivada de dicha trama del habla, dicho conjunto
de parámetros para determinar la importancia psicoacústica de
dichas muestras del habla;
recibir una señal de orden de tasa;
generar al menos un valor umbral según dicha
señal de orden de tasa;
comparar al menos un parámetro de dicho conjunto
de parámetros con dicho al menos un valor umbral; y
seleccionar una tasa de codificación según dicha
comparación.
39. El procedimiento según la reivindicación 38,
en el que dicha tasa de codificación que asigna un primer número de
bits se selecciona para la codificación de dichas muestras del habla
cuando se determina que dichas muestras del habla son de mayor
importancia psicoacústica y en el que la selección de dicha tasa de
codificación que asigna un segundo número de bits se selecciona
para la codificación de dichas muestras del habla cuando se
determina que dichas muestras del habla son de menor importancia
psicoacústica y en el que dicho primer número de bits es mayor que
dicho segundo número de bits.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US28684294A | 1994-08-05 | 1994-08-05 | |
US286842 | 1994-08-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2299175T3 true ES2299175T3 (es) | 2008-05-16 |
Family
ID=23100400
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03005273T Expired - Lifetime ES2343948T3 (es) | 1994-08-05 | 1995-08-01 | Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. |
ES95928266T Expired - Lifetime ES2299175T3 (es) | 1994-08-05 | 1995-08-01 | Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03005273T Expired - Lifetime ES2343948T3 (es) | 1994-08-05 | 1995-08-01 | Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. |
Country Status (19)
Country | Link |
---|---|
US (3) | US5911128A (es) |
EP (2) | EP1339044B1 (es) |
JP (4) | JP3611858B2 (es) |
KR (1) | KR100399648B1 (es) |
CN (1) | CN1144180C (es) |
AT (2) | ATE470932T1 (es) |
AU (1) | AU689628B2 (es) |
BR (1) | BR9506307B1 (es) |
CA (1) | CA2172062C (es) |
DE (2) | DE69536082D1 (es) |
ES (2) | ES2343948T3 (es) |
FI (2) | FI120327B (es) |
HK (1) | HK1015184A1 (es) |
IL (1) | IL114819A (es) |
MY (3) | MY114777A (es) |
RU (1) | RU2146394C1 (es) |
TW (1) | TW271524B (es) |
WO (1) | WO1996004646A1 (es) |
ZA (1) | ZA956078B (es) |
Families Citing this family (152)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW271524B (es) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
EP0886927B1 (en) * | 1996-03-27 | 2006-06-07 | Motorola, Inc. | Method and apparatus for providing a multi-party speech connection for use in a wireless communication system |
US6765904B1 (en) | 1999-08-10 | 2004-07-20 | Texas Instruments Incorporated | Packet networks |
US7024355B2 (en) * | 1997-01-27 | 2006-04-04 | Nec Corporation | Speech coder/decoder |
US6104993A (en) * | 1997-02-26 | 2000-08-15 | Motorola, Inc. | Apparatus and method for rate determination in a communication system |
US6167375A (en) * | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
DE69831991T2 (de) * | 1997-03-25 | 2006-07-27 | Koninklijke Philips Electronics N.V. | Verfahren und Vorrichtung zur Sprachdetektion |
US6466912B1 (en) * | 1997-09-25 | 2002-10-15 | At&T Corp. | Perceptual coding of audio signals employing envelope uncertainty |
US6366704B1 (en) * | 1997-12-01 | 2002-04-02 | Sharp Laboratories Of America, Inc. | Method and apparatus for a delay-adaptive rate control scheme for the frame layer |
KR100269216B1 (ko) * | 1998-04-16 | 2000-10-16 | 윤종용 | 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법 |
US6912637B1 (en) * | 1998-07-08 | 2005-06-28 | Broadcom Corporation | Apparatus and method for managing memory in a network switch |
US6226618B1 (en) * | 1998-08-13 | 2001-05-01 | International Business Machines Corporation | Electronic content delivery system |
JP3893763B2 (ja) * | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
JP4308345B2 (ja) * | 1998-08-21 | 2009-08-05 | パナソニック株式会社 | マルチモード音声符号化装置及び復号化装置 |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6574334B1 (en) | 1998-09-25 | 2003-06-03 | Legerity, Inc. | Efficient dynamic energy thresholding in multiple-tone multiple frequency detectors |
US6711540B1 (en) * | 1998-09-25 | 2004-03-23 | Legerity, Inc. | Tone detector with noise detection and dynamic thresholding for robust performance |
JP3152217B2 (ja) * | 1998-10-09 | 2001-04-03 | 日本電気株式会社 | 有線伝送装置及び有線伝送方法 |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
KR100391935B1 (ko) * | 1998-12-28 | 2003-07-16 | 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. | 오디오 신호를 코딩 또는 디코딩하는 방법 및 디바이스 |
JP4503853B2 (ja) * | 1999-02-08 | 2010-07-14 | クゥアルコム・インコーポレイテッド | 可変率音声符号化に基づいた音声合成装置 |
US6226607B1 (en) * | 1999-02-08 | 2001-05-01 | Qualcomm Incorporated | Method and apparatus for eighth-rate random number generation for speech coders |
US6519259B1 (en) * | 1999-02-18 | 2003-02-11 | Avaya Technology Corp. | Methods and apparatus for improved transmission of voice information in packet-based communication systems |
US6260017B1 (en) * | 1999-05-07 | 2001-07-10 | Qualcomm Inc. | Multipulse interpolative coding of transition speech frames |
US6954727B1 (en) * | 1999-05-28 | 2005-10-11 | Koninklijke Philips Electronics N.V. | Reducing artifact generation in a vocoder |
US6766291B2 (en) * | 1999-06-18 | 2004-07-20 | Nortel Networks Limited | Method and apparatus for controlling the transition of an audio signal converter between two operative modes based on a certain characteristic of the audio input signal |
JP4438127B2 (ja) * | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
CN1196373C (zh) * | 1999-07-05 | 2005-04-06 | 诺基亚公司 | 选择编码方法的方法 |
IL141636A0 (en) * | 1999-07-08 | 2002-03-10 | Samsung Electronics Co Ltd | Data rate detection device and method for a mobile communication system |
US6397175B1 (en) | 1999-07-19 | 2002-05-28 | Qualcomm Incorporated | Method and apparatus for subsampling phase spectrum information |
US6330532B1 (en) | 1999-07-19 | 2001-12-11 | Qualcomm Incorporated | Method and apparatus for maintaining a target bit rate in a speech coder |
US6324503B1 (en) | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions |
US6393394B1 (en) | 1999-07-19 | 2002-05-21 | Qualcomm Incorporated | Method and apparatus for interleaving line spectral information quantization methods in a speech coder |
US6801499B1 (en) | 1999-08-10 | 2004-10-05 | Texas Instruments Incorporated | Diversity schemes for packet communications |
US6678267B1 (en) | 1999-08-10 | 2004-01-13 | Texas Instruments Incorporated | Wireless telephone with excitation reconstruction of lost packet |
US6804244B1 (en) | 1999-08-10 | 2004-10-12 | Texas Instruments Incorporated | Integrated circuits for packet communications |
US6801532B1 (en) | 1999-08-10 | 2004-10-05 | Texas Instruments Incorporated | Packet reconstruction processes for packet communications |
US6757256B1 (en) | 1999-08-10 | 2004-06-29 | Texas Instruments Incorporated | Process of sending packets of real-time information |
US6744757B1 (en) | 1999-08-10 | 2004-06-01 | Texas Instruments Incorporated | Private branch exchange systems for packet communications |
US6505152B1 (en) * | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
AU2003262451B2 (en) * | 1999-09-22 | 2006-01-19 | Macom Technology Solutions Holdings, Inc. | Multimode speech encoder |
US6574593B1 (en) * | 1999-09-22 | 2003-06-03 | Conexant Systems, Inc. | Codebook tables for encoding and decoding |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US7315815B1 (en) | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US6772126B1 (en) * | 1999-09-30 | 2004-08-03 | Motorola, Inc. | Method and apparatus for transferring low bit rate digital voice messages using incremental messages |
US6438518B1 (en) * | 1999-10-28 | 2002-08-20 | Qualcomm Incorporated | Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions |
US7574351B2 (en) * | 1999-12-14 | 2009-08-11 | Texas Instruments Incorporated | Arranging CELP information of one frame in a second packet |
US7058572B1 (en) * | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
US7127390B1 (en) * | 2000-02-08 | 2006-10-24 | Mindspeed Technologies, Inc. | Rate determination coding |
US6757301B1 (en) * | 2000-03-14 | 2004-06-29 | Cisco Technology, Inc. | Detection of ending of fax/modem communication between a telephone line and a network for switching router to compressed mode |
US6901362B1 (en) * | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
ATE420432T1 (de) * | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
US6584438B1 (en) | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
US6477502B1 (en) | 2000-08-22 | 2002-11-05 | Qualcomm Incorporated | Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system |
US6640208B1 (en) * | 2000-09-12 | 2003-10-28 | Motorola, Inc. | Voiced/unvoiced speech classifier |
DE60029453T2 (de) * | 2000-11-09 | 2007-04-12 | Koninklijke Kpn N.V. | Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US7505594B2 (en) * | 2000-12-19 | 2009-03-17 | Qualcomm Incorporated | Discontinuous transmission (DTX) controller system and method |
US6996523B1 (en) * | 2001-02-13 | 2006-02-07 | Hughes Electronics Corporation | Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system |
US7013269B1 (en) * | 2001-02-13 | 2006-03-14 | Hughes Electronics Corporation | Voicing measure for a speech CODEC system |
US7072908B2 (en) * | 2001-03-26 | 2006-07-04 | Microsoft Corporation | Methods and systems for synchronizing visualizations with audio streams |
US6658383B2 (en) | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
WO2003021573A1 (fr) * | 2001-08-31 | 2003-03-13 | Fujitsu Limited | Codec |
WO2003042648A1 (fr) * | 2001-11-16 | 2003-05-22 | Matsushita Electric Industrial Co., Ltd. | Codeur de signal vocal, decodeur de signal vocal, procede de codage de signal vocal et procede de decodage de signal vocal |
US6785645B2 (en) | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
US6647366B2 (en) * | 2001-12-28 | 2003-11-11 | Microsoft Corporation | Rate control strategies for speech and music coding |
US7321559B2 (en) * | 2002-06-28 | 2008-01-22 | Lucent Technologies Inc | System and method of noise reduction in receiving wireless transmission of packetized audio signals |
CA2392640A1 (en) * | 2002-07-05 | 2004-01-05 | Voiceage Corporation | A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems |
CN1703736A (zh) * | 2002-10-11 | 2005-11-30 | 诺基亚有限公司 | 用于源控制可变比特率宽带语音编码的方法和装置 |
US7657427B2 (en) | 2002-10-11 | 2010-02-02 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
FI20021936A (fi) * | 2002-10-31 | 2004-05-01 | Nokia Corp | Vaihtuvanopeuksinen puhekoodekki |
US7698132B2 (en) * | 2002-12-17 | 2010-04-13 | Qualcomm Incorporated | Sub-sampled excitation waveform codebooks |
GB0321093D0 (en) * | 2003-09-09 | 2003-10-08 | Nokia Corp | Multi-rate coding |
US7613606B2 (en) * | 2003-10-02 | 2009-11-03 | Nokia Corporation | Speech codecs |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
US20050091041A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
US7277031B1 (en) * | 2003-12-15 | 2007-10-02 | Marvell International Ltd. | 100Base-FX serializer/deserializer using 10000Base-X serializer/deserializer |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
US7412378B2 (en) * | 2004-04-01 | 2008-08-12 | International Business Machines Corporation | Method and system of dynamically adjusting a speech output rate to match a speech input rate |
EP1775718A4 (en) * | 2004-07-22 | 2008-05-07 | Fujitsu Ltd | AUDIOCODING DEVICE AND AUDIOCODING METHOD |
GB0416720D0 (en) * | 2004-07-27 | 2004-09-01 | British Telecomm | Method and system for voice over IP streaming optimisation |
WO2006041055A1 (ja) * | 2004-10-13 | 2006-04-20 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 |
US8102872B2 (en) * | 2005-02-01 | 2012-01-24 | Qualcomm Incorporated | Method for discontinuous transmission and accurate reproduction of background noise information |
US20060200368A1 (en) * | 2005-03-04 | 2006-09-07 | Health Capital Management, Inc. | Healthcare Coordination, Mentoring, and Coaching Services |
US20070160154A1 (en) * | 2005-03-28 | 2007-07-12 | Sukkar Rafid A | Method and apparatus for injecting comfort noise in a communications signal |
TWI279774B (en) * | 2005-04-14 | 2007-04-21 | Ind Tech Res Inst | Adaptive pulse allocation mechanism for multi-pulse CELP coder |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
US8743909B2 (en) * | 2008-02-20 | 2014-06-03 | Qualcomm Incorporated | Frame termination |
US8630602B2 (en) * | 2005-08-22 | 2014-01-14 | Qualcomm Incorporated | Pilot interference cancellation |
US9071344B2 (en) * | 2005-08-22 | 2015-06-30 | Qualcomm Incorporated | Reverse link interference cancellation |
US8594252B2 (en) * | 2005-08-22 | 2013-11-26 | Qualcomm Incorporated | Interference cancellation for wireless communications |
US9014152B2 (en) * | 2008-06-09 | 2015-04-21 | Qualcomm Incorporated | Increasing capacity in wireless communications |
US8611305B2 (en) * | 2005-08-22 | 2013-12-17 | Qualcomm Incorporated | Interference cancellation for wireless communications |
KR101019936B1 (ko) | 2005-12-02 | 2011-03-09 | 퀄컴 인코포레이티드 | 음성 파형의 정렬을 위한 시스템, 방법, 및 장치 |
US8219392B2 (en) | 2005-12-05 | 2012-07-10 | Qualcomm Incorporated | Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
KR100770895B1 (ko) * | 2006-03-18 | 2007-10-26 | 삼성전자주식회사 | 음성 신호 분리 시스템 및 그 방법 |
US8920343B2 (en) | 2006-03-23 | 2014-12-30 | Michael Edward Sabatino | Apparatus for acquiring and processing of physiological auditory signals |
EP2092517B1 (en) * | 2006-10-10 | 2012-07-18 | QUALCOMM Incorporated | Method and apparatus for encoding and decoding audio signals |
JP4918841B2 (ja) * | 2006-10-23 | 2012-04-18 | 富士通株式会社 | 符号化システム |
DE602006015328D1 (de) * | 2006-11-03 | 2010-08-19 | Psytechnics Ltd | Abtastfehlerkompensation |
US20080120098A1 (en) * | 2006-11-21 | 2008-05-22 | Nokia Corporation | Complexity Adjustment for a Signal Encoder |
JP5171842B2 (ja) | 2006-12-12 | 2013-03-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 時間領域データストリームを表している符号化および復号化のための符号器、復号器およびその方法 |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
CN101217037B (zh) * | 2007-01-05 | 2011-09-14 | 华为技术有限公司 | 对音频信号的编码速率进行源控的方法和系统 |
US8553757B2 (en) * | 2007-02-14 | 2013-10-08 | Microsoft Corporation | Forward error correction for media transmission |
JP2008263543A (ja) * | 2007-04-13 | 2008-10-30 | Funai Electric Co Ltd | 記録再生装置 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
KR101403340B1 (ko) * | 2007-08-02 | 2014-06-09 | 삼성전자주식회사 | 변환 부호화 방법 및 장치 |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
CN101889306A (zh) | 2007-10-15 | 2010-11-17 | Lg电子株式会社 | 用于处理信号的方法和装置 |
US8326617B2 (en) * | 2007-10-24 | 2012-12-04 | Qnx Software Systems Limited | Speech enhancement with minimum gating |
US8015002B2 (en) | 2007-10-24 | 2011-09-06 | Qnx Software Systems Co. | Dynamic noise reduction using linear model fitting |
US8606566B2 (en) * | 2007-10-24 | 2013-12-10 | Qnx Software Systems Limited | Speech enhancement through partial speech reconstruction |
US9237515B2 (en) | 2008-08-01 | 2016-01-12 | Qualcomm Incorporated | Successive detection and cancellation for cell pilot detection |
US9277487B2 (en) | 2008-08-01 | 2016-03-01 | Qualcomm Incorporated | Cell detection with interference cancellation |
KR101797033B1 (ko) | 2008-12-05 | 2017-11-14 | 삼성전자주식회사 | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 |
EP2237269B1 (en) | 2009-04-01 | 2013-02-20 | Motorola Mobility LLC | Apparatus and method for processing an encoded audio data signal |
US9160577B2 (en) * | 2009-04-30 | 2015-10-13 | Qualcomm Incorporated | Hybrid SAIC receiver |
CN101615910B (zh) * | 2009-05-31 | 2010-12-22 | 华为技术有限公司 | 压缩编码的方法、装置和设备以及压缩解码方法 |
US8787509B2 (en) | 2009-06-04 | 2014-07-22 | Qualcomm Incorporated | Iterative interference cancellation receiver |
CN102483926B (zh) | 2009-07-27 | 2013-07-24 | Scti控股公司 | 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法 |
US9269366B2 (en) * | 2009-08-03 | 2016-02-23 | Broadcom Corporation | Hybrid instantaneous/differential pitch period coding |
US8831149B2 (en) | 2009-09-03 | 2014-09-09 | Qualcomm Incorporated | Symbol estimation methods and apparatuses |
CN102668612B (zh) | 2009-11-27 | 2016-03-02 | 高通股份有限公司 | 增加无线通信中的容量 |
US9673837B2 (en) | 2009-11-27 | 2017-06-06 | Qualcomm Incorporated | Increasing capacity in wireless communications |
US9236063B2 (en) * | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
TWI759223B (zh) * | 2010-12-03 | 2022-03-21 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
KR20120116137A (ko) * | 2011-04-12 | 2012-10-22 | 한국전자통신연구원 | 음성 통신 장치 및 그 방법 |
TWI606441B (zh) | 2011-05-13 | 2017-11-21 | 三星電子股份有限公司 | 解碼裝置 |
US8990074B2 (en) * | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
JP6265903B2 (ja) * | 2011-10-19 | 2018-01-24 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 信号雑音減衰 |
US9047863B2 (en) * | 2012-01-12 | 2015-06-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for criticality threshold control |
US9263054B2 (en) * | 2013-02-21 | 2016-02-16 | Qualcomm Incorporated | Systems and methods for controlling an average encoding rate for speech signal encoding |
US9570095B1 (en) * | 2014-01-17 | 2017-02-14 | Marvell International Ltd. | Systems and methods for instantaneous noise estimation |
US9793879B2 (en) * | 2014-09-17 | 2017-10-17 | Avnera Corporation | Rate convertor |
US10061554B2 (en) * | 2015-03-10 | 2018-08-28 | GM Global Technology Operations LLC | Adjusting audio sampling used with wideband audio |
JP2017009663A (ja) * | 2015-06-17 | 2017-01-12 | ソニー株式会社 | 録音装置、録音システム、および、録音方法 |
US10269375B2 (en) * | 2016-04-22 | 2019-04-23 | Conduent Business Services, Llc | Methods and systems for classifying audio segments of an audio signal |
CN113314133A (zh) * | 2020-02-11 | 2021-08-27 | 华为技术有限公司 | 音频传输方法及电子设备 |
CN112767953B (zh) * | 2020-06-24 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 语音编码方法、装置、计算机设备和存储介质 |
Family Cites Families (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US32580A (en) * | 1861-06-18 | Water-elevatok | ||
US3633107A (en) * | 1970-06-04 | 1972-01-04 | Bell Telephone Labor Inc | Adaptive signal processor for diversity radio receivers |
JPS5017711A (es) * | 1973-06-15 | 1975-02-25 | ||
US4076958A (en) * | 1976-09-13 | 1978-02-28 | E-Systems, Inc. | Signal synthesizer spectrum contour scaler |
US4214125A (en) * | 1977-01-21 | 1980-07-22 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
CA1123955A (en) * | 1978-03-30 | 1982-05-18 | Tetsu Taguchi | Speech analysis and synthesis apparatus |
DE3023375C1 (es) * | 1980-06-23 | 1987-12-03 | Siemens Ag, 1000 Berlin Und 8000 Muenchen, De | |
US4379949A (en) * | 1981-08-10 | 1983-04-12 | Motorola, Inc. | Method of and means for variable-rate coding of LPC parameters |
DE3266204D1 (en) * | 1981-09-24 | 1985-10-17 | Gretag Ag | Method and apparatus for redundancy-reducing digital speech processing |
USRE32580E (en) | 1981-12-01 | 1988-01-19 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech coder |
JPS6011360B2 (ja) * | 1981-12-15 | 1985-03-25 | ケイディディ株式会社 | 音声符号化方式 |
US4535472A (en) * | 1982-11-05 | 1985-08-13 | At&T Bell Laboratories | Adaptive bit allocator |
DE3276651D1 (en) * | 1982-11-26 | 1987-07-30 | Ibm | Speech signal coding method and apparatus |
EP0127718B1 (fr) * | 1983-06-07 | 1987-03-18 | International Business Machines Corporation | Procédé de détection d'activité dans un système de transmission de la voix |
US4672670A (en) * | 1983-07-26 | 1987-06-09 | Advanced Micro Devices, Inc. | Apparatus and methods for coding, decoding, analyzing and synthesizing a signal |
EP0163829B1 (en) * | 1984-03-21 | 1989-08-23 | Nippon Telegraph And Telephone Corporation | Speech signal processing system |
US4856068A (en) * | 1985-03-18 | 1989-08-08 | Massachusetts Institute Of Technology | Audio pre-processing methods and apparatus |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
CA1299750C (en) * | 1986-01-03 | 1992-04-28 | Ira Alan Gerson | Optimal method of data reduction in a speech recognition system |
US4797929A (en) * | 1986-01-03 | 1989-01-10 | Motorola, Inc. | Word recognition in a speech recognition system using data reduced word templates |
US4899384A (en) * | 1986-08-25 | 1990-02-06 | Ibm Corporation | Table controlled dynamic bit allocation in a variable rate sub-band speech coder |
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
US4797925A (en) * | 1986-09-26 | 1989-01-10 | Bell Communications Research, Inc. | Method for coding speech at low bit rates |
US4903301A (en) * | 1987-02-27 | 1990-02-20 | Hitachi, Ltd. | Method and system for transmitting variable rate speech signal |
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
US4868867A (en) * | 1987-04-06 | 1989-09-19 | Voicecraft Inc. | Vector excitation speech or audio coder for transmission or storage |
NL8700985A (nl) * | 1987-04-27 | 1988-11-16 | Philips Nv | Systeem voor sub-band codering van een digitaal audiosignaal. |
US4890327A (en) * | 1987-06-03 | 1989-12-26 | Itt Corporation | Multi-rate digital voice coder apparatus |
US4899385A (en) * | 1987-06-26 | 1990-02-06 | American Telephone And Telegraph Company | Code excited linear predictive vocoder |
CA1337217C (en) * | 1987-08-28 | 1995-10-03 | Daniel Kenneth Freeman | Speech coding |
US4852179A (en) * | 1987-10-05 | 1989-07-25 | Motorola, Inc. | Variable frame rate, fixed bit rate vocoding method |
US4817157A (en) * | 1988-01-07 | 1989-03-28 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
EP0331858B1 (en) * | 1988-03-08 | 1993-08-25 | International Business Machines Corporation | Multi-rate voice encoding method and device |
EP0331857B1 (en) * | 1988-03-08 | 1992-05-20 | International Business Machines Corporation | Improved low bit rate voice coding method and system |
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
US4864561A (en) * | 1988-06-20 | 1989-09-05 | American Telephone And Telegraph Company | Technique for improved subjective performance in a communication system using attenuated noise-fill |
US5077798A (en) * | 1988-09-28 | 1991-12-31 | Hitachi, Ltd. | Method and system for voice coding based on vector quantization |
JP3033060B2 (ja) * | 1988-12-22 | 2000-04-17 | 国際電信電話株式会社 | 音声予測符号化・復号化方式 |
US5222189A (en) * | 1989-01-27 | 1993-06-22 | Dolby Laboratories Licensing Corporation | Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio |
EP0392126B1 (en) * | 1989-04-11 | 1994-07-20 | International Business Machines Corporation | Fast pitch tracking process for LTP-based speech coders |
US5060269A (en) * | 1989-05-18 | 1991-10-22 | General Electric Company | Hybrid switched multi-pulse/stochastic speech coding technique |
GB2235354A (en) * | 1989-08-16 | 1991-02-27 | Philips Electronic Associated | Speech coding/encoding using celp |
JPH03181232A (ja) * | 1989-12-11 | 1991-08-07 | Toshiba Corp | 可変レート符号化方式 |
US5103459B1 (en) * | 1990-06-25 | 1999-07-06 | Qualcomm Inc | System and method for generating signal waveforms in a cdma cellular telephone system |
US5127053A (en) * | 1990-12-24 | 1992-06-30 | General Electric Company | Low-complexity method for improving the performance of autocorrelation-based pitch detectors |
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
US5187745A (en) * | 1991-06-27 | 1993-02-16 | Motorola, Inc. | Efficient codebook search for CELP vocoders |
DE69232202T2 (de) * | 1991-06-11 | 2002-07-25 | Qualcomm, Inc. | Vocoder mit veraendlicher bitrate |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
JPH0580799A (ja) * | 1991-09-19 | 1993-04-02 | Fujitsu Ltd | 可変レート音声符号化器 |
JP3327936B2 (ja) * | 1991-09-25 | 2002-09-24 | 日本放送協会 | 話速制御型補聴装置 |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5513297A (en) * | 1992-07-10 | 1996-04-30 | At&T Corp. | Selective application of speech coding techniques to input signal segments |
US5341456A (en) * | 1992-12-02 | 1994-08-23 | Qualcomm Incorporated | Method for determining speech encoding rate in a variable rate vocoder |
US5774496A (en) * | 1994-04-26 | 1998-06-30 | Qualcomm Incorporated | Method and apparatus for determining data rate of transmitted variable rate data in a communications receiver |
TW271524B (es) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US6122384A (en) * | 1997-09-02 | 2000-09-19 | Qualcomm Inc. | Noise suppression system and method |
US5974079A (en) * | 1998-01-26 | 1999-10-26 | Motorola, Inc. | Method and apparatus for encoding rate determination in a communication system |
US6233549B1 (en) * | 1998-11-23 | 2001-05-15 | Qualcomm, Inc. | Low frequency spectral enhancement system and method |
-
1995
- 1995-07-08 TW TW084107077A patent/TW271524B/zh not_active IP Right Cessation
- 1995-07-20 ZA ZA956078A patent/ZA956078B/xx unknown
- 1995-07-31 MY MYPI95002226A patent/MY114777A/en unknown
- 1995-07-31 MY MYPI20070660A patent/MY137264A/en unknown
- 1995-07-31 MY MYPI20021851A patent/MY129887A/en unknown
- 1995-08-01 EP EP03005273A patent/EP1339044B1/en not_active Expired - Lifetime
- 1995-08-01 ES ES03005273T patent/ES2343948T3/es not_active Expired - Lifetime
- 1995-08-01 CN CNB951907239A patent/CN1144180C/zh not_active Expired - Lifetime
- 1995-08-01 CA CA2172062A patent/CA2172062C/en not_active Expired - Lifetime
- 1995-08-01 AT AT03005273T patent/ATE470932T1/de not_active IP Right Cessation
- 1995-08-01 AU AU32095/95A patent/AU689628B2/en not_active Expired
- 1995-08-01 AT AT95928266T patent/ATE388464T1/de not_active IP Right Cessation
- 1995-08-01 RU RU96110286A patent/RU2146394C1/ru active
- 1995-08-01 EP EP95928266A patent/EP0722603B1/en not_active Expired - Lifetime
- 1995-08-01 JP JP50672896A patent/JP3611858B2/ja not_active Expired - Lifetime
- 1995-08-01 WO PCT/US1995/009780 patent/WO1996004646A1/en active Application Filing
- 1995-08-01 DE DE69536082T patent/DE69536082D1/de not_active Expired - Lifetime
- 1995-08-01 DE DE69535723T patent/DE69535723T2/de not_active Expired - Lifetime
- 1995-08-01 KR KR1019960701753A patent/KR100399648B1/ko not_active IP Right Cessation
- 1995-08-01 ES ES95928266T patent/ES2299175T3/es not_active Expired - Lifetime
- 1995-08-01 BR BRPI9506307-2A patent/BR9506307B1/pt not_active IP Right Cessation
- 1995-08-03 IL IL11481995A patent/IL114819A/xx not_active IP Right Cessation
-
1996
- 1996-03-29 FI FI961445A patent/FI120327B/fi not_active IP Right Cessation
-
1997
- 1997-03-11 US US08/815,354 patent/US5911128A/en not_active Expired - Lifetime
-
1998
- 1998-12-28 HK HK98116180A patent/HK1015184A1/xx not_active IP Right Cessation
-
1999
- 1999-02-12 US US09/252,595 patent/US6240387B1/en not_active Expired - Lifetime
-
2001
- 2001-04-12 US US09/835,258 patent/US6484138B2/en not_active Expired - Lifetime
-
2004
- 2004-07-27 JP JP2004219254A patent/JP4444749B2/ja not_active Expired - Lifetime
-
2007
- 2007-08-24 FI FI20070642A patent/FI122726B/fi not_active IP Right Cessation
-
2008
- 2008-02-14 JP JP2008033680A patent/JP4778010B2/ja not_active Expired - Lifetime
-
2009
- 2009-11-18 JP JP2009262773A patent/JP4851578B2/ja not_active Expired - Lifetime
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2299175T3 (es) | Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. | |
ES2288950T3 (es) | Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable. | |
ES2361154T3 (es) | Procedimiento para la interoperación entre codecs de la voz de banda ancha tasa múltiple adaptativo (amr-wr) y de banda ancha, tasa de bits variable modo múltiple (vmr-wb). | |
ES2206667T3 (es) | Procedimiento para generar ruido de bienestar durante una transmision discontinua. | |
ES2225321T3 (es) | Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos. | |
US5812965A (en) | Process and device for creating comfort noise in a digital speech transmission system | |
EP1337999B1 (en) | Method and system for comfort noise generation in speech communication | |
EP0848374B1 (en) | A method and a device for speech encoding | |
EP0786760A2 (en) | Speech coding | |
US8190440B2 (en) | Sub-band codec with native voice activity detection | |
ES2274812T3 (es) | Codificador predictivo de voz usando pautas de seleccion de esquemas de codificacion para reducir la sensilibidad de errores de trama. | |
Gardner et al. | QCELP: A variable rate speech coder for CDMA digital cellular | |
Gersho et al. | An overview of variable rate speech coding for cellular networks | |
Gersho et al. | Variable rate speech coding for cellular networks | |
KR20010087393A (ko) | 폐루프 가변-레이트 다중모드 예측 음성 코더 | |
CA2671881C (en) | Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate |