ES2302754T3 - Procedimiento y aparato para codificacion de habla sorda. - Google Patents
Procedimiento y aparato para codificacion de habla sorda. Download PDFInfo
- Publication number
- ES2302754T3 ES2302754T3 ES01981837T ES01981837T ES2302754T3 ES 2302754 T3 ES2302754 T3 ES 2302754T3 ES 01981837 T ES01981837 T ES 01981837T ES 01981837 T ES01981837 T ES 01981837T ES 2302754 T3 ES2302754 T3 ES 2302754T3
- Authority
- ES
- Spain
- Prior art keywords
- subframe
- random
- scale
- earnings
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 206010011878 Deafness Diseases 0.000 claims abstract description 66
- 238000001914 filtration Methods 0.000 claims abstract description 42
- 238000010606 normalization Methods 0.000 claims description 17
- 238000007493 shaping process Methods 0.000 claims description 15
- 238000011002 quantification Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 description 29
- 230000008569 process Effects 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 231100000895 deafness Toxicity 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- VJYFKVYYMZPMAB-UHFFFAOYSA-N ethoprophos Chemical compound CCCSP(=O)(OCC)SCCC VJYFKVYYMZPMAB-UHFFFAOYSA-N 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000706 filtrate Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Abstract
Un procedimiento de codificación de segmentos del habla sordos, que comprende: dividir (506) una trama de señal residual en subtramas, presentando cada subtrama una ganancia de libro de código calculada con la misma; cuantificar (516) las ganancias para producir índices; ajustar a escala (520) un porcentaje de ruido aleatorio, correspondiente a los números aleatorios de mayor amplitud, asociado con cada subtrama por los índices asociados con la subtrama; realizar (522) un primer filtrado del ruido aleatorio ajustado a escala; calcular la energía del ruido aleatorio ajustado a escala filtrado y la energía de la señal residual; comparar (528) la energía del ruido aleatorio ajustado a escala filtrado con la energía de la señal residual; seleccionar (528) un segundo filtro basándose en la comparación; y realizar (528) un segundo filtrado del ruido aleatorio ajustado a escala filtrado utilizando el segundo filtro seleccionado.
Description
Procedimiento y aparato para codificación de
habla sorda.
Las realizaciones dadas a conocer se refieren al
campo del procesamiento del habla. Más en particular, las
realizaciones dadas a conocer se refieren a un procedimiento y un
aparato novedosos y mejorados para codificación de baja tasa de
transmisión de bits de segmentos sordos del habla.
La transmisión de voz mediante técnicas
digitales se ha generalizado, en particular en aplicaciones
telefónicas de radio digital y larga distancia. Esto, a su vez, ha
creado interés en determinar la mínima cantidad de información que
puede enviarse a través de un canal mientras se mantiene la calidad
percibida del habla reconstruida. Si el habla se transmite
simplemente muestreando y digitalizando, se requiere una tasa de
transmisión de datos del orden de sesenta y cuatro kilobits por
segundo (kbps) para conseguir la calidad del habla del teléfono
analógico convencional. Sin embardo, mediante el uso del análisis
del habla, seguido por la codificación, transmisión y resíntesis
apropiadas en el receptor, puede conseguirse una reducción
significativa en la tasa de transmisión de datos.
Los dispositivos que emplean técnicas para
comprimir el habla extrayendo parámetros que se refieren a un modelo
de generación del habla humana se denominan codificadores del
habla. Un codificador del habla divide la señal de habla entrante
en bloques de tiempo, o tramas de análisis. Los codificadores del
habla comprenden normalmente un codificador y un descodificador, o
un códec. El codificador analiza la trama de habla entrante para
extraer ciertos parámetros pertinentes, y entonces cuantifica los
parámetros en una representación binaria, es decir, en un conjunto
de bits o un paquete de datos binarios. Los paquetes de datos se
transmiten a través del canal de comunicación a un receptor y un
descodificador. El descodificador procesa los paquetes de datos, los
descuantifica para producir los parámetros, y entonces resintetiza
las tramas de habla utilizando los parámetros descuantificados.
La función del codificador del habla es
comprimir la señal de habla digitalizada en una señal de baja tasa
de transmisión de bits eliminando todas las redundancias naturales
intrínsecas del habla. La compresión digital se consigue
representando la trama de habla de entrada con un conjunto de
parámetros y empleando cuantificación para representar los
parámetros con un conjunto de bits. Si la trama de habla de entrada
tiene un número de bits N_{1} y el paquete de datos producido por
el codificador del habla tiene un número de bits N_{0}, el factor
de compresión conseguido por el codificador del habla es C_{r} =
N_{1}/N_{0}. El reto es mantener una alta calidad de voz del
habla descodificada mientras se consigue el factor de compresión
objetivo. El rendimiento de un codificador del habla depende de (1)
cómo de bien se realice el modelo del habla, o la combinación del
proceso de análisis y síntesis descrito anteriormente, y (2) cómo de
bien se realice el proceso de cuantificación de parámetros a la
tasa de transmisión de bits objetivo de N_{0} bits por trama. Por
tanto, el objetivo del modelo del habla es capturar la esencia de
la señal de habla, o la calidad de voz objetivo, con un pequeño
conjunto de parámetros para cada trama.
Los codificadores del habla pueden implementarse
como codificadores en el dominio del tiempo, que intentan capturar
la forma de onda del habla en el dominio del tiempo empleando
procesamiento de alta resolución en el tiempo para codificar
pequeños segmentos del habla (normalmente subtramas de 5
milisegundos (ms)) cada vez. Para cada subtrama, se encuentra una
alta precisión representativa de un espacio de libro de código por
medio de diversos algoritmos de búsqueda conocidos en la técnica.
Como alternativa, los codificadores del habla pueden implementarse
como codificadores en el domino de la frecuencia, que intentan
capturar el espectro del habla a corto plazo de la trama de habla
de entrada con un conjunto de parámetros (análisis) y emplean un
proceso de síntesis correspondiente para recrear la forma de onda
del habla a partir de los parámetros espectrales. El cuantificador
de parámetros conserva los parámetros representándolos con
representaciones almacenadas de vectores de código según técnicas
de cuantificación conocidas descritas en A. Gersho & R.M. Gray,
Vector Quantization and Signal Compression (1992).
Un codificador del habla en el dominio del
tiempo ampliamente conocido es el codificador predictivo lineal
excitado por código (CELP) descrito en L.B. Rabiner & R.W.
Schafer, Digital Processing of Speech Signals
396-453 (1978). En un codificador CELP, las
correlaciones a corto plazo, o redundancias, en la señal de habla se
eliminan mediante un análisis de predicción lineal (LP), que
encuentra los coeficientes de un filtro formante a corto plazo.
Aplicar el filtro de predicción a corto plazo a la trama de habla
entrante genera una señal de residuo LP, que se modela y cuantifica
adicionalmente con parámetros de filtro de predicción a largo plazo
y un libro de código estocástico posterior. Por tanto, la
codificación CELP divide la tarea de codificar la forma de onda del
habla en el dominio del tiempo en las tareas separadas de
codificación de los coeficientes de filtro a corto plazo LP y
codificar el residuo LP. La codificación en el dominio del tiempo
puede realizarse a una tasa fija (es decir, utilizando el mismo
número de bits, N_{0}, para cada trama) o a una tasa variable (en
la que se utilizan diferentes tasas de transmisión de bits para
diferentes tipos de contenidos de trama). Los codificadores de tasa
variable intentan utilizar sólo la cantidad de bits necesaria para
codificar los parámetros de códec a un nivel adecuado para obtener
una calidad objetivo. Un codificador CELP de tasa variable ejemplar
se describe en la patente estadounidense nº 5.414.796, que está
transferida al cesionario de las realizaciones dadas a conocer
actualmente.
Los codificadores en el dominio del tiempo tales
como el codificador CELP se basan normalmente en un alto número de
bits, N_{0}, por trama para conservar la precisión de la forma de
onda del habla en el dominio del tiempo. Normalmente tales
codificadores proporcionan una calidad de voz excelente dado el
número de bits, N_{0}, por trama relativamente grande (por
ejemplo, 8 kbps o superior). Sin embargo, a bajas tasas de
transmisión de bits (4 kbps e inferiores), los codificadores en el
dominio del tiempo no conservan la alta calidad y el rendimiento
robusto debido al número limitado de bits disponibles. A bajas tasas
de transmisión de bits, el espacio de libro de código limitado
recorta la capacidad de ajuste de forma de onda de codificadores en
el dominio del tiempo convencionales, que se utilizan tan
satisfactoriamente en aplicaciones comerciales de tasa
superior.
Normalmente, los esquemas CELP emplean un filtro
de predicción a corto plazo (STP) y un filtro de predicción a largo
plazo (LTP). Se emplea un enfoque de análisis por síntesis (AbS) en
un codificador para encontrar los retardos y ganancias LTP, así
como los mejores índices y ganancias de libro de código estocástico.
Los codificadores CELP del estado de la técnica actual tales como
el codificador de tasa variable mejorada (EVRC) pueden conseguir
habla sintetizada de buena calidad a una tasa de transmisión de
datos de aproximadamente 8 kilobits por segundo.
También se conoce que el habla sorda no muestra
periodicidad. El ancho de banda consumido que codifica el filtro
LTP en los esquemas CELP convencionales no se utiliza tan
eficazmente para habla sorda como para habla sonora, en la que la
periodicidad del habla es fuerte y el filtrado LTP es significativo.
Por lo tanto, es deseable un esquema de codificación más eficaz (es
decir tasa de transmisión de bits inferior) para habla sorda.
Para codificar a tasas de transmisión de bits
inferiores, se han desarrollado diversos procedimientos de
codificación espectral del habla, o en el dominio de la frecuencia,
en los que la señal de habla se analiza como una evolución variable
en el tiempo de espectros. Véase, por ejemplo, R.J. McAulay &
T.F. Quatieri, Sinusoidal, Coding, in Speech Coding and Synthesis
ch. 4 (W.B. Kleijn & K.K. Paliwal eds., 1995). En codificadores
espectrales, el objetivo es modelar, o predecir, el espectro del
habla a corto plazo de cada trama de entrada de habla con un
conjunto de parámetros espectrales, en lugar de imitar con precisión
la forma de onda del habla variable en el tiempo. Entonces se
codifican los parámetros espectrales y se crea una trama de habla de
salida con los parámetros descodificados. El habla resultante
sintetizada no coincide con la forma de onda del habla de entrada
original, aunque ofrece una calidad percibida similar. Ejemplos de
codificadores en el dominio de la frecuencia que son bien conocidos
en la técnica incluyen codificadores de excitación multibanda (MBE),
codificadores de transformación sinusoidal (STC) y codificadores de
armónicos (HC). Tales codificadores en el dominio de la frecuencia
ofrecen un modelo paramétrico de alta calidad que presenta un
conjunto de parámetros compacto que puede cuantificarse con
precisión con el bajo número de bits disponibles a bajas tasas de
transmisión de bits.
Sin embargo, la codificación a baja tasa de
transmisión de bits impone la limitación crítica de una resolución
de codificación limitada, o un espacio de libro de código limitado,
que limita la efectividad de un único mecanismo de codificación,
haciendo que el codificador no pueda representar diversos tipos de
segmentos del habla bajo diversas condiciones de fondo con igual
precisión. Por ejemplo, los codificadores en el dominio de la
frecuencia, de baja tasa de transmisión de bits, convencionales no
transmiten información de fase para tramas del habla. En su lugar,
la información de fase se reconstruye utilizando un valor de fase
inicial, aleatorio, generado artificialmente y técnicas de
interpolación lineal. Véase, por ejemplo, H. Yang et al.,
Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE
Model, in 29 Electronic Letters 856-57 (mayo de
1993). Debido a que la información de fase se genera
artificialmente, incluso aunque las amplitudes de las senoides se
conserven perfectamente mediante el proceso de
cuantificación-descuantificación, el habla de
salida producida por el codificador en el dominio de la frecuencia
no estará alineada con el habla de entrada original (es decir, los
pulsos principales no estará en sincronización). Por lo tanto ha
resultado difícil adoptar cualquier medida de rendimiento en bucle
cerrado, tal como, por ejemplo, relación señal-ruido
(SNR) o SNR perceptiva, en codificadores en el dominio de la
frecuencia.
Una técnica efectiva para codificar habla
eficazmente a baja tasa de transmisión de bits es la codificación
multimodo. Se han empleado técnicas de codificación multimodo para
realizar codificación del habla a baja tasa conjuntamente con un
proceso de decisión de modo de bucle abierto. Una técnica de
codificación multimodo de este tipo se describe en Arnitava Das
et al., Multimode and Variable-Rate Coding of
Speech, in Speech Coding and Synthesis ch. 7 (W.B. Kleijn &
K.K. Paliwal eds., 1995). Los codificadores multimodo convencionales
aplican diferentes modos, o algoritmos de
codificación-descodificación, a diferentes tipos de
tramas de habla de entrada. Cada modo, o proceso de
codificación-descodificación, se adapta para
representar un cierto tipo de segmento del habla, tal como, por
ejemplo, habla sonora, habla sorda, o ruido de fondo (no habla) de
la manera más eficaz. Un mecanismo de decisión de modo de bucle
abierto examina la trama de habla de entrada y toma una decisión
con respecto a qué modo aplicar a la trama. La decisión de modo de
bucle abierto normalmente se realiza extrayendo un número de
parámetros de la trama de entrada, evaluando los parámetros para
ciertas características temporales y espectrales, y basando una
decisión de modo en la evaluación. La decisión de modo se realiza
por tanto sin conocer de antemano la condición exacta del habla de
salida, es decir, cómo de cerca estará el habla de salida del habla
de entrada en cuanto a calidad de voz u otras mediciones de
rendimiento. Un modo de decisión de bucle abierto ejemplar para un
códec del habla se describe en la patente estadounidense nº
5.414.796, que fue transferida al cesionario de las realizaciones
dadas a conocer
actualmente.
actualmente.
La codificación multimodo puede ser a tasa fija,
utilizando el mismo número de bits N_{0} para cada trama, o a
tasa variable, en la que se utilizan diferentes tasas de transmisión
de bits para diferentes modos. El objetivo en la codificación a
tasa variable es utilizar sólo la cantidad de bits necesaria para
codificar los parámetros de códec a un nivel adecuado para obtener
la calidad objetivo. Como resultado, puede obtenerse la misma
calidad de voz objetivo que la de un codificador de tasa superior, a
tasa fija, a una tasa promedio inferior significativa utilizando
técnicas de tasa de transmisión de bits variable (VBR). Un
codificador del habla de tasa variable ejemplar se describe en la
patente estadounidense nº 5.414.796, transferida al cesionario de
las realizaciones dadas a conocer actualmente.
Actualmente hay un aumento del interés en la
investigación y necesidades comerciales fuertes para desarrollar un
codificador del habla de alta calidad que opere a medias a bajas
tasas de transmisión de bits (es decir, en el intervalo de 2,4 a 4
kbps y por debajo). Las áreas de aplicación incluyen telefonía
inalámbrica, comunicaciones por satélite, telefonía por Internet,
diversas aplicaciones multimedia y de flujo continuo
(streaming) de voz, correo de voz, y otros sistemas de
almacenamiento de voz. Las fuerzas conductoras son la necesidad de
alta capacidad y la demanda de rendimiento robusto en situaciones de
pérdida de paquetes. Los diversos esfuerzos recientes de
estandarización de la codificación del habla son otra fuerza
conductora directa que impulsa la investigación y el desarrollo de
algoritmos de codificación del habla a baja tasa. Un codificador
del habla de baja tasa crea más canales, o usuarios, por ancho de
banda de aplicación permisible, y un codificador del habla de baja
tasa acoplado con una capa adicional de codificación de canal
adecuada puede adecuarse al presupuesto de bits global de
especificaciones de codificadores y proporcionar un rendimiento
robusto en condiciones de errores de canales.
Por lo tanto, la codificación del habla VBR
multimodo es un mecanismo efectivo para codificar habla a baja tasa
de transmisión de bits. Los esquemas multimodo convencionales
requieren el diseño de esquemas, o modos, de codificación eficaces
para diversos segmentos del habla (por ejemplo, sordo, sonoro,
transición) así como un modo para ruido de fondo, o silencio. El
rendimiento global del codificador del habla depende de cómo se
comporte cada modo, y la tasa promedio del codificador depende de
las tasas de transmisión de bits de los diferentes modos para
segmentos del habla sordos, sonoros y otros. Con el fin de conseguir
la calidad objetivo a una tasa promedio baja, es necesario diseñar
modos de alto rendimiento, eficaces, algunos de los cuales deben
trabajar a bajas tasas de transmisión de bits. Normalmente, los
segmentos del habla sonoros y sordos se capturan a altas tasas de
transmisión de bits, y los segmentos de ruido de fondo y de silencio
se representan con modos que trabajan a una tasa significativamente
inferior. Por tanto, existe una necesidad de una técnica de
codificación a baja tasa de transmisión de bits de alto rendimiento
que capture con precisión un alto porcentaje de segmentos del habla
sordos mientras que utiliza un número de bits por trama mínimo.
Adicionalmente se llama la atención sobre el
documento US 2001/0049598, que da a conocer una técnica de
codificación a baja tasa de transmisión de bits para segmentos del
habla sordos. El procedimiento incluye las etapas de extraer
coeficientes de energía de alta resolución en el tiempo de una trama
de habla, cuantificar los coeficientes de energía, generar una
envolvente de energía de alta resolución en el tiempo a partir de
los coeficientes de energía cuantificados, y reconstruir una señal
residual conformando un vector de ruido generado aleatoriamente con
valores cuantificados de la envolvente de energía. La envolvente de
energía puede generarse con una técnica de interpolación lineal.
Puede obtenerse una medición de postprocesamiento y comparase con un
umbral predefinido para determinar si el algoritmo de codificación
se está comportado adecuadamente.
Según la presente invención, se proporcionan un
procedimiento y un codificador del habla para codificar segmentos
del habla sordos, como se exponen en las reivindicaciones 1 y 11, y
un procedimiento y un descodificador del habla para descodificar
segmentos del habla sordos, como se exponen en las reivindicaciones
20 y 28. En las reivindicaciones dependientes se describen
realizaciones de la invención.
Las realizaciones dadas a conocer se dirigen a
una técnica de codificación a baja tasa de transmisión de bits de
alto rendimiento que captura con precisión segmentos del habla
sordos mientras que utiliza un número de bits por trama mínimo. El
alcance de la invención se define por las reivindicaciones 1, 11, 20
y 28 independientes. Por consiguiente, en un aspecto de la
invención, un procedimiento de descodificación de segmentos del
habla sordos incluye recuperar un grupo de ganancias cuantificadas
utilizando índices recibidos para una pluralidad de subtramas;
generar una señal de ruido aleatorio que comprende números
aleatorios para cada una de la pluralidad de subtramas; seleccionar
un porcentaje predeterminado de los números aleatorios de mayor
amplitud de la señal de ruido aleatorio para cada una de la
pluralidad de subtramas; ajustar a escala los números aleatorios de
mayor amplitud seleccionados mediante las ganancias recuperadas para
cada subtrama para producir una señal de ruido aleatorio ajustada a
escala; filtrar paso banda y conformar la señal de ruido aleatorio
ajustada a escala; y seleccionar un segundo filtro basándose en un
indicador de selección de filtro recibido y conformar
adicionalmente la señal de ruido aleatorio ajustada a escala con el
filtro seleccionado.
Las características, objetos, y ventajas de las
realizaciones dadas a conocer resultarán más evidentes a partir de
la descripción detallada expuesta a continuación tomada
conjuntamente con los dibujos, en los que caracteres de referencia
similares identifican lo mismo en todo el documento y en los
que:
La figura 1 es un diagrama de bloques de un
canal de comunicación que termina en cada extremo con codificadores
del habla;
la figura 2A es un diagrama de bloques de un
codificador que puede utilizarse en un codificador del habla de
baja tasa de transmisión de bits de alto rendimiento;
la figura 2B es un diagrama de bloques de un
descodificador que puede utilizarse en un codificador del habla de
baja tasa de transmisión de bits de alto rendimiento;
la figura 3 ilustra un codificador del habla
sorda de baja tasa de transmisión de bits de alto rendimiento que
podría utilizarse en el codificador de la figura 2A;
la figura 4 ilustra un descodificador del habla
sorda de baja tasa de transmisión de bits de alto rendimiento que
podría utilizarse en el descodificador de la figura 2B;
la figura 5 es un diagrama de flujo que ilustra
etapas de codificación de una técnica de codificación a baja tasa
de transmisión de bits de alto rendimiento para habla sorda;
la figura 6 es un diagrama de flujo que ilustra
etapas de descodificación de una técnica de codificación a baja
tasa de transmisión de bits de alto rendimiento para habla
sorda;
la figura 7A es un gráfico de una respuesta en
frecuencia de un filtrado paso bajo para su uso en análisis de
energía de banda;
la figura 7B es un gráfico de una respuesta en
frecuencia de un filtrado paso alto para su uso en análisis de
energía de banda;
la figura 8A es un gráfico de una respuesta en
frecuencia de un filtro paso banda para su uso en un filtrado
perceptivo;
la figura 8B es un gráfico de una respuesta en
frecuencia de un filtro de conformación preliminar para su uso en
un filtrado perceptivo;
la figura 8C es un gráfico de una respuesta en
frecuencia de un filtro de conformación que puede utilizarse en un
filtrado perceptivo final; y
la figura 8D es un gráfico de una respuesta en
frecuencia de otro filtro de conformación que puede utilizarse en
un filtrado perceptivo final.
Las realizaciones dadas a conocer proporcionan
un procedimiento y un aparato para codificación de habla sorda a
baja tasa de transmisión de bits de alto rendimiento. Las señales de
habla sorda se digitalizan y convierten en tramas de muestras. Cada
trama de habla sorda se filtra mediante un filtro de predicción a
corto plazo para producir bloques de señales a corto plazo. Cada
trama se divide en múltiples subtramas. Entonces se calcula una
ganancia para cada subtrama. Estas ganancias posteriormente se
cuantifican y transmiten. Entonces, se genera y se filtra un bloque
de ruido aleatorio mediante los procedimientos descritos en detalle
posteriormente. Este ruido aleatorio filtrado se ajusta a escala
mediante las ganancias de subtrama cuantificadas para formar una
señal cuantificada que representa la señal a corto plazo. En un
descodificador se genera y se filtra una trama de ruido aleatorio
de la misma manera que el ruido aleatorio en el codificador. El
ruido aleatorio filtrado en el descodificador entonces se ajusta a
escala mediante las ganancias de subtrama recibidas, y se pasa a
través de un filtro de predicción a corto plazo para formar una
trama de habla sintetizada que representa las muestras
originales.
Las realizaciones dadas a conocer presentan una
técnica de codificación novedosa para una variedad de habla sorda.
A 2 kilobits por segundo, el habla sorda sintetizada es equivalente
perceptivamente a la producida por los esquemas CELP convencionales
que requieren tasas de transmisión de datos mucho más altas. Un alto
porcentaje (aproximadamente el veinte por ciento) de segmentos de
habla sorda pueden codificarse según las realizaciones dadas a
conocer.
En la figura 1 un primer codificador 10 recibe
muestras del habla digitalizadas s(n) y codifica las muestras
s(n) para su transmisión sobre un medio 12 de transmisión, o
canal 12 de comunicación, a un primer descodificador 14. El
descodificador 14 descodifica las muestras del habla codificadas y
sintetiza una señal de habla de salida S_{SYNTH}(n). Para
la transmisión en sentido opuesto, un segundo codificador 16
codifica muestras del habla digitalizadas s(n), que se
transmiten sobre un canal 18 de comunicación. Un segundo
descodificador 20 recibe y descodifica las muestras del habla
codificadas, generando una señal de habla de salida sintetizada
S_{SYNTH}(n).
Las muestras del habla, s(n), representan
señales de habla que se han digitalizado y cuantificado según
cualquiera de diversos procedimientos conocidos en la técnica entre
los que se incluyen, por ejemplo, modulación de código de pulso
(PCM), \mu-law o A-law
comprimido-expandido. Como se conoce en la técnica,
las muestras del habla, s(n), se organizan en tramas de
datos de entrada en las que cada trama comprende un número
predeterminado de muestras del habla digitalizadas s(n). En
una realización ejemplar, se emplea una tasa de muestreo de 8 kHz,
con cada trama de 20 ms comprendiendo 160 muestras. En las
realizaciones descritas posteriormente, la tasa de transmisión de
datos puede variar de trama a trama desde 8 kbps (tasa completa) a 4
kbps (media tasa) a 2 kbps (cuarto de tasa) a 1 kbps (octavo de
tasa). Como alternativa, pueden utilizarse otras tasas de
transmisión de datos. Como se utiliza en el presente documento, los
términos "tasa completa" o "alta tasa" se refieren en
general a tasas de transmisión de datos que son mayores o iguales a
8 kbps, y los términos "media tasa" o "baja tasa" se
refieren en general a tasas de transmisión de datos que son menores
o iguales a 4 kbps. Variar la tasa de transmisión de datos es
beneficioso porque pueden emplearse selectivamente tasas de
transmisión de bits inferiores para tramas que contienen
relativamente menos información de habla. Como entienden los
expertos en la técnica, pueden utilizarse otras tasas de muestreo,
tamaños de trama, y tasas de transmisión de datos.
El primer codificador 10 y el segundo
descodificador 20 comprenden juntos un primer codificador del habla,
o códec del habla. De manera similar, el segundo codificador 16 y
el primer descodificador 14 comprenden juntos un segundo
codificador del habla. Los expertos en la técnica entienden que los
codificadores del habla pueden implementarse con un procesador de
señal digital (DSP), un circuito integrado de aplicación específica
(ASIC), lógica de puertas discreta, firmware, o cualquier
módulo de software programable convencional y un microprocesador.
El módulo de software podría residir en memoria RAM, memoria flash,
registros, o cualquier otra forma de medio de almacenamiento de
escritura conocido en la técnica. Como alternativa, cualquier
procesador, controlador, o máquina de estado convencionales podría
sustituirse por el microprocesador. ASIC ejemplares diseñados
específicamente para codificación del habla se describen en la
patente estadounidense nº 5.727.123, transferida al cesionario de
las realizaciones dadas a conocer actualmente e incorporada en su
totalidad en el presente documento por referencia, y la patente
estadounidense nº 5.784.532, titulada APPLICATION SPECIFIC
INTEGRATED CIRCUIT (ASIC) FOR PERFORMING RAPID SPEECH COMPRESSION
IN A MOBILE TELEPHONE SYSTEM, transferida al cesionario de las
realizaciones dadas a conocer actualmente.
La figura 2A es un diagrama de bloques de un
codificador, ilustrado en la figura (10, 16), que puede emplear las
realizaciones dadas a conocer actualmente. Una señal de habla,
s(n), se filtra mediante un filtro 200 de predicción a corto
plazo. El habla en sí misma, s(n) y/o la señal residual de
predicción lineal r(n) a la salida del filtro 200 de
predicción a corto plazo proporcionan la entrada a un clasificador
202 del habla.
La salida del clasificador 202 del habla
proporciona la entrada a un conmutador 203 permitiendo el conmutador
203 seleccionar un codificador (204,206) de modo correspondiente
basándose en un modo clasificado del habla. Un experto en la
técnica entendería que el clasificador 202 del habla no se limita a
clasificación de habla sonora y sorda y que también puede
clasificar transición, ruido de fondo (silencio), u otros tipos de
habla.
El codificador 204 de habla sonora codifica el
habla sonora mediante cualquier procedimiento convencional tal como
por ejemplo, CELP o interpolación de forma de onda prototipo
(PWI).
El codificador 205 de habla sorda codifica el
habla sorda a una baja tasa de transmisión de bits según las
realizaciones descritas posteriormente. El codificador 206 de habla
sorda se describe en detalle con referencia a la figura 3 según una
realización.
Después de la codificación mediante o bien el
codificador 204 o bien el codificador 206, un multiplexor 208 forma
un flujo de bits por paquetes que comprende paquetes de datos, modo
del habla, y otros parámetros codificados para la transmisión.
La figura 2B es un diagrama de bloques de un
descodificador, ilustrado in la figura 1 (14, 20), que puede
emplear las realizaciones dadas a conocer actualmente.
El demultiplexor 210 recibe un flujo de bits por
paquetes, demultiplexa datos del flujo de bits, y recupera paquetes
de datos, el modo del habla, y otros parámetros codificados.
La salida del demultiplexor 210 proporciona la
entrada a un conmutador 211 permitiendo el conmutador 211
seleccionar un descodificador (212, 214) de modo correspondiente
basándose en un modo clasificado del habla. Un experto en la
técnica entendería que el conmutador 211 no se limita a modos de
habla sonora y sorda y también puede reconocer transición, ruido de
fondo (silencio) u otros tipos de habla.
El descodificador 212 de habla sonora
descodifica el habla sonora realizando las operaciones inversas del
codificador 204 sonoro.
En una realización, el descodificador 214 de
habla sorda descodifica el habla sorda transmitida a una baja tasa
de transmisión de bits como se describe posteriormente en detalle
con referencia a la figura 4.
Después de la descodificación mediante o bien el
descodificador 212 o bien el descodificador 214, se filtra una
señal residual de predicción lineal sintetizada mediante un filtro
216 de predicción a corto plazo. El habla sintetizada en la salida
del filtro 216 de predicción a corto plazo se pasa a un procesador
218 postfiltro para generar el habla de salida final.
\newpage
La figura 3 es un diagrama de bloques detallado
del codificador 206 del habla sorda de baja tasa de transmisión de
bits de alto rendimiento ilustrado en la figura 2A. La figura 3
detalla el aparato y la secuencia de operaciones de una realización
del codificador sordo.
Las muestras del habla digitalizadas,
s(n), se introducen al analizador 302 de codificación
predictiva lineal (LPC) y al filtro 304 LPC. El analizador 302 LPC
produce coeficientes predicativos lineales (LP) de las muestras del
habla digitalizadas. El filtro 304 LPC produce una señal residual de
habla, r(n), que se introduce al componente 306 de cálculo
de ganancia y al analizador 314 de energía de banda no ajustada a
escala.
El componente 306 de cálculo de ganancia divide
cada trama de muestras del habla digitalizadas en subtramas,
calcula un conjunto de ganancias de libro de código, a las que se
hace referencia en lo sucesivo en el presente documento como
ganancias o índices, para cada subtrama, divide las ganancias en
subgrupos, y normaliza las ganancias de cada subgrupo. La señal
residual de habla r(n), n=0,...,N-1, se
segmenta en K subtramas, donde N es el número de muestras
residuales en una trama. En una realización, K=10 y N=160. Se
calcula una ganancia, G(i), i=0,...,K-1,
para cada subtrama como sigue:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
El cuantificador 308 de ganancia cuantifica las
K ganancias, y posteriormente se transmite el índice de libro de
código de ganancia para las ganancias. La cuantificación puede
realizarse utilizando esquemas de cuantificación de vectores o
lineal convencionales, o cualquier variante. Un esquema realizado es
la cuantificación de vectores de múltiples etapas.
La salida de señal residual del filtro 304 LPC,
r(n), se pasa a través de un filtro paso bajo y un filtro
paso alto en el analizador 314 de energía de banda no ajustada a
escala. Los valores de energía de r(n), E_{1}, E_{lp1},
y E_{hp1}, se calculan para la señal residual, r(n).
E_{1} es la energía en la señal residual, r(n). E_{lp1}
es la energía de banda baja en la señal residual, r(n).
E_{hp1} es la energía de banda alta en la señal residual,
r(n). Las respuesta en frecuencia de los filtros paso bajo y
paso alto del analizador 314 de energía de banda no ajustada a
escala, en una realización, se muestran en la figura 7A y en la
figura 7B, respectivamente. Los valores de energía E_{1},
E_{lp1}, y E_{hp1} se calculan como sigue:
\vskip1.000000\baselineskip
Los valores de energía E_{1}, E_{lp1}, y
E_{hp1} se utilizan posteriormente para seleccionar filtros de
conformación en el filtro 316 de conformación final para procesar
una señal de ruido aleatorio de modo que la señal de ruido
aleatorio se parezca lo más posible a la señal residual
original.
El generador 310 de números aleatorios genera
números aleatorios uniformemente distribuidos, con varianza unidad,
entre -1 y 1 para cada una de las K subtramas emitidas por el
analizador 302 LPC. El selector 312 de números aleatorios
selecciona entre una mayoría de los números aleatorios de baja
amplitud en cada subtrama. Se retiene una fracción de los números
aleatorios de mayor amplitud para cada subtrama. En una realización,
la fracción de números aleatorios retenida es del 25%.
La salida de números aleatorios para cada
subtrama del selector 312 de números aleatorios se multiplica
entonces por las respectivas ganancias cuantificadas de la
subtrama, emitidas desde el cuantificador 308 de ganancia, mediante
el multiplicador 307. La salida de señal aleatoria ajustada a escala
del multiplicador 307, \hat{r}_{1}(n), se procesa
entonces mediante filtrado perceptivo.
Para mejorar la calidad perceptiva y mantener la
naturalidad del habla sorda cuantificada, se realiza un proceso de
filtrado perceptivo de dos etapas sobre la señal aleatoria ajustada
a escala, \hat{r}_{1}(n).
En la primera etapa del proceso de filtrado
perceptivo, la señal aleatoria ajustada a escala
\hat{r}_{1}(n) se pasa a través de dos filtros fijos en
el filtro 318 perceptivo. El primer filtro fijo del filtro 318
perceptivo es un filtro 320 paso banda que elimina las frecuencias
del extremo bajo y el extremo alto de \hat{r}_{1}(n) para
producir la señal \hat{r}_{2}(n). La respuesta en
frecuencia del filtro 320 paso banda, en una realización, se
ilustra en la figura 8A. El segundo filtro fijo del filtro 318
perceptivo es el filtro 322 de conformación preliminar. La señal,
\hat{r}_{2}(n), calculada por el elemento 320, se pasa a
través del filtro 322 de conformación preliminar para producir la
señal \hat{r}_{3}(n). La respuesta en frecuencia del
filtro 322 de conformación preliminar, en una realización, se
ilustra en la figura 8B.
Las señales \hat{r}_{2}(n), calculada
por el elemento 320, y \hat{r}_{3}(n), calculada por el
elemento 322, se calculan como sigue:
La energía de las señales
\hat{r}_{2}(n) y \hat{r}_{3}(n) se calcula
como E_{2} y E_{3} respectivamente. E_{2} y E_{3} se
calculan como sigue:
En la segunda etapa del proceso de filtrado
perceptivo, la señal \hat{r}_{3}(n), emitida desde el
filtro 322 de conformación preliminar, se ajusta a escala para
tener la misma energía que la señal residual original r(n),
emitida desde el filtro 304 LPC, basándose en E_{1} y E_{3}.
En el analizador 324 de energía de banda
ajustada a escala, la señal aleatoria ajustada a escala y filtrada,
\hat{r}_{3}(n), calculada por el elemento (322), se
somete al mismo análisis de energía de banda realizado previamente
sobre la señal residual original, r(n), mediante el
analizador 314 de energía de banda no ajustada a escala.
La señal, \hat{r}_{3}(n), calculada
por el elemento 322, se calcula como sigue:
La energía de banda paso bajo de
\hat{r}_{3}(n), se indica como E_{lp2}, y la energía de
banda paso alto de \hat{r}_{3}(n) se indica como
E_{hp2}. La energía de banda alta y banda baja de
\hat{r}_{3}(n) se comparan con las energías de banda
alta y banda baja de r(n) para determinar el siguiente filtro
de conformación a utilizar en el filtro 316 de conformación final.
Basándose en la comparación de r(n) y
\hat{r}_{3}(n), se elige o bien ningún filtrado
adicional, o bien uno de dos filtros de conformación fijos para
producir la coincidencia más próxima entre r(n) y
\hat{r}_{3}(n). La forma de filtro final (o ningún
filtrado adicional) se determina comparando la energía de banda en
la señal original con la energía de banda en la señal aleatoria.
La relación, R_{l}, de la energía de banda
baja de la señal original con la energía de banda baja de señal
aleatoria prefiltrada ajustada a escala se calcula como sigue:
La relación, R_{h}, de la energía de banda
alta de la señal original con la energía de banda alta de señal
aleatoria prefiltrada ajustada a escala se calcula como sigue:
Si la relación R_{l} es inferior a -3, se
utiliza un filtro de conformación final paso alto (filtro 2) para
procesar adicionalmente \hat{r}_{3}(n) para producir
\hat{r}(n).
Si la relación R_{h} es inferior a -3, se
utiliza un filtro de conformación final paso bajo (filtro 3) para
procesar adicionalmente \hat{r}_{3}(n) para producir
\hat{r}(n).
De lo contrario, no se realiza ningún
procesamiento adicional de \hat{r}_{3}(n), de modo que
\hat{r}(n) = \hat{r}_{3}(n).
La salida del filtro 316 de conformación final
es la señal residual aleatoria cuantificada \hat{r}(n). La
señal \hat{r}(n) se ajusta a escala para tener la misma
energía que \hat{r}_{2}(n).
La respuesta en frecuencia del filtro de
conformación final paso alto (filtro 2) se muestra en la figura 8C.
La respuesta en frecuencia del filtro de conformación final paso
bajo (filtro 3) se muestra en la figura 8D.
Se genera un indicador de selección de filtro
para indicar qué filtro (filtro 2, filtro 3, o ningún filtro) se
seleccionó para el filtrado final. El indicador de selección de
filtro se transmite posteriormente de modo que un descodificador
pueda reproducir el filtrado final. En una realización, el indicador
de selección de filtro consiste en dos bits.
La figura 4 es un diagrama de bloques detallado
del descodificador 214 del habla sorda de baja tasa de transmisión
de bits de alto rendimiento ilustrado en la figura 2B. La figura 4
detalla el aparato y la secuencia de operaciones de una realización
del descodificador de habla sorda. El descodificador de habla sorda
recibe paquetes de datos sordos y sintetiza habla sorda a partir de
los paquetes de datos realizando las operaciones inversas del
codificador 206 de habla sorda ilustrado en la figura 2A.
Los paquetes de datos sordos se introducen al
descuantificador 406 de ganancia. El descuantificador 406 de
ganancia realiza la operación inversa del cuantificador 308 de
ganancia en el codificador sordo ilustrado en la figura 3. La
salida del descuantificador 406 de ganancia es K ganancias sordas
cuantificadas.
El generador 402 de número aleatorios y el
selector 404 de números aleatorios realizan exactamente las mismas
operaciones que el generador 310 de números aleatorios y el selector
312 de números aleatorios en el codificador sordo de la figura
3.
La salida de números aleatorios para cada
subtrama del selector 404 de números aleatorios se multiplica
entonces por la respectiva ganancia cuantificada de la subtrama,
emitida desde el descuantificador 406 de ganancia, mediante el
multiplicador 405. La salida de señal aleatoria ajustada a escala
del multiplicador 405, \hat{r}_{1}(n), se procesa
entonces mediante un filtrado perceptivo.
Se realiza un proceso de filtrado perceptivo de
dos etapas idéntico al proceso de filtrado perceptivo del
codificador sordo de la figura 3. El filtro 408 perceptivo realiza
exactamente las mismas operaciones que el filtro 318 perceptivo en
el codificador sordo de la figura 3. La señal aleatoria
\hat{r}_{1}(n) se pasa a través de dos filtros fijos en
el filtro 408 perceptivo. El filtro 407 paso banda y el filtro 409
de conformación preliminar son exactamente iguales que el filtro
320 paso banda y el filtro 322 de conformación preliminar
utilizados en el filtro 318 perceptivo en el codificador sordo de la
figura 3. Las salidas después del filtro 407 paso banda y el filtro
409 de conformación preliminar se indican como
\hat{r}_{2}(n) y \hat{r}_{3}(n),
respectivamente. Las señales \hat{r}_{2}(n) y
\hat{r}_{3}(n) se calculan igual que en el codificador
sordo de la figura 3.
La señal \hat{r}_{3}(n) se filtra en
el filtro 410 de conformación final. El filtro 410 de conformación
final es idéntico al filtro 316 de conformación final en el
codificador sordo de la figura 3. El filtro 410 de conformación
final realiza o bien conformación final paso alto, conformación
final paso bajo, o bien no se realiza ningún filtrado final
adicional, según determine el indicador de selección de filtro
generado en el codificador sordo de la figura 3 y recibido en el
paquete de bits de datos en el descodificador 214. La señal residual
cuantificada de salida, \hat{r}(n), del filtro 410 de
conformación final se ajusta a escala para que tenga la misma
energía que \hat{r}_{2}(n).
La señal aleatoria cuantificada,
\hat{r}(n), se filtra mediante el filtro 412 de síntesis
LPC para generar la señal de habla sintetizada,
\hat{s}(n).
Un postfiltro 414 posterior podría aplicarse a
la señal de habla sintetizada, \hat{s}(n), para generar el
habla de salida final.
La figura 5 es un diagrama de flujo que ilustra
las etapas de codificación de una técnica de codificación a baja
tasa de transmisión de bits de alto rendimiento para habla
sorda.
En la etapa 502, a un codificador 206 de habla
sorda (figura 3) se proporciona una trama de datos muestras del
habla digitalizadas sordas. Se proporciona una nueva trama cada 20
milisegundos. En una realización, en la que el habla sorda se
muestrea a una tasa de 8 kilobits por segundo, una trama contiene
160 muestras. El flujo de control avanza hasta la etapa 504.
En la etapa 504, la trama de datos se filtra
mediante un filtro LPC, produciendo una trama de señal residual. El
flujo de control avanza hasta la etapa 506.
Las etapas 506 a 516 describen etapas de
procedimiento para el cálculo y la cuantificación de ganancia de
una trama de señal residual.
La trama de señal residual se divide en
subtramas en la etapa 506. En una realización, cada trama se divide
en diez subtramas de dieciséis muestras cada una. El flujo de
control avanza hasta la etapa 508.
En la etapa 508, se calcula una ganancia para
cada subtrama. En una realización se calculan ganancias de diez
subtramas. El flujo de control avanza hasta la etapa 510.
En la etapa 510, las ganancias de subtrama se
dividen en subgrupos. En una realización, 10 ganancias de subtrama
se dividen en dos subgrupos de cinco ganancias de subtrama cada uno.
El flujo de control avanza hasta la etapa 512.
En la etapa 512, las ganancias de cada subgrupo
se normalizan, para producir un factor de normalización para cada
subgrupo. En una realización, se producen dos factores de
normalización para dos subgrupos de cinco ganancias cada uno. El
flujo de control avanza hasta la etapa 514.
En la etapa 514, los factores de normalización
producidos en la etapa 512 se convierten al dominio logarítmico, o
forma exponencial, y entonces se cuantifican. En una realización, se
produce un factor de normalización cuantificado, denominado en lo
sucesivo en el presente documento como Índice 1. El flujo de control
avanza hasta la etapa
516.
516.
En la etapa 516, las ganancias normalizadas de
cada subgrupo producidas en la etapa 512 se cuantifican. En una
realización, se cuantifican dos subgrupos para producir dos valores
de ganancia cuantificada, denominados en lo sucesivo en el presente
documento como Índice 2 e Índice 3. El flujo de control avanza hasta
la etapa 518.
Las etapas 518 a 520 describen las etapas de
procedimiento para generar una señal de habla sorda cuantificada
aleatoria.
En la etapa 518, se genera una señal de ruido
aleatorio para cada subtrama. Se selecciona un porcentaje
predeterminado de los números aleatorios de mayor amplitud
generados por subtrama. Los números no seleccionado se fijan a
cero. En una realización, el porcentaje de números aleatorios
seleccionado es del 25%. El flujo de control avanza hasta la etapa
520.
En la etapa 520, los números aleatorios
seleccionados se ajustan a escala mediante las ganancias
cuantificadas para cada subtrama producidas en la etapa 516. El
flujo de control avanza hasta la etapa 522.
Las etapas 522 a 528 describen etapas de
procedimiento para el filtrado perceptivo de la señal aleatoria. El
filtrado perceptivo de las etapas 522 a 528 mejora la calidad
perceptiva y mantiene la naturalidad de la señal de habla sorda
cuantificada aleatoria.
En la etapa 522, la señal de habla sorda
cuantificada aleatoria se filtra paso banda para eliminar las
componentes de extremo alto y bajo. El flujo de control avanza
hasta la etapa 524.
En la etapa 524, se aplica un filtro de
conformación preliminar fijo a la señal de habla sorda cuantificada
aleatoria. El flujo de control avanza hasta la etapa 526.
En la etapa 526, se analizan las energías de
banda baja y alta de la señal aleatoria y la señal residual
original. El flujo de control avanza hasta la etapa 528.
En la etapa 528, se compara el análisis de
energía de la señal residual original con el análisis de energía de
la señal aleatoria, para determinar si es necesario un filtrado
adicional de la señal aleatoria. Basándose en el análisis, se
selecciona o bien ningún filtro, o bien uno de dos filtros finales
predeterminados para filtrar adicionalmente la señal aleatoria. Los
dos filtros finales predeterminados son un filtro de conformación
final paso alto y un filtro de conformación final paso bajo. Se
genera un mensaje de indicación de selección de filtro para indicar
a un descodificador qué filtro final (o ningún filtro) se aplicó. En
una realización, el mensaje de indicación de selección de filtro es
de 2 bits. El flujo de control avanza hasta la etapa 530.
En la etapa 530, se transmiten un índice para el
factor de normalización cuantificado producido en la etapa 514,
índices para las ganancias de subgrupo cuantificadas producidas en
la etapa 516, y el mensaje de indicación de selección de filtro
generado en la etapa 528. En una realización, se transmiten Índice
1, Índice 2, Índice 3, y una indicación de selección de filtro
final de 2 bits. Incluyendo los bits requeridos para transmitir los
índices de parámetros LPC cuantificados, la tasa de transmisión de
bits de una realización es de 2 Kilobits por segundo. (La
cuantificación de parámetros LPC no está dentro del alcance de las
realizaciones dadas a conocer).
La figura 6 es un diagrama de flujo que ilustra
las etapas de descodificación de una técnica de codificación a baja
tasa de transmisión de bits de alto rendimiento para habla
sorda.
En la etapa 602 se reciben un índice de factor
de normalización, índices de ganancia de subgrupo cuantificadas y
un indicador de selección de filtro final para una trama de habla
sorda. En una realización, se reciben Índice 1, Índice 2, Índice 3,
y una indicación de selección de filtro de 2 bits. El flujo de
control avanza hasta la etapa 604.
En la etapa 604 se recupera el factor de
normalización a partir de tablas de consulta utilizando el índice
de factor de normalización. El factor de normalización se convierte
del dominio logarítmico, o forma exponencial, al dominio lineal. El
flujo de control avanza hasta la etapa 606.
En la etapa 606 se recuperan las ganancias a
partir de tablas de consulta utilizando los índices de ganancia.
Las ganancias recuperadas se ajustan a escala mediante los factores
de normalización recuperados para recuperar las ganancias
cuantificadas de cada subgrupo de la trama original. El flujo de
control avanza hasta la etapa 608.
En la etapa 608 se genera una señal de ruido
aleatorio para cada subtrama, exactamente como en la codificación.
Se selecciona un porcentaje predeterminado de los números aleatorios
de mayor amplitud generados por subtrama. Los números no
seleccionados se fijan a cero. En una realización, el porcentaje de
números aleatorios seleccionado es del 25%. El flujo de control
avanza hasta la etapa 610.
En la etapa 610, los números aleatorios
seleccionados se ajustan a escala mediante las ganancias
cuantificadas para cada subtrama recuperadas en la etapa 606.
Las etapas 612 a 616 describen etapas de
procedimiento de descodificación para el filtrado perceptivo de la
señal aleatoria.
En la etapa 612, la señal de habla sorda
cuantificada aleatoria se filtra paso banda para eliminar
componentes de extremo alto y bajo. El filtro paso banda es
idéntico al filtro paso banda utilizado en la codificación. El
flujo de control avanza hasta la etapa 614.
En la etapa 614 se aplica un filtro de
conformación preliminar fijo a la señal de habla sorda cuantificada
aleatoria. El filtro de conformación preliminar fijo es idéntico al
filtro de conformación preliminar fijo utilizado en la
codificación. El flujo de control avanza hasta la etapa 616.
En la etapa 616, basándose en el mensaje de
indicación de selección de filtro, se selecciona o bien ningún
filtro, o bien uno de dos filtros predeterminados para filtrar
adicionalmente la señal aleatoria en un filtro de conformación
final. Los dos filtros predeterminados del filtro de conformación
final son un filtro de conformación final paso alto (filtro 2) y un
filtro de conformación final paso bajo (filtro 3) idénticos al
filtro de conformación final paso alto y al filtro de conformación
final paso bajo del codificador. La señal aleatoria cuantificada de
salida del filtro de conformación final se ajusta a escala para que
tenga la misma energía que la salida de señal del filtro paso
banda. La señal aleatoria cuantificada se filtra mediante un filtro
de síntesis LPC para generar una señal de habla sintetizada. Puede
aplicarse un postfiltro posterior a la señal de habla sintetizada
para generar el habla de salida descodificada
final.
final.
La figura 7A es un gráfico de la respuesta en
frecuencia de frecuencia normalizada frente a amplitud de un filtro
paso bajo en los analizadores (314, 324) de energía de banda
utilizados para analizar la energía de banda baja en la señal
residual r(n), emitida desde el filtro (304) LPC en el
codificador, y en la señal aleatoria ajustada a escala y filtrada,
\hat{r}_{3}(n), emitida desde el filtro (322) de
conformación preliminar en el codificador.
La figura 7B es un gráfico de la respuesta en
frecuencia de frecuencia normalizada frente a amplitud de un filtro
paso alto en los analizadores (314, 324) de energía de banda
utilizados para analizar la energía de banda alta en la señal
residual r(n), emitida desde el filtro (304) LPC en el
codificador, y en la señal aleatoria ajustada a escala y filtrada,
\hat{r}_{3}(n), emitida desde el filtro (322) de
conformación preliminar en el codificador.
La figura 8A es un gráfico de la respuesta en
frecuencia de frecuencia normalizada frente a amplitud de un filtro
de conformación final paso banda bajo en un filtro (320,407) paso
banda utilizado para conformar la señal aleatoria ajustada a
escala, \hat{r}_{1}(n), emitida desde el multiplicador
(307, 405) en el codificador y en el descodificador.
La figura 8B es un gráfico de la respuesta en
frecuencia de frecuencia normalizada frente a amplitud de un filtro
de conformación paso banda alto en el filtro (322, 409) de
conformación preliminar utilizado para conformar la señal aleatoria
ajustada a escala, \hat{r}_{2}(n), emitida desde el
filtro (320, 407) paso banda en el codificador y en el
descodificador.
La figura 8C es un gráfico de la respuesta en
frecuencia de frecuencia normalizada frente a amplitud de un filtro
de conformación final paso alto, en el filtro (316, 410) de
conformación final, utilizado para conformar la señal aleatoria
ajustada a escala y filtrada, \hat{r}_{3}(n), emitida
desde el filtro (322, 409) de conformación preliminar en el
codificador y descodificador.
La figura 8D es un gráfico de la respuesta en
frecuencia de frecuencia normalizada frente a amplitud de un filtro
de conformación final paso bajo, en el filtro (316, 410) de
conformación final, utilizado para conformar la señal aleatoria
ajustada a escala y filtrada, \hat{r}_{3}(n), emitida
desde el filtro (322, 409) de conformación preliminar en el
codificador y descodificador.
La descripción anterior de las realizaciones
preferidas se proporciona para permitir a cualquier experto en la
técnica llevar a cabo o utilizar las realizaciones dadas a conocer.
Las diversas modificaciones a estas realizaciones serán fácilmente
evidentes para los expertos en la técnica, y los principios
genéricos definidos en el presente documento pueden aplicarse a
otras realizaciones sin el uso de la actividad inventiva. Por
tanto, no se pretende que las realizaciones dadas a conocer se
limiten a las realizaciones mostradas en el presente documento,
sino que ha de concedérsele el alcance más amplio acorde con los
principios y características novedosas dadas a conocer en el
presente documento.
Claims (32)
1. Un procedimiento de codificación de
segmentos del habla sordos, que comprende:
dividir (506) una trama de señal residual en
subtramas, presentando cada subtrama una ganancia de libro de
código calculada con la misma;
cuantificar (516) las ganancias para producir
índices;
ajustar a escala (520) un porcentaje de ruido
aleatorio, correspondiente a los números aleatorios de mayor
amplitud, asociado con cada subtrama por los índices asociados con
la subtrama;
realizar (522) un primer filtrado del ruido
aleatorio ajustado a escala; calcular la energía del ruido aleatorio
ajustado a escala filtrado y la energía de la señal residual;
comparar (528) la energía del ruido aleatorio
ajustado a escala filtrado con la energía de la señal residual;
seleccionar (528) un segundo filtro basándose en
la comparación; y
realizar (528) un segundo filtrado del ruido
aleatorio ajustado a escala filtrado utilizando el segundo filtro
seleccionado.
2. El procedimiento según la reivindicación 1,
en el que dividir (506) una trama de señal residual en subtramas
comprende dividir una trama de señal residual en diez subtramas.
3. El procedimiento según la reivindicación 1,
en el que la trama de señal residual comprende 160 muestras por
trama muestreadas a ocho kilohercios por segundo durante 20
milisegundos.
4. El procedimiento según la reivindicación 1,
en el que el porcentaje de ruido aleatorio es del veinticinco por
ciento.
5. El procedimiento según la reivindicación 1,
en el que la cuantificación de las ganancias para producir índices
se realiza utilizando cuantificación de vectores de múltiples
etapas.
6. El procedimiento según la reivindicación 1,
en el que dividir (506) una trama de señal residual en subtramas
comprende:
dividir la trama de señal residual en una
pluralidad de subtramas;
crear un grupo de ganancias de subtrama
calculando una ganancia de libro de código para cada una de la
pluralidad de subtramas; y
dividir el grupo de ganancias de subtrama en
subgrupos de ganancias de subtrama.
7. El procedimiento según la reivindicación 6 y
la reivindicación 1, en el que la cuantificación de las ganancias
para producir índices comprende además:
normalizar (512) los subgrupos de ganancias de
subtrama para producir una pluralidad de factores de normalización
en el que cada uno de la pluralidad de factores de normalización
está asociado con uno de los subgrupos normalizados de ganancias de
subtrama;
convertir (514) cada uno de la pluralidad de
factores de normalización en una forma exponencial y cuantificar la
pluralidad convertida de factores de normalización; y
cuantificar (516) los subgrupos normalizados de
ganancias de subtrama para producir una pluralidad de ganancias de
libro de código cuantificadas en el que cada una de las ganancias de
libro de código está asociada con un índice de ganancia de libro de
código para uno de la pluralidad de subgrupos.
8. El procedimiento según las reivindicaciones
1, 6 y 7, en el que el ajuste a escala de un porcentaje de ruido
aleatorio, correspondiente a los números aleatorios de mayor
amplitud, asociado con cada subtrama por los índices asociados con
la subtrama comprende:
generar (518) una señal de ruido aleatorio que
comprende números aleatorios para cada una de la pluralidad de
subtramas;
seleccionar dicho porcentaje predeterminado de
los números aleatorios de mayor amplitud de la señal de ruido
aleatorio para cada una de la pluralidad de subtramas; y
ajustar a escala (520) los números aleatorios de
mayor amplitud seleccionados por las ganancias de libro de código
cuantificadas para cada subtrama para producir una señal de ruido
aleatorio ajustada a escala.
9. El procedimiento según las reivindicaciones
1, 6, 7 y 8, en el que realizar un primer filtrado del ruido
aleatorio ajustado a escala comprende filtrado paso banda y
conformar la señal de ruido aleatorio ajustada a escala.
10. El procedimiento según las reivindicaciones
1, 6, 7, 8 y 9, que comprende además generar un segundo indicador
de selección de filtro para identificar el filtro seleccionado.
11. Un codificador (206) del habla para
codificar segmentos del habla sordos, que comprende:
medios para dividir una trama de señal residual
en subtramas, presentando cada subtrama una ganancia de libro de
código calculada con la misma; medios para cuantificar las ganancias
para producir índices;
medios para ajustar a escala un porcentaje de
ruido aleatorio, correspondiente a los números aleatorios de mayor
amplitud, asociado con cada subtrama por los índices asociados con
la subtrama;
medios para realizar un primer filtrado del
ruido aleatorio ajustado a escala;
medios para calcular la energía del ruido
aleatorio ajustado a escala, filtrado, y la energía de la señal
residual;
medios para comparar la energía del ruido
filtrado con la energía de la señal residual;
medios para seleccionar un filtro secundario
basándose en la comparación; y
medios para realizar un filtrado secundario del
ruido aleatorio ajustado a escala, filtrado, según el filtro
seleccionado.
12. El codificador (206) del habla según la
reivindicación 11, en el que los medios para dividir una trama de
señal residual en subtramas comprende medios para dividir una trama
de señal residual en diez subtramas.
13. El codificador (206) del habla según la
reivindicación 11, en el que los medios para ajustar a escala un
porcentaje de ruido aleatorio comprenden medios para ajustar a
escala el veinticinco por ciento del ruido aleatorio de mayor
amplitud.
14. El codificador (206) del habla según la
reivindicación 11, en el que los medios para cuantificar las
ganancias para producir índices comprenden medios para
cuantificación de vectores de múltiples etapas.
15. El codificador (206) del habla según la
reivindicación 11, en el que los medios para dividir una trama de
señal residual en subtramas comprenden:
medios para dividir la trama de señal residual
en una pluralidad de subtramas;
medios para crear un grupo de ganancias de
subtrama calculando una ganancia de libro de código para cada una
de la pluralidad de subtramas; y
medios para dividir el grupo de ganancias de
subtrama en subgrupos de ganancias de subtrama.
16. El codificador (206) del habla según la
reivindicación 11 y la reivindicación 15, en el que los medios para
cuantificar las ganancias para producir índices comprenden
además:
medios para normalizar los subgrupos de
ganancias de subtrama para producir una pluralidad de factores de
normalización en el que cada uno de la pluralidad de factores de
normalización está asociado con uno de los subgrupos normalizados
de ganancias de subtrama;
medios para convertir cada uno de la pluralidad
de factores de normalización en una forma exponencial y cuantificar
la pluralidad convertida de factores de normalización; y
medios para cuantificar los subgrupos
normalizados de ganancias de subtrama para producir una pluralidad
de ganancias de libro de código cuantificadas en el que cada una de
las ganancias de libro de código está asociada con un índice de
ganancia de libro de código para uno de la pluralidad de
subgrupos.
17. El codificador (206) del habla según las
reivindicaciones 11, 15 y 16, en el que los medios para ajustar a
escala un porcentaje de ruido aleatorio, correspondiente a los
números aleatorios de mayor amplitud, asociado con cada subtrama
por los índices asociados con la subtrama comprenden:
medios para generar una señal de ruido aleatorio
que comprende números aleatorios para cada una de la pluralidad de
subtramas;
medios para seleccionar dicho porcentaje
predeterminado de los números aleatorios de mayor amplitud de la
señal de ruido aleatorio para cada una de la pluralidad de
subtramas; y
medios para ajustar a escala los números
aleatorios de mayor amplitud seleccionados por las ganancias de
libro de código cuantificadas para cada subtrama para producir una
señal de ruido aleatorio ajustada a escala.
18. El codificador del habla según las
reivindicaciones 11, 15, 16 y 17, en el que los medios para realizar
un primer filtrado del ruido aleatorio ajustado a escala comprenden
medios para filtrado paso banda y medios para conformar la señal de
ruido aleatorio ajustada a escala.
19. El codificador (206) del habla según las
reivindicaciones 13, 15, 16, 17 y 18, que comprende además medios
para generar un segundo indicador de selección de filtro para
identificar el filtro seleccionado.
20. Un procedimiento de descodificación de
segmentos del habla sordos, que comprende:
recuperar (606) ganancias cuantificadas
divididas en ganancias de subtrama a partir de índices recibidos
asociados con cada subtrama;
ajustar a escala (610) un porcentaje de ruido
aleatorio asociado con cada subtrama por los índices asociados con
la subtrama;
realizar (612) un primer filtrado del ruido
aleatorio ajustado a escala;
seleccionar (616) un segundo filtro de una
pluralidad de filtros según un indicador de selección de filtro
recibido; y
realizar (616) un segundo filtrado del ruido
aleatorio utilizando el segundo filtro seleccionado.
21. El procedimiento según la reivindicación 20,
que comprende además filtrar el ruido aleatorio ajustado a
escala.
22. El procedimiento según la reivindicación 20,
en el que las ganancias de subtrama comprenden divisiones de
ganancias de diez subtramas por trama de habla sorda codificada.
23. El procedimiento según la reivindicación 22,
en el que la trama de habla sorda codificada comprende 160 muestras
por trama muestreadas a ocho kilohercios por segundo durante 20
milisegundos.
24. El procedimiento según la reivindicación 20,
en el que el porcentaje de ruido aleatorio es del veinticinco por
ciento.
25. El procedimiento según la reivindicación 20,
en el que las ganancias cuantificadas recuperadas se cuantifican
mediante cuantificación de vectores de múltiples etapas.
26. El procedimiento según la reivindicación 20,
en el que ajustar a escala el porcentaje de ruido aleatorio
asociado con cada subtrama por los índices asociados con la subtrama
comprende:
generar una señal de ruido aleatorio que
comprende números aleatorios para cada una de la pluralidad de
subtramas;
seleccionar un porcentaje predeterminado de los
números aleatorios de mayor amplitud de la señal de ruido aleatorio
para cada una de la pluralidad de subtramas; y
ajustar a escala los números aleatorios de mayor
amplitud seleccionados mediante las ganancias recuperadas para cada
subtrama para producir una señal de ruido aleatorio ajustada a
escala.
27. El procedimiento según las reivindicaciones
20 y 26, en el que realizar un primer filtrado del ruido aleatorio
ajustado a escala comprende filtrado paso banda y conformar la señal
de ruido aleatorio ajustada a escala.
28. Un descodificador (214) del habla para
descodificar segmentos del habla sordos, que comprende:
medios para recuperar ganancias cuantificadas
divididas en ganancias de subtrama a partir de índices recibidos
asociados con cada subtrama;
medios para ajustar a escala un porcentaje de
ruido aleatorio asociado con cada subtrama por los índices asociados
con la subtrama;
medios para realizar un primer filtrado del
ruido aleatorio ajustado a escala;
medios para recibir un indicador de selección de
filtro y seleccionar uno de una pluralidad de filtros según el
indicador de selección de filtro; y
medios para realizar un segundo filtrado del
ruido aleatorio ajustado a escala, filtrado, utilizando el filtro
seleccionado.
29. El descodificador (214) del habla según la
reivindicación 28, que comprende medios para filtrar adicionalmente
el ruido aleatorio ajustado a escala.
30. El descodificador (214) del habla según la
reivindicación 28, en el que los medios para ajustar a escala un
porcentaje de ruido aleatorio asociado con cada subtrama comprenden
además medios para ajustar a escala el 25% de ruido aleatorio
asociado con cada subtrama.
31. El descodificador (214) según la
reivindicación 30, en el que los medios para ajustar a escala el
porcentaje de ruido aleatorio asociado con cada subtrama por los
índices asociados con la subtrama comprenden:
medios para generar una señal de ruido aleatorio
que comprende números aleatorios para cada una de la pluralidad de
subtramas;
medios para seleccionar un porcentaje
predeterminado de los números aleatorios de mayor amplitud de la
señal de ruido aleatorio para cada una de la pluralidad de
subtramas; y
medios para ajustar a escala los números
aleatorios de mayor amplitud seleccionados mediante las ganancias
recuperadas para cada subtrama para producir una señal de ruido
aleatorio ajustada a escala.
32. El descodificador (214) del habla según las
reivindicaciones 30 y 31, en el que los medios para realizar un
primer filtrado del ruido aleatorio ajustado a escala comprenden
medios para filtrado paso banda y medios para conformar la señal de
ruido aleatorio ajustada a escala.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US690915 | 1985-01-14 | ||
US09/690,915 US6947888B1 (en) | 2000-10-17 | 2000-10-17 | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2302754T3 true ES2302754T3 (es) | 2008-08-01 |
Family
ID=24774477
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01981837T Expired - Lifetime ES2302754T3 (es) | 2000-10-17 | 2001-10-06 | Procedimiento y aparato para codificacion de habla sorda. |
ES08001922T Expired - Lifetime ES2380962T3 (es) | 2000-10-17 | 2001-10-06 | Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES08001922T Expired - Lifetime ES2380962T3 (es) | 2000-10-17 | 2001-10-06 | Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento |
Country Status (13)
Country | Link |
---|---|
US (3) | US6947888B1 (es) |
EP (2) | EP1328925B1 (es) |
JP (1) | JP4270866B2 (es) |
KR (1) | KR100798668B1 (es) |
CN (1) | CN1302459C (es) |
AT (2) | ATE549714T1 (es) |
AU (1) | AU1345402A (es) |
BR (1) | BR0114707A (es) |
DE (1) | DE60133757T2 (es) |
ES (2) | ES2302754T3 (es) |
HK (1) | HK1060430A1 (es) |
TW (1) | TW563094B (es) |
WO (1) | WO2002033695A2 (es) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7257154B2 (en) * | 2002-07-22 | 2007-08-14 | Broadcom Corporation | Multiple high-speed bit stream interface circuit |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
SE0402649D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods of creating orthogonal signals |
US20060190246A1 (en) * | 2005-02-23 | 2006-08-24 | Via Telecom Co., Ltd. | Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC |
WO2006107833A1 (en) * | 2005-04-01 | 2006-10-12 | Qualcomm Incorporated | Method and apparatus for vector quantizing of a spectral envelope representation |
UA94041C2 (ru) * | 2005-04-01 | 2011-04-11 | Квелкомм Инкорпорейтед | Способ и устройство для фильтрации, устраняющей разреженность |
US9043214B2 (en) * | 2005-04-22 | 2015-05-26 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor attenuation |
UA93243C2 (ru) | 2006-04-27 | 2011-01-25 | ДОЛБИ ЛЕБОРЕТЕРИЗ ЛАЙСЕНСИНГ КОРПОРЕЙШи | Регулирование усиления звука c использованием основанного ha конкретной громкости выявления аккустических событий |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
KR101299155B1 (ko) * | 2006-12-29 | 2013-08-22 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
KR101435411B1 (ko) * | 2007-09-28 | 2014-08-28 | 삼성전자주식회사 | 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치 |
US20090094026A1 (en) * | 2007-10-03 | 2009-04-09 | Binshi Cao | Method of determining an estimated frame energy of a communication |
WO2009114656A1 (en) * | 2008-03-14 | 2009-09-17 | Dolby Laboratories Licensing Corporation | Multimode coding of speech-like and non-speech-like signals |
CN101339767B (zh) * | 2008-03-21 | 2010-05-12 | 华为技术有限公司 | 一种背景噪声激励信号的生成方法及装置 |
CN101609674B (zh) * | 2008-06-20 | 2011-12-28 | 华为技术有限公司 | 编解码方法、装置和系统 |
KR101756834B1 (ko) | 2008-07-14 | 2017-07-12 | 삼성전자주식회사 | 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 |
FR2936898A1 (fr) * | 2008-10-08 | 2010-04-09 | France Telecom | Codage a echantillonnage critique avec codeur predictif |
CN101615395B (zh) | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
US8670990B2 (en) * | 2009-08-03 | 2014-03-11 | Broadcom Corporation | Dynamic time scale modification for reduced bit rate audio coding |
BR112013016438B1 (pt) | 2010-12-29 | 2021-08-17 | Samsung Electronics Co., Ltd | Método de codificação, método de decodificação, e mídia de gravação legível por computador não transitória |
CN104978970B (zh) * | 2014-04-08 | 2019-02-12 | 华为技术有限公司 | 一种噪声信号的处理和生成方法、编解码器和编解码系统 |
TWI566239B (zh) * | 2015-01-22 | 2017-01-11 | 宏碁股份有限公司 | 語音信號處理裝置及語音信號處理方法 |
CN106157966B (zh) * | 2015-04-15 | 2019-08-13 | 宏碁股份有限公司 | 语音信号处理装置及语音信号处理方法 |
CN116052700B (zh) * | 2022-07-29 | 2023-09-29 | 荣耀终端有限公司 | 声音编解码方法以及相关装置、系统 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62111299A (ja) * | 1985-11-08 | 1987-05-22 | 松下電器産業株式会社 | 音声信号特徴抽出回路 |
JP2898641B2 (ja) * | 1988-05-25 | 1999-06-02 | 株式会社東芝 | 音声符号化装置 |
US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5734789A (en) | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
JPH06250697A (ja) * | 1993-02-26 | 1994-09-09 | Fujitsu Ltd | 音声符号化方法及び音声符号化装置並びに音声復号化方法及び音声復号化装置 |
US5615298A (en) * | 1994-03-14 | 1997-03-25 | Lucent Technologies Inc. | Excitation signal synthesis during frame erasure or packet loss |
JPH08320700A (ja) * | 1995-05-26 | 1996-12-03 | Nec Corp | 音声符号化装置 |
JP3522012B2 (ja) * | 1995-08-23 | 2004-04-26 | 沖電気工業株式会社 | コード励振線形予測符号化装置 |
JP3248668B2 (ja) * | 1996-03-25 | 2002-01-21 | 日本電信電話株式会社 | ディジタルフィルタおよび音響符号化/復号化装置 |
JP3174733B2 (ja) * | 1996-08-22 | 2001-06-11 | 松下電器産業株式会社 | Celp型音声復号化装置、およびcelp型音声復号化方法 |
JPH1091194A (ja) * | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
JP4040126B2 (ja) * | 1996-09-20 | 2008-01-30 | ソニー株式会社 | 音声復号化方法および装置 |
US6148282A (en) | 1997-01-02 | 2000-11-14 | Texas Instruments Incorporated | Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure |
CN1140894C (zh) * | 1997-04-07 | 2004-03-03 | 皇家菲利浦电子有限公司 | 可变位速率语音传输系统 |
FI113571B (fi) * | 1998-03-09 | 2004-05-14 | Nokia Corp | Puheenkoodaus |
US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
US6463407B2 (en) * | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
JP2007097007A (ja) * | 2005-09-30 | 2007-04-12 | Akon Higuchi | 複数人用ポータブルオーディオ |
JP4786992B2 (ja) * | 2005-10-07 | 2011-10-05 | クリナップ株式会社 | 厨房家具のビルトイン機器およびこれを有する厨房家具 |
-
2000
- 2000-10-17 US US09/690,915 patent/US6947888B1/en not_active Expired - Lifetime
-
2001
- 2001-10-06 BR BR0114707-2A patent/BR0114707A/pt active IP Right Grant
- 2001-10-06 JP JP2002537002A patent/JP4270866B2/ja not_active Expired - Fee Related
- 2001-10-06 DE DE60133757T patent/DE60133757T2/de not_active Expired - Lifetime
- 2001-10-06 AT AT08001922T patent/ATE549714T1/de active
- 2001-10-06 ES ES01981837T patent/ES2302754T3/es not_active Expired - Lifetime
- 2001-10-06 AU AU1345402A patent/AU1345402A/xx active Pending
- 2001-10-06 WO PCT/US2001/042575 patent/WO2002033695A2/en active Search and Examination
- 2001-10-06 EP EP01981837A patent/EP1328925B1/en not_active Expired - Lifetime
- 2001-10-06 AT AT01981837T patent/ATE393448T1/de not_active IP Right Cessation
- 2001-10-06 CN CNB018174140A patent/CN1302459C/zh not_active Expired - Lifetime
- 2001-10-06 KR KR1020037005404A patent/KR100798668B1/ko active IP Right Grant
- 2001-10-06 EP EP08001922A patent/EP1912207B1/en not_active Expired - Lifetime
- 2001-10-06 ES ES08001922T patent/ES2380962T3/es not_active Expired - Lifetime
- 2001-10-17 TW TW090125677A patent/TW563094B/zh not_active IP Right Cessation
-
2004
- 2004-05-13 HK HK04103354A patent/HK1060430A1/xx not_active IP Right Cessation
-
2005
- 2005-02-24 US US11/066,356 patent/US7191125B2/en not_active Expired - Lifetime
-
2007
- 2007-03-13 US US11/685,748 patent/US7493256B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
BR0114707A (pt) | 2004-01-20 |
ATE393448T1 (de) | 2008-05-15 |
US6947888B1 (en) | 2005-09-20 |
WO2002033695A3 (en) | 2002-07-04 |
EP1328925A2 (en) | 2003-07-23 |
US20050143980A1 (en) | 2005-06-30 |
US7493256B2 (en) | 2009-02-17 |
CN1302459C (zh) | 2007-02-28 |
ATE549714T1 (de) | 2012-03-15 |
AU1345402A (en) | 2002-04-29 |
ES2380962T3 (es) | 2012-05-21 |
JP2004517348A (ja) | 2004-06-10 |
TW563094B (en) | 2003-11-21 |
US7191125B2 (en) | 2007-03-13 |
EP1328925B1 (en) | 2008-04-23 |
EP1912207B1 (en) | 2012-03-14 |
KR20030041169A (ko) | 2003-05-23 |
KR100798668B1 (ko) | 2008-01-28 |
CN1470051A (zh) | 2004-01-21 |
DE60133757T2 (de) | 2009-07-02 |
JP4270866B2 (ja) | 2009-06-03 |
US20070192092A1 (en) | 2007-08-16 |
EP1912207A1 (en) | 2008-04-16 |
WO2002033695A2 (en) | 2002-04-25 |
HK1060430A1 (en) | 2004-08-06 |
DE60133757D1 (de) | 2008-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2302754T3 (es) | Procedimiento y aparato para codificacion de habla sorda. | |
EP1141947B1 (en) | Variable rate speech coding | |
US7472059B2 (en) | Method and apparatus for robust speech classification | |
US7149683B2 (en) | Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding | |
US6456964B2 (en) | Encoding of periodic speech using prototype waveforms | |
US6463407B2 (en) | Low bit-rate coding of unvoiced segments of speech | |
ES2253226T3 (es) | Codigo interpolativo multipulso de tramas de voz. | |
EP1597721B1 (en) | 600 bps mixed excitation linear prediction transcoding | |
KR20020081352A (ko) | 유사주기 신호의 위상을 추적하는 방법 및 장치 | |
Drygajilo | Speech Coding Techniques and Standards | |
Unver | Advanced Low Bit-Rate Speech Coding Below 2.4 Kbps | |
GB2352949A (en) | Speech coder for communications unit |