ES2247741T3 - Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio. - Google Patents
Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.Info
- Publication number
- ES2247741T3 ES2247741T3 ES99100790T ES99100790T ES2247741T3 ES 2247741 T3 ES2247741 T3 ES 2247741T3 ES 99100790 T ES99100790 T ES 99100790T ES 99100790 T ES99100790 T ES 99100790T ES 2247741 T3 ES2247741 T3 ES 2247741T3
- Authority
- ES
- Spain
- Prior art keywords
- encoder
- coding
- signals
- audio
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000005236 sound signal Effects 0.000 claims abstract description 20
- 230000009466 transformation Effects 0.000 claims description 37
- 230000007704 transition Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 abstract 2
- 230000001755 vocal effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 15
- 230000005284 excitation Effects 0.000 description 15
- 238000011002 quantification Methods 0.000 description 15
- 230000003595 spectral effect Effects 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000013213 extrapolation Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000873 masking effect Effects 0.000 description 7
- 238000004806 packaging method and process Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000010998 test method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 101100202924 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) tsp-2 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- MOXZPMYMMBOUJY-UHFFFAOYSA-N n-[2-(2-aminoethylsulfanyl)ethyl]-5-(dimethylamino)naphthalene-1-sulfonamide Chemical compound C1=CC=C2C(N(C)C)=CC=CC2=C1S(=O)(=O)NCCSCCN MOXZPMYMMBOUJY-UHFFFAOYSA-N 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
SE EXPONE UN PROCEDIMIENTO PARA CONMUTACION CONTROLADA POR SEÑAL ENTRE ESQUEMAS DE CODIFICACION AUDIO, QUE INCLUYE LA RECEPCION DE SEÑALES AUDIO DE ENTRADA, LA CLASIFICACION DE UN PRIMER CONJUNTO DE SEÑALES AUDIO DE ENTRADA COMO SEÑALES VOCALES O NO VOCALES, LA CODIFICACION DE LAS SEÑALES VOCALES UTILIZANDO UN PROGRAMA DE CODIFICACION DE DOMINIO DE TIEMPO, Y LA CODIFICACION DE LAS SEÑALES NO VOCALES CON EL USO DE UN PROGRAMA DE CODIFICACION DE TRANSFORMADA. UN CODIFICADOR MULTICODIGO TIENE UNA ENTRADA DE SEÑALES AUDIO Y UN CODIFICADOR PARA RECIBIR LAS ENTRADAS DE DICHAS SEÑALES, TENIENDO EL CODIFICADOR UN CODIFICADOR DE DOMINIO DEL TIEMPO, UN CODIFICADOR DE TRANSFORMADA Y UN CLASIFICADOR DE SEÑAL PARA CLASIFICAR LAS SEÑALES AUDIO EN GENERAL COMO VOCALES O NO VOCALES, DIRIGIENDO EL CLASIFICADOR DE SEÑALES LAS SEÑALES AUDIO VOCALES AL CODIFICADOR DEL DOMINIO DE TIEMPO, Y LAS SEÑALES AUDIO NO VOCALES AL CODIFICADOR DE TRANSFORMADA. SE PROPORCIONA IGUALMENTE UN DECODIFICADOR MULTICODIGO.
Description
Método para conmutación controlada por señales
entre esquemas de codificación de audio.
La presente invención se refiere a un
procedimiento y dispositivo para codificar señales de audio.
Las señales de audio, tales como palabras, sonido
de fondo y música, pueden ser convertidas en datos digitales
utilizando esquemas codificadores de audio. Las señales de entrada
de audio están típicamente muestreadas a una cierta frecuencia, y se
les asigna un número de bits por muestra según el esquema de
codificación de audio utilizado. Entonces, pueden ser transmitidos
los bits como datos digitales. Después de la transmisión, un
decodificador puede decodificar los datos digitales, y dar salida a
una señal analógica, por ejemplo a un altavoz.
Un esquema de codificación, el PCM (modulación de
código por impulsos), puede muestrear palabras de teléfono
(típicamente de 300-3400 Hz) a 8 kHz y requiere 8
bits PCM por muestra, resultando un flujo digital de 64 kb/s. Con
palabras de ancho de banda PCM (típicamente de
60-7.000 kHz) pueden ser muestreadas a 16 kHz y
asignar 14 bits PCM por muestra, resultando una velocidad de bits
PCM de 224 kb/s. Y un audio de un ancho de banda (típicamente de
10-20.000 Hz) puede muestrearse a 48 kHz y asignar
16 bits PCM por muestra, resultando una velocidad de bits PCM de 768
kb/s.
Tal como se describe en "The ISDN Studio"
("El estudio ISDN") por Dave Immer, en la 99ª Convención de la
Sociedad de Ingenieros de Audio, de 8 de Octubre de 1995, en la
ciudad de Nueva York, pueden usarse otras técnicas codificadoras de
audio para conseguir velocidades de bits menores que las velocidades
de bits PCM. Estos esquemas codificadores de audio hacen caso omiso
de la información irrelevante o redundante y caen dentro de dos
categorías básicas: esquemas basados en la transformación (en el
campo de la frecuencia), y esquemas basados en el campo de tiempo
(predictivos). Un esquema basado en el campo de la frecuencia
utiliza reducción de bits utilizando características conocidas
(contenidas en una tabla de búsqueda) de la audición humana. Este
proceso de reducción de bits es conocido también como codificación
perceptual. La información psicoacústica de la forma de onda se
transmite por los datos digitales y es reconstruida en un
decodificador. Los ruidos asimilados ("aliasing") típicamente
están enmascarados con subbandas que contienen la mayor energía. La
respuesta de la frecuencia de audio para la codificación en el campo
de frecuencia es de mucha menor velocidad de bits dependiente de un
proceso de campo de tiempo. Sin embargo, puede dar como resultado un
mayor retraso codificador.
Las técnicas codificadoras de campo de tiempo
utilizan análisis predictivos basados en tablas de búsqueda
disponibles para el codificador, y transmiten diferencias entre una
predicción y una muestra actual. La información redundante puede ser
añadida detrás al decodificador. Con las técnicas codificadoras
basadas en campo de tiempo, la respuesta a la frecuencia de audio
depende de la velocidad de bits. Sin embargo, da como resultado un
retraso codificador muy bajo.
Un esquema de codificación basado en el campo del
tiempo es el CELP (predicción lineal de código excitado). El CELP
puede usarse para codificar señales de palabras telefónicas
utilizando una velocidad de datos tan baja como 16 kb/s. La palabra
entrada puede dividirse en unidades de información en una velocidad
de muestreo de 8 kHz. Utilizando una biblioteca de códigos de ondas
de excitación y un mecanismo de búsqueda en bucle cerrado para
identificar la onda de excitación más adecuada para cada unidad de
información, el algoritmo CELP puede proporcionar el equivalente de
2 bits por muestra para codificar adecuadamente la palabra, de modo
que se consigue una velocidad de bits de 16 kb/s. Con palabras de
ancho de banda hasta 7 kHz, puede utilizarse una muestra de 16 kHz,
también con el equivalente de 2 bits por muestra, de modo que se
consigue una velocidad de bits de 32 kb/s.
El CELP tiene la ventaja de que las señales de
palabra pueden ser transmitidas en velocidades de bits bajas,
incluso a 16 kb/s.
El ATC (codificador de transformación adaptable)
es un esquema de código de transformación. Las señales de audio se
reciben muestreadas, y divididas en unidades de información. Un
transformador, tal como el MDCT (transformador de cosigno discreto
modificado), se ejecuta sobre las unidades de información, de modo
que pueden calcularse coeficientes de transformación. El cálculo de
los coeficientes utilizando el MDCT se explica, por ejemplo, en
"High-Quality Audio Transform Coding at 64
Kbps" ("Código de transformación de audio de calidad elevada a
64 Kbps"), por Y. Mahieux & J.P. Petit, IEEE Trans. on
Communications, Vol. 42, No. 11, Noviembre 1994, que se
incorpora como referencia a la presente descripción. Los
coeficientes MDCT entonces pueden ser codificados en bits y se
transmiten digitalmente.
El codificado ATC tiene la ventaja de
proporcionar transmisión de audio de elevada calidad, para señales
tales como música y sonido de fondo.
A fecha de hoy, típicamente solamente se ha
utilizado un tipo de técnica codificadora para codificar señales de
entrada de audio en un sistema codificador. Sin embargo,
especialmente en velocidades bajas de bits, esto no lleva a una
transferencia óptima de señales de audio debido a las limitaciones
del campo de tiempo y las técnicas codificadoras de
transformación.
La presente invención proporciona, en diferentes
tiempos, tanto el uso de la codificación en el campo de la
frecuencia como en el campo de tiempo, de modo que, dependiendo del
ancho de banda disponible, puede optimizarse la transferencia
digital de señales de audio.
La presente invención proporciona así un
procedimiento para conmutación controlada de señales, que
comprende:
recepción de señales de audio de entrada;
clasificación de un primer conjunto de señales de
audio de entrada como palabras o señales que no son palabras;
codificación de las señales de palabra utilizando
un esquema de codificación de campo de tiempo; y
codificación de las señales que no son palabras
utilizando un esquema de código de transformación.
Preferentemente el esquema de codificación de
campo de tiempo es un esquema de codificación CELP y el esquema de
codificación de transformación es un esquema de codificación ATC. El
procedimiento de la presente invención puede usar así un codificador
ATCELP que es una combinación de un esquema de codificación ATC y un
esquema de codificación CELP.
El esquema de codificación de campo de tiempo se
usa principalmente para señales de palabra y el esquema de
codificación de transformación se usa principalmente para señales de
música y de sonido de fondo estacionario, proporcionando así las
ventajas de ambos tipos de esquemas de codificación.
El presente procedimiento se utiliza
preferentemente solamente cuando está disponible un ancho de banda
de menos de 32 kb/s, por ejemplo, de 16 kb/s ó 24 kb/s. Para una
velocidad de bits de 32 kb/s o superior, entonces solamente se
utiliza el modo de transformación de un codificador de código
múltiple.
La presente invención proporciona también un
codificador de código múltiple, que comprende:
una entrada de señal de audio; y
un conmutador para recibir las entradas de
señales de audio, teniendo el conmutador un codificador de campo de
tiempo, un codificador de transformación, y un clasificador de
señales para clasificar las señales de audio, en general como
palabra o no palabra, dirigiendo el clasificador de señales las
señales de audio de palabra al codificador de campo de tiempo y las
señales de audio de no palabra al codificador de transformación.
El codificador de campo de tiempo es
preferentemente un codificador CELP y el codificador de
transformación, un codificador ATC. El cambio entre estas dos
técnicas de codificación (CELP y ATC) se controla por el
clasificador de señales, que trabaja exclusivamente sobre la señal
de entrada de audio. El modo elegido (palabra o no palabra) del
clasificador de señales puede ser transmitido como información
lateral al decodificador.
La presente invención proporciona también un
decodificador de código múltiple que tiene un decodificador de
transformación, un decodificador de campo de tiempo y un conmutador
de salida para conmutar señales entre los decodificadores de campo
de transformación y de tiempo.
Otras mejoras y variaciones de la invención se
especifican en las reivindicaciones subordinadas.
La presente invención debe comprenderse en su
conjunto con los dibujos, en los que:
la figura 1 muestra un codificador de código
múltiple según la presente invención;
la figura 2 muestra un decodificador de código
múltiple según la presente invención;
las figuras 2a y 2b muestran el funcionamiento de
un decodificador de código múltiple según la presente invención
durante las transiciones entre un modo ATC y un modo CELP;
la figura 3 muestra un diagrama de bloques de un
codificador CELP de la presente invención;
la figura 4 muestra un diagrama de bloques del
decodificador CELP de la presente invención;
la figura 5 muestra un diagrama de bloques del
codificador ATC de la presente invención;
la figura 6 muestra un diagrama de bloques del
decodificador ATC de la presente invención;
la figura 7 muestra un diagrama de bloques del
decodificador de unidad válida, mostrado en la figura 6; y
la figura 8 muestra un diagrama de bloques de la
unidad de ocultación de errores, mostrada en la figura 6.
La figura 1 muestra un diagrama de bloques
esquemático de un codificador de código múltiple. Las señales de
audio entran por una entrada de señales de audio (10) del
codificador de código múltiple, llamado también a continuación,
codificador. Desde la entrada (10), las señales de audio se entregan
a un primer conmutador (20) y a un clasificador de señales (22). Una
entrada (30) de velocidad de bits, que puede ser puesta en la
velocidad pertinente de bits de datos, está conectada también al
clasificador de señales (22).
El conmutador (20) puede dirigir las señales de
audio de entrada o bien a un codificador de campo de tiempo (40) o
bien a un codificador de transformación (50).
La señal de salida digital del codificador (40) o
del codificador (50) se transfiere a continuación a un canal que
depende de la posición de un segundo conmutador (21). Los
conmutadores (20), (21) están controlados por una señal de salida
del clasificador de señales (22).
El codificador de código múltiple funciona como
sigue:
La señal entrada en la entrada de señales (10) se
muestrea a 16 kHz y se procesa unidad por unidad en base a una
longitud de unidad de 320 muestras (20 ms) usando un mirador hacia
adelante de una unidad. De esta manera, el codificador tiene un
retraso de codificación de 40 ms, 20 ms para la unidad procesada y
20 ms para la unidad que mira hacia adelante, que puede ser
almacenada temporalmente en un almacén.
El clasificador de señales (22) se usa cuando el
ancho de banda de la entrada (30) indica una velocidad de bits
disponible menor de 32 kb/s, por ejemplo, velocidades de bits de 16
y 24 kb/s, y clasifica las señales de audio de modo que el
codificador envía señales tipo palabra a través del codificador de
campo de tiempo (40) y señales de tipo no palabra, tales como
señales de música o ruido de fondo estacionario, a través del
codificador de transformación (50).
Para una velocidad de bits de 32 kb/s o mayor, el
codificador opera de modo que el codificador siempre transfiere
señales a través del codificador de transformación (50).
Para velocidades de bits inferiores de 16 y 24
kb/s, el codificador opera de modo que, en primer lugar, el
clasificador de señales (22) calcula un juego de parámetros de
entrada desde la unidad de audio actual, tal como se muestra en el
bloque (24). Después de ello, se calcula una decisión preliminar
usando un juego de operaciones lógicas definidas heurísticamente,
tal como se muestra en el bloque (26).
Finalmente, tal como se muestra en el bloque
(28), se aplica un procedimiento posterior al procesado para
garantizar que la conmutación se realiza solamente durante las
unidades que permiten una transición suave de un modo al otro.
La señal de entrada de audio, que, en este caso,
puede ser de un ancho de banda limitado a 7 kHz, es decir, auna
velocidad de ancho de banda de palabra, puede ser clasificada como
palabra o no palabra. En el bloque (24), el clasificador de señales
(22) calcula, en primer lugar, dos predicciones de ganancias,
estando basada una primera predicción de ganancia en un análisis LPC
(coeficientes de predicción lineal) de la unidad de palabra de
entrada actual, y estando basada una segunda predicción de ganancia
en un análisis LPC de orden elevado, de las unidades de entrada,
anteriores. Por consiguiente, la segunda predicción de ganancia es
similar a un análisis LPC hacia atrás basado en coeficientes que se
derivan de las muestras de entrada en vez de palabra de salida
sintetizada.
Un parámetro de entrada adicional para la
determinación de una medición de estacionalidad por el codificador
es la diferencia entre los coeficientes anterior y actual LSF
(frecuencia de espectro lineal), que se calculan en base a un
análisis LPC de la unidad de palabra actual.
Tal como se muestra esquemáticamente en el bloque
(26), la diferencia de las predicciones de ganancia primera y
segunda y la diferencia de los coeficientes anterior y actual LSF se
usan para obtener la medición de estacionalidad, que se utiliza como
un indicador para la unidad actual, tanto si es música como palabra.
Todos los umbrales para las operaciones lógicas pueden obtenerse de
la observación de una gran cantidad de señales de palabra y música.
Se comprueban condiciones especiales para señales ruidosas de
palabra o voz.
Tal como se muestra esquemáticamente en el bloque
(28), antes de que ocurra cualquier conmutación entre el modo de
campo de tiempo y el modo transformador, se realiza un procedimiento
de ensayo final en el clasificador de señales (22) para examinar si
la transición de un modo al otro llevará a una señal de salida suave
en el decodificador. A efectos de reducir la complejidad, este
procedimiento de ensayo se realiza sobre la señal de entrada. Si es
probable que la conmutación lleve a una degradación audible, la
decisión para la conmutación de los modos se retrasa a la próxima
unidad.
El esquema de transición, que forma la base del
procedimiento de ensayo en el bloque (28), es tal como sigue: si el
clasificador (22) en el bloque (26) decide realizar una transición
desde el modo transformador al modo de campo de tiempo en la unidad
n, la unidad de orden n es la unidad última a calcular para
el esquema transformador usando una función de ventana modificada.
La función de ventana modificada utilizada para las unidades n y
(n+1) se pone a cero para las últimas 80 muestras. Esto hace posible
que el codificador de transformación decodifique las primeras 80
muestras de la unidad (n+1). Por otra parte, esto podría causar
efectos de "aliasing", porque el solapado de las funciones de
ventana sucesivas no es posible sin los coeficientes de
transformación de la unidad siguiente. En la unidad de orden (n+1),
donde el modo de campo de tiempo se realiza por primera vez,
solamente los últimos 5 ms pueden ser codificados por el codificador
de campo de tiempo (ocasionado por un retraso del banco de filtro),
de modo que, en esta unidad, 10 ms de la señal de palabra tendrán
que ser extrapolados al lado del
decodificador.
decodificador.
La figura 2a muestra esta transición para un
cambio de modo ATC a CELP. Tal como puede observarse, en la unidad
de orden (n+1), los primeros 5 ms de la unidad son codificados ATC y
los últimos 5 ms de la unidad son codificados CELP. La extrapolación
para los 10 ms tiene lugar en el decodificador de código múltiple.
Tal como se muestra en la figura 2, el decodificador de código
múltiple de la presente invención tiene una entrada (80) de señal
digital para recibir las señales transmitidas desde el canal, un
conmutador de entrada (81), un decodificador (60) de campo de
tiempo, un decodificador de transformación (70), un conmutador de
salida (82) y una salida
(83).
(83).
Si el clasificador de señales (22) en el bloque
(26) de la figura 1 decide realizar una transición desde el modo de
campo de tiempo al modo transformador en una unidad entrada n, la
primera unidad que es codificada por el esquema transformador es la
unidad número n. Esta codificación de transformación se realiza
usando una función de ventana modificada similar a la utilizada en
la transición de ATC a CELP mostrada en la figura 2a, pero invertida
en el tiempo, tal como se muestra en la figura 2b utilizando ATC
como un ejemplo del esquema transformador y CELP como un ejemplo del
esquema de campo de tiempo. Esto hace posible que el esquema
transformador decodifique las últimas 80 muestras de número de
unidad n. Los primeros 5 ms de esta unidad de transición
(número n) pueden ser decodificados desde los últimos
coeficientes de campo de tiempo transmitidos.
Por consiguiente, la extrapolación en el
decodificador también se realiza en una longitud de 10 ms, tal como
muestra la figura 2b.
La extrapolación se realiza calculando una señal
residual de alguna de las unidades de salida anteriores
sintetizadas, que se extienden según el intervalo de paso y usando
entonces el filtrado del filtro de síntesis LPC. Los coeficientes
LPC se calculan por un análisis LPC hacia atrás, de las últimas
unidades de salida sintetizadas. El cálculo del paso del bucle
abierto puede ser similar al del esquema de codificación CELP.
Para evitar discontinuidades en el final de la
señal extrapolada, la extrapolación se realiza en una longitud de 15
ms, en los que los últimos 5 ms de la señal extrapolada se ponderan
con una función ventana de sen^{2} y se añaden a las
correspondientes muestras sintetizadas ponderadas del esquema de
codificación usado.
La extrapolación se aplica también en el
procedimiento de ensayo del bloque (28) usando solamente la señal de
entrada: si la señal extrapolada es muy similar a la señal de
entrada original, es elevada la probabilidad de una transición suave
en el decodificador y la transición puede realizarse. En caso
contrario, la transición puede ser retrasada.
Preferentemente, los esquemas de codificación de
transformador y campo de tiempo, usados en los codificadores y
decodificadores de las figuras 1 y 2, están modificados por esquemas
de codificación ATC y CELP, respectivamente. En estos esquemas,
están previstos dos bits de modo adicionales en los esquemas de
codificación para información de cambio ATC/CELP. Estos dos bits se
toman de los bits usados típicamente para la codificación de los
coeficientes ATC o de los bits para la protección de error CELP,
respectivamente.
Los cuatro modos transmitidos son:
Modo 0: | modo CELP (modo CELP continuo) |
Modo 1: | modo de transición ATC CELP |
Modo 2: | modo de transición CELP ATC |
Modo 3: | modo ATC (modo ATC continuo) |
Los dos bits de información pueden identificar de
esta manera el modo para la unidad pertinente. Desde luego, para
esquemas de codificación distintos de los ATC y CELP, estos dos bits
pueden ser transmitidos también dentro de dichos esquemas de
codificación. Así, la descripción siguiente con respecto a CELP y
ATC es pertinente también en otras técnicas de codificación de campo
de tiempo y transformador, respectivamente.
La presente invención puede proporcionar también
ocultación de error para borrados de unidad. Si ocurre un borrado de
unidad y la última unidad fue procesada en modo O (por
ejemplo CELP), entonces el modo CELP se mantendrá para esta unidad.
De otro modo, si la última unidad no fue procesada en modo O,
entonces la unidad borrada se manejará como una unidad ATC
borrada.
Si se borra una unidad que indica una transición
de ATC a CELP (es decir, de modo 1), se usará para manejo una
unidad mala ATC (ATC-BFH), puesto que la unidad
anterior era una unidad ATC (modo 3). Sin embargo, puesto que
la siguiente unidad no borrada es ya una unidad CELP (modo
O), deberá ejecutarse una señal de extrapolación que cubra 15
ms.
Por otra parte, si se borra una unidad indicando
una transición de CELP a ATC (es decir, modo 2), se usa una
operación CELP-BHF (manejo de unidad mala). A la
detección de la unidad siguiente no borrada, que es en modo ATC
(modo 3), debe ejecutarse un extra ATC-BFH a
efectos de posibilitar el decodificado de la unidad ATC no
borrada.
La ocultación del borrado de unidad de cada
esquema de codificación individual se describe más adelante.
Tal como se estableció anteriormente, la presente
invención usa preferentemente un esquema CELP como el esquema de
codificación de campo de tiempo efectuado por el codificador (40) de
la figura 1. El esquema CELP puede ser un esquema de codificación de
fuente de banda ancha para una subbanda CELP
(SB-CELP) de velocidades de bits de 16 kbit/s y 24
kbit/s.
La figura 3 muestra un diagrama de bloques de un
codificador SB-CELP (140). El esquema del
codificador está basado en un esquema de banda dividida en dos
subbandas desiguales usando un codificador ACELP (predicción lineal
excitada de código algebraico) en la subbanda inferior. El
codificador CELP (140) funciona en un esquema de banda dividida
usando dos subbandas desiguales de 0-5 kHz y
5-7 kHz. La señal de entrada se muestrea a 16 kHz y
se procesa con una longitud de unidad de 320 muestras (20 ms).
Un banco de filtros (142) realiza la división en
dos subbandas desiguales y el submuestreo crítico de las dos
subbandas. Puesto que la señal de entrada típicamente es una banda
limitada a 7 kHz, la velocidad de muestreo de la banda superior
puede ser reducido a 4 kHz. Todas las salidas del banco de filtros
de análisis (142), una unidad de la banda superior
(5-7 kHz) tiene 80 muestras (20 ms). Una unidad de
la banda inferior (0-5 kHz) tiene 200 muestras (20
ms), según una frecuencia de muestreo de 10 kHz. El retraso del
banco de filtros de análisis llega a 5 ms. La banda de
0-5 kHz se codifica usando ACELP, teniendo lugar en
el subcodificador (143) de la banda inferior.
Las longitudes de subunidad usadas por las
diferentes partes del codificador se indican en la Tabla 1, siendo 5
ms para el LTP o biblioteca de códigos adaptables (ACB) y 1 ... 2,5
ms para los parámetros fijos de la biblioteca de códigos (FCB). Un
modo de voz puede ser conmutado cada 10 ms.
Parámetros | Nombre del período actualizado | Longitud del período |
actualizado 16 kbit/s | 24 kbit/s | ||
LPC | unidad | 200 (20 ms) |
modo LPT | unidad de bucle abierto | 100 (10 ms) |
parámetros ACB | subunidad ACB | 50 (5 ms) |
parámetros FCB | subunidad FCB | 25 (2,5 ms) | 10 (1,0 ms) |
El análisis de la predicción lineal dentro del
subcodificador de banda inferior (143) tiene lugar de tal modo que
los coeficientes del filtro de síntesis del término corto (LP) se
actualizan cada 20 ms. Dependiendo de las características de la
señal de entrada inclinada, se usan diferentes procedimientos LP.
Para pasos de palabra y música fuertemente no estacionaria, se elige
el modo hacia adelante a través del bloque (147), es decir, se
calcula un modelo LP de orden bajo (N_{p} = 12) desde la
unidad actual y se transmiten los coeficientes. Para obtener los
parámetros LP, se aplica un enfoque de autocorrelación a un segmento
de ventana de 30 ms de la señal de entrada de señal. Se usa una
consulta adelantada de 5 ms. La cuantificación de los 12 parámetros
LP hacia adelante se realiza en el campo LSF (Frecuencias
espectrales lineales) usando 33 bits. Particularmente para bastantes
pasos de música estacionaria, se adaptaría típicamente el modo hacia
atrás, un filtro LP de orden elevado (N_{p} = 52) desde un
segmento de 35 ms de la señal sintetizada anteriormente. Por
consiguiente, no debe transmitirse ninguna otra información de
parámetro LP. Sin embargo, con el codificador de código múltiple de
la presente invención no precisa ser usado este modo hacia atrás, en
tanto el esquema de código transformador pueda codificar pasos de
música estacionaria.
El conmutador de modo LPC se basa en la
predicción de ganancias de los filtros LPC hacia adelante y hacia
atrás y un indicador de estacionariedad. Un bit de modo se transmite
al decodificador para indicar el modo LPC para la unidad actual. En
el modo hacia adelante LPC, los parámetros del filtro de síntesis
están interpolados linealmente en el campo LSF. Tal como se ha
mencionado, el modo hacia atrás no se usa en la presente invención,
y así el conmutador de modo LPC se coloca siempre para elegir el
modo hacia adelante.
El análisis del paso y la búsqueda de la
biblioteca de códigos adaptable (ACB) del codificador de banda baja
(143) es como sigue: dependiendo del modo de voz de la señal de
entrada, se calcula un filtro de predicción a largo plazo (LTP) por
una combinación de análisis LTP de bucle abierto y de bucle cerrado.
Para cada 10 ms mitad de la unidad (bucle abierto, u OL, unidad), se
calcula un paso estimado de bucle abierto en el bloque (144) usando
una medición de correlación ponderada. Dependiendo de esta
estimación y de la señal de entrada, se toma una decisión de voz en
el bloque (146) y se codifica por un bit de modo.
En el caso de que una unidad OL es declarada de
voz, se realiza la búsqueda de una biblioteca de códigos adaptable
de bucle cerrado, limitada, por medio del ACB en el bloque (148),
alrededor del bucle abierto estimado en la primera y tercera
subunidades ACB. En la segunda y cuarta subunidades ACB se realiza
una búsqueda restringida alrededor del intervalo de paso del
análisis de bucle cerrado de la primera o tercera subunidad ACB,
respectivamente.
Este procedimiento da como resultado un esquema
de codificación delta que resulta en 8+6 = 14 bits por unidad OL
para codificar los intervalos de paso en el intervalo de 25 ...
175. Se utiliza un enfoque de paso fraccionario.
Para cada subunidad ACB, la ganancia de paso no
está cuantificada de forma escalar uniforme con 4 bits. Por
consiguiente, la velocidad total de bits de LTP llega a 22 bits por
unidad OL.
Para velocidades de bits de 16 kb/s, la búsqueda
siguiente de la biblioteca de códigos fijos a través del bloque
(149) se usa por el esquema CELP en el subcodificador (143).
Para cada 2,5 ms (25 muestras), se selecciona un
vector de forma de excitación de una biblioteca de códigos ternarios
esparcidos ("biblioteca de códigos de impulsos").
Dependiendo de la velocidad de bits disponible
para la excitación, es decir, dependiendo de la colocación de los
conmutadores del modo LPC y modo de voz, se seleccionan diferentes
configuraciones de la biblioteca de códigos algebraicos:
Un vector innovación contiene 4 ó 5 pistas con un
total máximo de 10 ó 12 impulsos distintos de cero, dando como
resultado velocidades de bits de 25 a 34 bits para codificar un
vector de forma. La ganancia FCB se codifica usando predicción MA
fija entre unidades de la energía logarítmica del vector de
excitación escalado. La predicción residual de una forma escalar no
uniforme utilizando 4 ó 5 bits, dependiendo también de la velocidad
de bits disponible.
En velocidades de bits de 24 kb/s, se usa la
siguiente búsqueda de biblioteca de códigos fijos:
Cada 1 ms (10 muestras), se selecciona un vector
de forma de excitación o bien de la biblioteca de códigos
("biblioteca de códigos de impulso") algebraicos ternarios
esparcidos o bien de una biblioteca de códigos ternarios con cero
muestras forzadas ("biblioteca de códigos ternarios").
Dependiendo de la velocidad de bits disponible
para la excitación, es decir, dependiendo de la colocación de los
conmutadores para el modo LPC y el modo de voz, se seleccionan
diferentes configuraciones de la biblioteca de códigos algebraicos.
Para la biblioteca de códigos de impulso, un vector innovación
contiene 2 pistas con un total máximo de 2 ó 3 impulsos distintos de
cero, dando como resultado cantidades de bits de 12, 14 ó 16 bits
para codificar. Para la biblioteca de códigos ternarios, se codifica
también un vector de forma usando 12, 14, ó 16 bits. Ambas
bibliotecas de códigos se buscan para la innovación óptima y se
selecciona el tipo de biblioteca de códigos, que minimiza el error
de reconstrucción. Para cada subunidad FCB, el modo FCB se transmite
por un bit separado. La ganancia FCB se codifica usando predicción
MA de interunidad fija de la energía logarítmica del vector de
excitación escalado. La predicción residual se cuantifica de forma
escalar no uniforme usando 3 ó 4 bits, dependiendo también de la
velocidad de bits disponible.
Se usa en el bloque (150) un filtro ponderado
perceptual durante el proceso de minimización de la búsqueda ACB y
FCB (a través de la media de mínimos errores cuadráticos, bloque
(152-). Este filtro tiene una función de transferencia de la forma
W(z) = A(z/_{1})/A(z/_{2}), siendo
A(z) el filtro de análisis LP. Se usan diferentes
juegos de factores ponderados durante la búsqueda ACB y FCB. El
filtro ponderado perceptual se actualiza y se interpola como filtro
de síntesis LP. En el modo LPC hacia adelante, los coeficientes del
filtro ponderado se calculan a partir de la LSF no cuantificada. (En
el modo LPC hacia atrás, el filtro ponderado se calcula típicamente
a partir de coeficientes LP hacia atrás y se extiende por una
sección de compensación inclinada).
La codificación de la banda superior
(5-7 kHz) tiene lugar en el subcodificador (160) de
banda superior, tal como se describe a continuación.
Para velocidades de bits de 16 kb/s, la banda
superior no se transmite, y de esta forma no se codifica.
A 24 kb/s, la subbanda superior reducida se
codifica usando la técnica (CELP) de predicción lineal de código
excitado.
El codificador funciona sobre unidades de señal
de 20 ms (80 muestras en una velocidad de muestreo de 4 kHz). Una
unidad de banda superior se divide en 5 subunidades (FCB) de
excitación de muestras de longitud 16 (4 ms). Los coeficientes del
filtro de síntesis del término corto (LP) para un orden de modelo de
N_{p} = 8 se calculan aplicando un enfoque de covariancia
de Burg a un segmento de entrada de longitud 160 (40 ms) y
cuantificado con 10 bits.
De los parámetros LP, un filtro ponderado
perceptual (indicado en el bloque (162-) que tiene una función de
transferencia de la forma W(z) =
A(z/_{1})/A(z/_{2}), representando
A(z) el filtro LP inverso, se calcula por la búsqueda
de la biblioteca de códigos fijos (FCB).
En la búsqueda FCB de la banda superior, un
vector de forma de innovación de longitud 16 muestras se elige de
una biblioteca de códigos estocásticos Gausiano de 10 bits. La
ganancia FCB se codifica usando predicción fija MA interunidad, con
el residual que se cuantifica en forma escalar no uniforme con 3
bits.
La figura 4 muestra un decodificador CELP (180)
para decodificar señales codificadas CELP recibidas. El decodificado
de la banda 0-5 kHz tiene lugar en el
subdecodificador de banda baja (182) tal que la excitación total se
construye a partir de los índices de la biblioteca de codificación
(adaptable y fijo) recibidos y de las ganancias de las palabra
clave, dependiendo del modo y de la velocidad de bits. Esta
excitación pasa a través del filtro de síntesis LP (188) y un filtro
posterior adaptable (189).
Según los procedimientos de codificación, o bien
los coeficientes LP recibidos se usan para el filtro de síntesis LP
durante los modos hacia adelante; o bien, para los modos hacia
atrás, se calcula un filtro de orden elevado a partir de la señal
sintetizada anteriormente antes del filtrado posterior.
El filtro posterior adaptable (189) tiene una
cascada de un filtro posterior de formato, un filtro posterior
armónico, y un filtro de compensación inclinado. Después del
filtrado posterior, se realiza una ganancia adaptable. El filtrado
posterior no es activo durante el modo LPC hacia atrás.
La banda de 5-7 kHz se decodifica
en el subdecodificador de banda alta (184) tal como se describe a
continuación. A 16 kb/s, no se transmite ningún parámetro de banda
alta. La señal de salida de banda alta se pone a cero por el
decodificador.
A 24 kbit/s, los parámetros recibidos se
decodifican. Cada 4 ms, se genera un vector de 16 muestras a partir
de la entrada FCB recibida y se calcula una ganancia usando el
residual recibido y la predicción estimada localmente. Esta
excitación se pasa a través del filtro de síntesis LP (185).
Después de decodificar las señales de las dos
subbandas, un banco de filtro de síntesis (181) no proporciona
ningún muestreo, proporciona interpolación y una superposición
compensada en retraso de estas señales, teniendo la estructura
inversa como el banco de filtros de análisis. El banco de filtro de
síntesis contribuye con 5 ms de
retraso.
retraso.
La ocultación del bit de error lo proporciona el
decodificador (180). Dependiendo de la velocidad de bits y el modo,
están disponibles números diferentes de bits (de paridad). Se
asignan bits únicos de paridad a parámetros de codificación
particular, a efectos de localizar errores y tomar medidas
interpolativas específicas para la ocultación. La protección del
error de bit es importante especialmente para el bit de modo LPC,
los coeficientes LP, los intervalos de paso y las ganancias fijas de
la biblioteca de códigos.
También está prevista la ocultación del borrado
de unidad. Cuando se detecta un borrado de unidad, el filtro LP de
síntesis de la unidad anterior se reutiliza. En base a una decisión
con voz/ sin voz de la unidad anterior, se construye o un paso
síncrono o una extrapolación asíncrona de la excitación previa y se
usa para sintetizar la señal en la unidad actual, perdida. Para
subsiguientes unidades perdidas, se efectúa una atenuación de la
excitación.
Las tablas 2 y 3 dan la asignación de bits para
los modos 16 y 24 kbit/s, respectivamente, del esquema CELP de la
figura 3.
16 kbit/s | ||
Parámetro | bits colocados | |
modo LPC | 1 | |
modo de voz | 2 | |
coeficientes LP | 33 | |
banda inferior | intervalo ACB | (0 ó 14) + (0 ó 14) |
ganancia ACB | (0 u 8) + (0 u 8) | |
forma FCB | (100, 120 ó 136) + (100, 120 ó 136) | |
ganancia FCB | (16 ó 18) + (16 ó 18) | |
banda superior | - | |
protección de error | 1 ... 9 | |
Total | 320 |
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
24 kbit/s | ||
Parámetro | bits colocados | |
modo LPC | 1 | |
modo de voz | 2 | |
coeficientes LP | 33 | |
banda baja | intervalo ACB | (0 ó 14) + (0 ó 14) |
ganancia ACB | (0 u 8) + (0 u 8) | |
modo FCB | 20 | |
forma FCB | (120, 140 ó 160) + (120, 140 ó 160) | |
ganancia FCB | (31, 32, 33 ó 34) + (31, 32, 33 ó 34) | |
coeficientes LP | 10 | |
banda superior | forma FCB | 40 |
ganancia FCB | 15 | |
protección de error | 4 ... 11 | |
Total | 480 |
\newpage
El esquema de codificación transformadora
realizado por el codificador de transformación (50) de la figura 1
es preferentemente un esquema de codificación ATC, que funciona
como sigue:
La codificación transformadora es el único modo
para una velocidad de bits de 32 kbit/s. Para velocidades de bits
inferiores, se usa junto con la técnica de codificación de campo de
tiempo en el codificador de código múltiple.
El codificador ATC puede estar basado en una
transformación MDTC, que explota resultados psicoacústicos mediante
el uso de curvas de enmascarado calculadas en el campo
transformador. Dichas curvas se utilizan para situar dinámicamente
la velocidad de bits de los coeficientes transformadores.
El codificador ATC (50) se muestra en la figura
5. La señal de entrada muestreada a 16 kHz se divide en unidades de
20 ms. A continuación por cada unidad de 20 ms, se calculan los 320
coeficientes MDCT del transformador MDCT, tal como muestra el bloque
(51), con una ventana que sobrepasa dos unidades sucesivas de 20 ms.
Un detector de tonalidad (52) evalúa si la señal de entrada es tonal
o no, y se transmite esta información binaria (t/nt) al
decodificador. A continuación, un detector de voz/no voz (53) emite
la información v/nv.
Se calcula una curva de enmascarado en el bloque
(54) usando los coeficientes de transformación, y se suprimen los
coeficientes por debajo del enmascaramiento menos un umbral
dado.
La envolvente espectral de la unidad actual se
estima en el bloque (55), dividido en 32 bandas cuyas energías se
cuantifican, se codifican usando codificación entrópica y se
transmiten al decodificador. La cuantificación de la envolvente
espectral depende de la naturaleza de la señal tonal/no tonal y
voz/no voz.
A continuación para las bandas no enmascaradas
totalmente se realiza una asignación dinámica de los bits para la
codificación de coeficientes, en el bloque (56). Esta asignación usa
la envolvente espectral decodificada y se efectúa tanto por el
codificador (50) como por el decodificador. Esto evita transmitir
cualquier información sobre la asignación de bits.
Los coeficientes transformadores se cuantifican
entonces en el bloque (57) usando la envolvente espectral
decodificada para reducir la velocidad dinámica del cuantificador.
En el bloque (58) está prevista la multiplexión.
Se incluye un decodificador local para el ATCELP
(combinado de codificador ATC-CELP). El esquema
decodificador local decodifica la unidad válida siguiente, mostrado
en el bloque (71) de la figura 6. La decodificación real de los
índices de cuantificación no es necesaria, en general, siendo el
valor decodificado un subproducto del proceso de cuantificación.
Los párrafos que siguen a continuación presentan
una descripción más detallada del codificador ATC (50), a
continuación se describe el decodificador (71) y se presentan con
mayor detalle en la figura 7 los bloques específicos de la parte del
decodificador.
Los coeficientes MDCT, denominados
y(k), de cada unidad se calculan usando la expresión
que puede ser encontrada en "High-Quality Audio
Transform Coding at 64Kbps." ("Codificación transformadora de
audio de elevada calidad a 64 kbps"), por Y. Mahieux & J. P.
Petit, IEEE Trans. on Communications Vol. 42, No. 1,
Noviembre 1994, que se incorpora como referencia a la presente
descripción.
Debido a las características del ancho de banda
de ITU-T (ancho de banda limitado a 7 kHz), los
coeficientes en la velocidad (289,319) reciben el valor 0 y no se
codifican. Para una velocidad de bits de 16 kb/s, debido a la
limitación del pasabajo de 5 kHz, esta velocidad no codificada se
extiende a los coeficientes (202,319).
Se realiza una detección convencional voz/no voz
en el bloque (53) en la figura 5 sobre la señal entrada actual
x(n), usando la energía de la unidad promedio, el
primer valor "parcor", y el número de cruzamientos cero.
En el bloque (52) se realiza también una medida
de la naturaleza tonal o no tonal de la señal de entrada en los
coeficientes MDCT.
Primeramente se evalúa una medición de la
planicidad del espectro sfm como el logaritmo de la relación
entre la media geométrica y la media aritmética de los coeficientes
transformadores al cuadrado. Se aplica un procedimiento de suavizado
al sfm para evitar cambios bruscos. El valor resultante se
compara con un umbral fijo para decidir si la unidad actual es tonal
o no.
Los coeficientes de enmascarado también pueden
ser detectados en el bloque (54). El cálculo de la curva de
enmascarado puede seguir el algoritmo presentado en
"High-Quality Audio Transform Coding at
64Kbps.", por Y. Mahieux & J. P. Petit citado anteriormente.
Un umbral de enmascarado se calcula para cada coeficiente MDCT. El
algoritmo usa un modelo psicoacústico que da una expresión curva de
enmascarado en la escala Bark. La velocidad de frecuencia se divide
en 32 bandas separadas de forma no uniforme a lo largo del eje de
frecuencias, tal como se muestra en la Tabla 4. Se asume que todos
los parámetros de los que dependen frecuencias son constantes en
cada banda, se trasladan a la rejilla de frecuencias de coeficientes
transformadores, y se almacenan.
Cada coeficiente y(k) se considera
como enmascarado cuando su valor al cuadrado está por debajo del
umbral.
Banda | Límite | Núm. de | Banda | Límite | Núm. de |
superior (Hz) | coeficientes | superior (Hz) | coeficientes | ||
0 | 75 | 3 | 16 | 2375 | 10 |
1 | 150 | 3 | 17 | 2625 | 10 |
2 | 225 | 3 | 18 | 2875 | 10 |
3 | 300 | 3 | 19 | 3175 | 12 |
4 | 375 | 3 | 20 | 3475 | 12 |
5 | 475 | 4 | 21 | 3775 | 12 |
6 | 575 | 4 | 22 | 4075 | 12 |
7 | 675 | 4 | 23 | 4400 | 13 |
8 | 800 | 5 | 24 | 4725 | 13 |
9 | 925 | 5 | 25 | 5050 | 13 |
10 | 1050 | 5 | 26 | 5400 | 14 |
11 | 1225 | 7 | 27 | 5750 | 14 |
12 | 1425 | 8 | 28 | 6100 | 14 |
13 | 1650 | 9 | 29 | 6475 | 15 |
14 | 1875 | 9 | 30 | 6850 | 15 |
15 | 2125 | 10 | 31 | 7225 | 15 |
Se calcula para cada banda una envolvente
espectral en el bloque (55). La envolvente espectral
(e(j), j = 0 a 31) se define como la raíz cuadrada de
la energía promedio en cada banda. La cuantificación de los valores
e(j) es diferente para unidades tonales y no tonales.
Los 32 valores decodificados de la envolvente espectral se
denominarán e'(j). A 16 kbit/s, solamente están codificadas
26 bandas, puesto que los coeficientes en la velocidad [202,319] no
están codificados y reciben el valor cero.
Para unidades no tonales, los valores
e(j) se cuantifican en el campo logarítmico. El primer
valor logarítmico se cuantifica usando un cuantificador uniforme de
7 bits. A continuación, las bandas próximas se codifican
diferencialmente usando un cuantificador logarítmico uniforme en 32
niveles. Se utiliza entonces un procedimiento de codificación
entrópica para codificar los valores cuantificados, con las
características siguientes:
- Las bandas completamente enmascaradas reciben
un código dado, que es un codificado Huffman.
- Las bandas con valor de salida cuantificado
[-7, 8] se codifican usando una secuencia de escape, un codificado
Huffman, seguido por 4 bits de código.
- 8 tipos de códigos Huffman se designan por el
resultado de 18 palabras de código dependiendo de la decisión con
voz/sin voz por una parte, y en una clasificación de bandas (como,
por ejemplo, se describe en "High-Quality Audio
Transform Coding at 64 Kbps." por Y. Mahieux & J. P. Petit,
citado anteriormente) en 4 clases.
Para unidades tonales, se busca primero la banda
con la energía máxima, su número se codifica con 5 bits y el valor
asociado con 7 bits. Las otras bandas se codifican diferencialmente
con relación a este máximo, en el campo logarítmico, con 4 bits.
Los bits de los coeficientes se colocan
dinámicamente según su importancia perceptual. La base de dicha
colocación puede ser, por ejemplo, según la colocación descrita en
"High-Quality Audio Transform Coding at 64
Kbps." por Y. Mahieux & J. P. Petit, citado anteriormente. El
proceso se realiza tanto en el codificador ATC como en el lado del
decodificador ATC. Se calcula una curva de enmascarado en base a una
banda por banda, usando la envolvente espectral decodificada.
La colocación de bits se obtiene por un
procedimiento iterativo en el que en cada iteración, para cada
banda, se evalúa la velocidad de bits por coeficiente
R(f), aproximadamente para satisfacer las
restricciones de los cuantificadores de coeficientes. Al final de
cada iteración se calcula la velocidad global de los bits de
coeficiente R'_{0}. Se detiene el procedimiento iterativo
cuando el valor está próximo al objetivo R'_{0} o cuando se
ha alcanzado un número máximo de iteraciones.
Puesto que el valor final R'_{0} es en
general ligeramente diferente de R_{0}, la colocación de
bits se reajusta o bien por añadir velocidad de bits a las bandas
más importantes perceptualmente o bien por substraer velocidades de
bits a las bandas menos importantes perceptualmente.
La cuantificación y el codificado de los
coeficientes MDCT tiene lugar en el bloque (57). El valor
codificado actualmente para un coeficiente k de una banda
j es y(k) / e' (j).
Se han diseñado dos clases de cuantificadores
para los coeficientes:
1. Cuantificadores escalares con números impares
de niveles de reconstrucción; y
2. Cuantificadores vectoriales usando bibliotecas
de códigos algebraicos de varios tamaños y dimensiones.
Para cuantificadores escalares, pueden diseñarse
dos clases de cuantificadores dependiendo de la naturaleza v/nv de
las unidades. Los coeficientes de enmascarado reciben el valor cero.
Esto está permitido por el uso de cuantificadores que tienen cero
como nivel de reconstrucción. Puesto que es necesaria la simetría,
los cuantificadores se escogen para tener un número impar de
niveles. Esta velocidad de números va de 3 a 31.
Debido a que estos números no son potencias de 2,
los índices de cuantificación que corresponden a los coeficientes de
las bandas de cuantificación escalar se codifican conjuntamente (ver
el procedimiento de empaquetado más adelante).
Para los cuantificadores vectoriales, las
bibliotecas de códigos se incrustan y se designan por las
dimensiones de 3 a 15. Para una dimensión dada, las bibliotecas de
códigos (que corresponden a diversas velocidades de bits desde 5 a
32, dependiendo de la dimensión) se componen de la unión de códigos
de permutación, siendo posibles todas las combinaciones de
signos.
El proceso de cuantificación puede usar un
algoritmo rápido óptimo (por ejemplo como el descrito en
"Quantification vectorielle algébrique sphérique par le réseau
de Barnes-Wall. Application au codage de la
Parole" ["Cuantificación vectorial algébrica esférica para
la red Barnes-Wall. Aplicación a la codificación de
la palabra"], por C. Lamblin, Ph.D, Universidad de Sherbrooke,
Marzo de 1988, incorporado como referencia a la presente
descripción) que aprovecha la estructura de permutación de
códigos.
El codificado de la entrada de la biblioteca de
códigos seleccionado puede usar el algoritmo de Schalkwijk (como,
por ejemplo, en "Quantification vectorielle algébrique
sphérique par le réseau de Barnes-Wall. Application
au codage de la Parole", citado anteriormente) siendo los
signos codificados separadamente para las permutaciones.
El empaquetado del flujo de bits para los códigos
escalares se realiza antes de que empiece la cuantificación de los
coeficientes.
Los números de niveles para los coeficientes que
pertenecen a las bandas cuantificadas escalares se ordenan
primeramente de acuerdo con la importancia perceptual decreciente de
las bandas. Dichos números de niveles son multiplicados
iterativamente entre sí hasta que el producto alcanza un valor
próximo a una potencia de 2, ó (2^{32}-1). Los
índices de cuantificación de los coeficientes correspondientes se
codifican conjuntamente. El proceso se reinicia desde el primer
número de nivel desechado. Al final del proceso se calcula el número
de bits tomados por los códigos obtenidos. Si es mayor que el valor
permitido, se disminuye la velocidad de bits usando el proceso de
reajuste mencionado anteriormente para sustraer la velocidad de bits
a las bandas menos importantes perceptualmente. La velocidad de bits
tomado a las bandas codificadas usando cuantificadores vectoriales
no afecta al empaquetado del flujo de bits. Pero si la velocidad de
bits se toma en bandas cuantificadas escalarmente, el algoritmo de
empaquetado del flujo de bits debería ser reiniciado desde el primer
código en que ocurre una modificación. Puesto que el algoritmo del
empaquetado del flujo de bits ha ordenado el número de niveles según
la importancia decreciente de las bandas, las bandas menos
importantes, que se afectarán más probablemente, serán empaquetadas
al final del procedimiento, lo cual reduce la complejidad del
empaquetado del flujo de bits.
El algoritmo de empaquetado del flujo de bits
converge, en general, en la segunda iteración.
Los bits que corresponden a la envolvente
espectral, de decisiones con voz/sin voz y tonal/no tonal se
protegen contra los errores de transmisión aislada usando 9 bits de
protección.
La colocación global de bits para el modo ATC se
da en la tabla 5. La envolvente espectral tiene un número variable
de bits debido al código de entropía, típicamente en la velocidad
[85-90]. El número de bits colocado para los
coeficientes es igual al número total de bits (dependiendo de la
velocidad de bits) menos los otros números de bits.
v/nv | t/nt | Envolvente espectral | Coeficientes | Bits de protección |
1 bit | 1 bit | número variable de bits | número variable de bits | 9 bits |
El decodificador ATC se muestra en la figura 6.
Se ponen en marcha dos modos de funcionamiento según el indicador de
unidad defectuosa (BFI).
Cuando BFI = 0, el esquema decodificador en el
decodificador de unidad válida (71) sigue el orden de funcionamiento
según se describe con respecto a la figura 6. Se realiza una
transformación inversa MDCT en el bloque (73) en los coeficientes
decodificados MDCT y se obtiene la señal de síntesis en el campo de
tiempo por el solapado añadido de las muestras ponderadas de seno de
la unidad anterior y de la unidad actual.
Cuando BFI = 1, se detecta un borrado de unidad y
se realiza el procedimiento de ocultación de error en el bloque (72)
descrito más adelante e ilustrado por la figura 8 a efectos de
recuperar los 320 coeficientes perdidos MDCT de la unidad
actual.
Tal como se describe en la figura 7, el
decodificador de la unidad válida actúa primero a través de un
desmultiplexor (74). La decodificación de la envolvente espectral
tiene lugar en el bloque (75) para unidades no tonales y tonales.
Para unidades no tonales, los índices cuantificadores de las bandas
que siguen a la primera se obtienen comparando por orden de
probabilidades decrecientes el flujo de bits a los códigos de
Huffmann contenidos en las tablas almacenadas. Para unidades
tonales, se invierte el proceso de codificado descrito
anteriormente. También tienen lugar la colocación dinámica en el
bloque (76) y la cuantificación inversa de los coeficientes MDCT en
el bloque (77) del codificador.
El procedimiento de ocultación de error en el
bloque (72) de la figura 6 se muestra en la figura 8. Cuando se
detecta una unidad borrada por el BFI, los coeficientes MDCT
perdidos se calculan usando valores extrapolados de la señal de
salida. El tratamiento difiere para la primera unidad borrada y las
siguientes unidades sucesivas. Para la primera unidad borrada, el
procedimiento es como se explica a continuación:
- 1.
- Se realiza un análisis LPC de 14º orden en el bloque (91) usando una ventana asimétrica de 320 muestras sobre la palabra decodificada sintetizada disponible hasta la unidad borrada;
- 2.
- si la unidad anterior fue tonal (t) o de voz (v), la periodicidad del paso se calcula en el bloque (92) sobre la señal anterior sintetizada por un análisis LTP. Se selecciona un intervalo entero de entre 6 candidatos preseleccionados en la velocidad [40, ... 276] favoreciendo el valor más bajo;
- 3.
- se calcula la señal residual de la palabra sintetizada anterior;
- 4.
- se generan 640 muestras de señal de excitación en el bloque (93) a partir de la señal residual anterior, usando una periodicidad de paso en los casos de voz o tonal, o una copia simple más;
- 5.
- se obtienen 640 muestras de la señal extrapolada en el bloque (94) por el filtrado LPC de la señal de excitación; y
- 6.
- se realiza una transformación MDCT en el bloque (95) sobre esta señal para recuperar los coeficientes MDCT perdidos de la unidad borrada.
Para las unidades borradas próximas sucesivas, se
mantienen los coeficientes LTP y LPC calculados en la primera unidad
borrada y se calculan solamente 320 muestras de la nueva señal
extrapolada.
Claims (22)
1. Procedimiento para conmutación controlada por
señales entre esquemas de codificación de audio, que comprende:
- recepción de señales de entrada de audio;
- clasificación de un primer conjunto de señales entradas de audio como señales de palabra o de no palabra;
- codificación de las señales de palabra usando un esquema de codificación de campo de tiempo; y
- codificación de las señales de no palabra usando un esquema de codificación transformador.
2. Procedimiento, según la reivindicación 1, que
comprende además la conmutación de las señales de entrada de audio
entre un primer codificador (40) que tiene el esquema de
codificación de campo de tiempo y un segundo codificador (50) que
tiene el esquema de codificación transformador como una función de
la clasificación.
3. Procedimiento, según la reivindicación 1 ó 2,
que comprende además el muestreo de las señales de entrada de audio
para formar una serie de unidades de información que corresponden al
primer conjunto.
4. Procedimiento, según alguna de las
reivindicaciones 1 a 3, en el que la etapa de clasificación incluye
el cálculo de dos predicciones de ganancias y la determinación de
una diferencia entre las dos predicciones de ganancias.
5. Procedimiento, según la reivindicación 4, que
comprende además el muestreo de las señales de entrada de audio para
formar una serie de unidades, incluyendo ésta serie de unidades una
unidad actual a clasificar y una unidad anterior, incluyendo además
la etapa de clasificación la determinación de la diferencia entre
los coeficientes LSF de la unidad actual y la unidad anterior.
6. Procedimiento, según una de las
reivindicaciones 2 a 5, en el que la etapa de clasificación incluye
además el procesado posterior, determinando el procesado posterior
si ocurrirá una degradación en una salida decodificada.
7. Procedimiento, según la reivindicación 6, que
comprende además retrasar la conmutación si el procesado posterior
determina que ocurrirá la degradación.
8. Procedimiento, según una de las
reivindicaciones anteriores, que comprende además la decodificación
del primer conjunto de señales, y cuando ocurre una conmutación
entre las señales de palabra y señales de no palabra durante la
decodificación, formando una señal extrapolada.
9. Procedimiento, según la reivindicación 8, en
el que la señal extrapolada es una función de las señales
decodificadas previamente del primer conjunto de señales.
10. Procedimiento, según una de las
reivindicaciones anteriores, que comprende además la identificación
de una velocidad de bits de salida, y si la velocidad de bits de
salida es de 32 kb/s o mayor, codificar un segundo conjunto de
señales de audio usando solamente el esquema de codificación de
transformación.
11. Procedimiento, según la reivindicación 10, en
el que la clasificación del primer conjunto tiene lugar solamente
cuando la velocidad de bits de salida es menor de 32 kb/s.
12. Procedimiento, según una de las
reivindicaciones anteriores, en el que las señales de entrada de
audio tienen un ancho de banda limitado a 7 kHz.
13. Procedimiento, según una de las
reivindicaciones anteriores, en el que el esquema de codificación de
campo tiempo es un esquema CELP.
14. Procedimiento, según la reivindicación 13,
que comprende además la identificación de una velocidad de bits de
salida, y si la velocidad de bits es de 16 kb/s, codificar solamente
las señales de entrada de audio que tengan una frecuencia menor de 5
kHz.
15. Procedimiento, según alguna de las
reivindicaciones anteriores, en el que el esquema de codificación de
transformación es un esquema ATC.
16. Procedimiento, según la reivindicación 15, en
el que el esquema ATC usa coeficientes MDCT y comprende además la
identificación de la velocidad de bits de salida, y si la velocidad
de bits de salida es menor de 32 kb/s, se hace caso omiso a una
serie de coeficientes MDCT.
17. Procedimiento, según una de las
reivindicaciones anteriores, que comprende además el muestreo de las
señales de entrada de audio para formar una serie de unidades,
incluyendo la serie de unidades una unidad actual a clasificar y una
unidad anterior, incluyendo además la etapa de clasificación, la
determinación de uno de los siguientes modos de transmisión para
cada unidad:
- un primer modo: codificación por campo de tiempo o continuación del mismo,
- un segundo modo: transición desde codificación de transformación a codificación por campo de tiempo,
- un tercer modo: transición desde codificación de campo de tiempo a codificación de transformación,
- un cuarto modo: codificación de transformación o continuación de la misma.
18. Procedimiento, según la reivindicación 17,
que proporciona ocultación de error para borrado de unidades al
continuar el proceso en el primer modo, si la unidad anterior fue
procesada en el primer modo, y procesando en el cuarto modo si la
unidad anterior no fue procesada en el primer modo.
19. Codificador de código múltiples que
comprende:
una entrada de señal de audio (10); y
un codificador para recibir entradas de señales
de audio, teniendo el codificador un codificador de campo de tiempo
(40), un codificador de transformación (50), y un clasificador de
señales (22) para clasificar las señales de audio generalmente como
palabra o no palabra, dirigiendo el clasificador de señales (22) las
señales de audio de palabra al codificador de campo de tiempo (40) y
las señales de audio de no palabra al codificador de transformación
(50).
20. Codificador de código múltiple, según la
reivindicación 19, en el que el codificador de campo de tiempo es un
codificador CELP (40).
21. Decodificador de código múltiple, según las
reivindicaciones 19 ó 20, en el que el codificador de transformación
es un codificador ATC (50).
22. Decodificador de código múltiple que
comprende:
una entrada de señal digital (10);
un decodificador de campo de tiempo (60) para
recibir selectivamente datos desde la entrada de la señal digital
(10);
un decodificador de transformación (70) para
recibir selectivamente datos desde la entrada de señal digital (81);
y
conmutadores (81, 82) para conmutar la entrada de
señal digital (10) y una salida digital (83) entre el decodificador
de campo de tiempo (60) y el decodificador de transformación
(70).
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US7211698P | 1998-01-22 | 1998-01-22 | |
US72116 | 1998-01-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2247741T3 true ES2247741T3 (es) | 2006-03-01 |
Family
ID=22105686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES99100790T Expired - Lifetime ES2247741T3 (es) | 1998-01-22 | 1999-01-18 | Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio. |
Country Status (5)
Country | Link |
---|---|
US (1) | US20030009325A1 (es) |
EP (1) | EP0932141B1 (es) |
AT (1) | ATE302991T1 (es) |
DE (1) | DE69926821T2 (es) |
ES (1) | ES2247741T3 (es) |
Families Citing this family (146)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6640209B1 (en) | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
SE522356C2 (sv) * | 1999-07-09 | 2004-02-03 | Ericsson Telefon Ab L M | Transmission av komprimerad information med realtidskrav i ett paketorienterat informationsnät |
US6633841B1 (en) * | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
JP3586398B2 (ja) * | 1999-11-29 | 2004-11-10 | 松下電器産業株式会社 | ディジタル信号処理装置、及びディジタル信号処理方法 |
US7110947B2 (en) * | 1999-12-10 | 2006-09-19 | At&T Corp. | Frame erasure concealment technique for a bitstream-based feature extractor |
ES2269112T3 (es) * | 2000-02-29 | 2007-04-01 | Qualcomm Incorporated | Codificador de voz multimodal en bucle cerrado de dominio mixto. |
WO2002023530A2 (en) * | 2000-09-11 | 2002-03-21 | Matsushita Electric Industrial Co., Ltd. | Quantization of spectral sequences for audio signal coding |
US6829289B1 (en) * | 2000-12-05 | 2004-12-07 | Gossett And Gunter, Inc. | Application of a pseudo-randomly shuffled hadamard function in a wireless CDMA system |
US7545849B1 (en) | 2003-03-28 | 2009-06-09 | Google Inc. | Signal spectrum spreading and combining system and method |
US8374218B2 (en) * | 2000-12-05 | 2013-02-12 | Google Inc. | Combining signals with a shuffled-hadamard function |
US8385470B2 (en) * | 2000-12-05 | 2013-02-26 | Google Inc. | Coding a signal with a shuffled-Hadamard function |
US6982945B1 (en) | 2001-01-26 | 2006-01-03 | Google, Inc. | Baseband direct sequence spread spectrum transceiver |
US6694293B2 (en) * | 2001-02-13 | 2004-02-17 | Mindspeed Technologies, Inc. | Speech coding system with a music classifier |
US20040204935A1 (en) * | 2001-02-21 | 2004-10-14 | Krishnasamy Anandakumar | Adaptive voice playout in VOP |
DE60233283D1 (de) * | 2001-02-27 | 2009-09-24 | Texas Instruments Inc | Verschleierungsverfahren bei Verlust von Sprachrahmen und Dekoder dafer |
KR100434275B1 (ko) * | 2001-07-23 | 2004-06-05 | 엘지전자 주식회사 | 패킷 변환 장치 및 그를 이용한 패킷 변환 방법 |
US7453921B1 (en) * | 2001-12-11 | 2008-11-18 | Google Inc. | LPC filter for removing periodic and quasi-periodic interference from spread spectrum signals |
US7302387B2 (en) * | 2002-06-04 | 2007-11-27 | Texas Instruments Incorporated | Modification of fixed codebook search in G.729 Annex E audio coding |
EP1383113A1 (fr) * | 2002-07-17 | 2004-01-21 | STMicroelectronics N.V. | Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme |
US7352833B2 (en) | 2002-11-18 | 2008-04-01 | Google Inc. | Method and system for temporal autocorrelation filtering |
AU2003208517A1 (en) | 2003-03-11 | 2004-09-30 | Nokia Corporation | Switching between coding schemes |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
FI118835B (fi) | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
FI118834B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
GB0408856D0 (en) | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
ATE371926T1 (de) * | 2004-05-17 | 2007-09-15 | Nokia Corp | Audiocodierung mit verschiedenen codierungsmodellen |
US7739120B2 (en) | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
CA2566368A1 (en) * | 2004-05-17 | 2005-11-24 | Nokia Corporation | Audio encoding with different coding frame lengths |
KR100854534B1 (ko) * | 2004-05-19 | 2008-08-26 | 노키아 코포레이션 | 오디오 코더 모드들 간의 스위칭 지원 |
US7751804B2 (en) * | 2004-07-23 | 2010-07-06 | Wideorbit, Inc. | Dynamic creation, selection, and scheduling of radio frequency communications |
US20060224381A1 (en) * | 2005-04-04 | 2006-10-05 | Nokia Corporation | Detecting speech frames belonging to a low energy sequence |
DE102005019863A1 (de) * | 2005-04-28 | 2006-11-02 | Siemens Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung |
EP1905004A2 (en) * | 2005-05-26 | 2008-04-02 | LG Electronics Inc. | Method of encoding and decoding an audio signal |
AU2006266655B2 (en) | 2005-06-30 | 2009-08-20 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
US8082157B2 (en) | 2005-06-30 | 2011-12-20 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
WO2007004831A1 (en) * | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
FR2888699A1 (fr) * | 2005-07-13 | 2007-01-19 | France Telecom | Dispositif de codage/decodage hierachique |
US8577483B2 (en) * | 2005-08-30 | 2013-11-05 | Lg Electronics, Inc. | Method for decoding an audio signal |
US7788107B2 (en) * | 2005-08-30 | 2010-08-31 | Lg Electronics Inc. | Method for decoding an audio signal |
JP5173811B2 (ja) * | 2005-08-30 | 2013-04-03 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号デコーディング方法及びその装置 |
JP5108767B2 (ja) * | 2005-08-30 | 2012-12-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号をエンコーディング及びデコーディングするための装置とその方法 |
US7751485B2 (en) * | 2005-10-05 | 2010-07-06 | Lg Electronics Inc. | Signal processing using pilot based coding |
ES2478004T3 (es) * | 2005-10-05 | 2014-07-18 | Lg Electronics Inc. | Método y aparato para decodificar una señal de audio |
US7672379B2 (en) * | 2005-10-05 | 2010-03-02 | Lg Electronics Inc. | Audio signal processing, encoding, and decoding |
US7696907B2 (en) * | 2005-10-05 | 2010-04-13 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US7646319B2 (en) * | 2005-10-05 | 2010-01-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
KR100857111B1 (ko) * | 2005-10-05 | 2008-09-08 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치 |
US7653533B2 (en) * | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
US7805297B2 (en) * | 2005-11-23 | 2010-09-28 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US7752053B2 (en) * | 2006-01-13 | 2010-07-06 | Lg Electronics Inc. | Audio signal processing using pilot based coding |
WO2007083931A1 (en) * | 2006-01-18 | 2007-07-26 | Lg Electronics Inc. | Apparatus and method for encoding and decoding signal |
KR20070077652A (ko) * | 2006-01-24 | 2007-07-27 | 삼성전자주식회사 | 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법 |
KR101393298B1 (ko) * | 2006-07-08 | 2014-05-12 | 삼성전자주식회사 | 적응적 부호화/복호화 방법 및 장치 |
US7987089B2 (en) * | 2006-07-31 | 2011-07-26 | Qualcomm Incorporated | Systems and methods for modifying a zero pad region of a windowed frame of an audio signal |
US8015000B2 (en) * | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US7907579B2 (en) * | 2006-08-15 | 2011-03-15 | Cisco Technology, Inc. | WiFi geolocation from carrier-managed system geolocation of a dual mode device |
US8346546B2 (en) * | 2006-08-15 | 2013-01-01 | Broadcom Corporation | Packet loss concealment based on forced waveform alignment after packet loss |
US7461106B2 (en) | 2006-09-12 | 2008-12-02 | Motorola, Inc. | Apparatus and method for low complexity combinatorial coding of signals |
EP2092517B1 (en) * | 2006-10-10 | 2012-07-18 | QUALCOMM Incorporated | Method and apparatus for encoding and decoding audio signals |
KR101434198B1 (ko) * | 2006-11-17 | 2014-08-26 | 삼성전자주식회사 | 신호 복호화 방법 |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
CN101025918B (zh) * | 2007-01-19 | 2011-06-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
DE602008003550D1 (de) | 2007-03-07 | 2010-12-30 | Gn Resound As | Schallanreicherung zur linderung von tinnitus |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US8576096B2 (en) | 2007-10-11 | 2013-11-05 | Motorola Mobility Llc | Apparatus and method for low complexity combinatorial coding of signals |
CN101889306A (zh) * | 2007-10-15 | 2010-11-17 | Lg电子株式会社 | 用于处理信号的方法和装置 |
US8209190B2 (en) | 2007-10-25 | 2012-06-26 | Motorola Mobility, Inc. | Method and apparatus for generating an enhancement layer within an audio coding system |
WO2009088258A2 (ko) * | 2008-01-09 | 2009-07-16 | Lg Electronics Inc. | 프레임 타입 식별 방법 및 장치 |
JP5266341B2 (ja) * | 2008-03-03 | 2013-08-21 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
JP5108960B2 (ja) * | 2008-03-04 | 2012-12-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
US20090234642A1 (en) * | 2008-03-13 | 2009-09-17 | Motorola, Inc. | Method and Apparatus for Low Complexity Combinatorial Coding of Signals |
US7889103B2 (en) * | 2008-03-13 | 2011-02-15 | Motorola Mobility, Inc. | Method and apparatus for low complexity combinatorial coding of signals |
US8639519B2 (en) | 2008-04-09 | 2014-01-28 | Motorola Mobility Llc | Method and apparatus for selective signal coding based on core encoder performance |
US8195452B2 (en) * | 2008-06-12 | 2012-06-05 | Nokia Corporation | High-quality encoding at low-bit rates |
US8380523B2 (en) * | 2008-07-07 | 2013-02-19 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
PL2301020T3 (pl) * | 2008-07-11 | 2013-06-28 | Fraunhofer Ges Forschung | Urządzenie i sposób do kodowania/dekodowania sygnału audio z użyciem algorytmu przełączania aliasingu |
EP2301028B1 (en) * | 2008-07-11 | 2012-12-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus and a method for calculating a number of spectral envelopes |
EP2311034B1 (en) * | 2008-07-11 | 2015-11-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding frames of sampled audio signals |
CA2836871C (en) | 2008-07-11 | 2017-07-18 | Stefan Bayer | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs |
EP3002751A1 (en) * | 2008-07-11 | 2016-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding audio samples |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
MY181231A (en) | 2008-07-11 | 2020-12-21 | Fraunhofer Ges Zur Forderung Der Angenwandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
KR101261677B1 (ko) * | 2008-07-14 | 2013-05-06 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
KR101381513B1 (ko) | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
CN102216982A (zh) * | 2008-09-18 | 2011-10-12 | 韩国电子通信研究院 | 在基于修正离散余弦变换的译码器与异质译码器间转换的编码设备和解码设备 |
CN102177426B (zh) * | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
FR2936898A1 (fr) * | 2008-10-08 | 2010-04-09 | France Telecom | Codage a echantillonnage critique avec codeur predictif |
KR101649376B1 (ko) * | 2008-10-13 | 2016-08-31 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
US20100114568A1 (en) * | 2008-10-24 | 2010-05-06 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
WO2010053287A2 (en) * | 2008-11-04 | 2010-05-14 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
KR101259120B1 (ko) * | 2008-11-04 | 2013-04-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US8706479B2 (en) * | 2008-11-14 | 2014-04-22 | Broadcom Corporation | Packet loss concealment for sub-band codecs |
US8219408B2 (en) | 2008-12-29 | 2012-07-10 | Motorola Mobility, Inc. | Audio signal decoder and method for producing a scaled reconstructed audio signal |
US8140342B2 (en) | 2008-12-29 | 2012-03-20 | Motorola Mobility, Inc. | Selective scaling mask computation based on peak detection |
US8175888B2 (en) | 2008-12-29 | 2012-05-08 | Motorola Mobility, Inc. | Enhanced layered gain factor balancing within a multiple-channel audio coding system |
US8200496B2 (en) | 2008-12-29 | 2012-06-12 | Motorola Mobility, Inc. | Audio signal decoder and method for producing a scaled reconstructed audio signal |
CN101609677B (zh) | 2009-03-13 | 2012-01-04 | 华为技术有限公司 | 一种预处理方法、装置及编码设备 |
EP3474279A1 (en) | 2009-07-27 | 2019-04-24 | Unified Sound Systems, Inc. | Methods and apparatus for processing an audio signal |
BR112012009490B1 (pt) | 2009-10-20 | 2020-12-01 | Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. | ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados |
CN102081927B (zh) * | 2009-11-27 | 2012-07-18 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
US8428936B2 (en) * | 2010-03-05 | 2013-04-23 | Motorola Mobility Llc | Decoder for audio signal including generic audio and speech frames |
US8423355B2 (en) * | 2010-03-05 | 2013-04-16 | Motorola Mobility Llc | Encoder for audio signal including generic audio and speech frames |
WO2011142709A2 (en) * | 2010-05-11 | 2011-11-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for processing of audio signals |
FR2961937A1 (fr) * | 2010-06-29 | 2011-12-30 | France Telecom | Codage/decodage predictif lineaire adaptatif |
WO2012004349A1 (en) * | 2010-07-08 | 2012-01-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Coder using forward aliasing cancellation |
AU2011311659B2 (en) * | 2010-10-06 | 2015-07-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (USAC) |
US20130311174A1 (en) * | 2010-12-20 | 2013-11-21 | Nikon Corporation | Audio control device and imaging device |
FR2969805A1 (fr) * | 2010-12-23 | 2012-06-29 | France Telecom | Codage bas retard alternant codage predictif et codage par transformee |
PL2676265T3 (pl) * | 2011-02-14 | 2019-09-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie i sposób do kodowania sygnału audio z stosowaniem zrównanej części antycypacji |
CN103477387B (zh) | 2011-02-14 | 2015-11-25 | 弗兰霍菲尔运输应用研究公司 | 使用频谱域噪声整形的基于线性预测的编码方案 |
MY166394A (en) | 2011-02-14 | 2018-06-25 | Fraunhofer Ges Forschung | Information signal representation using lapped transform |
PL2676264T3 (pl) | 2011-02-14 | 2015-06-30 | Fraunhofer Ges Forschung | Koder audio estymujący szum tła podczas faz aktywnych |
TWI488176B (zh) * | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
KR101551046B1 (ko) | 2011-02-14 | 2015-09-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법 |
BR112013020482B1 (pt) | 2011-02-14 | 2021-02-23 | Fraunhofer Ges Forschung | aparelho e método para processar um sinal de áudio decodificado em um domínio espectral |
ES2639646T3 (es) | 2011-02-14 | 2017-10-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de posiciones de impulso de pistas de una señal de audio |
KR101525185B1 (ko) * | 2011-02-14 | 2015-06-02 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법 |
EP2681734B1 (en) | 2011-03-04 | 2017-06-21 | Telefonaktiebolaget LM Ericsson (publ) | Post-quantization gain correction in audio coding |
NO2669468T3 (es) * | 2011-05-11 | 2018-06-02 | ||
US9037456B2 (en) * | 2011-07-26 | 2015-05-19 | Google Technology Holdings LLC | Method and apparatus for audio coding and decoding |
CN103918247B (zh) | 2011-09-23 | 2016-08-24 | 数字标记公司 | 基于背景环境的智能手机传感器逻辑 |
US9043201B2 (en) * | 2012-01-03 | 2015-05-26 | Google Technology Holdings LLC | Method and apparatus for processing audio frames to transition between different codecs |
CN103198834B (zh) * | 2012-01-04 | 2016-12-14 | 中国移动通信集团公司 | 一种音频信号处理方法、装置及终端 |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
EP2830062B1 (en) * | 2012-03-21 | 2019-11-20 | Samsung Electronics Co., Ltd. | Method and apparatus for high-frequency encoding/decoding for bandwidth extension |
US9053699B2 (en) | 2012-07-10 | 2015-06-09 | Google Technology Holdings LLC | Apparatus and method for audio frame loss recovery |
WO2014030928A1 (ko) * | 2012-08-21 | 2014-02-27 | 엘지전자 주식회사 | 오디오 신호 부호화 방법 및 오디오 신호 복호화 방법 그리고 이를 이용하는 장치 |
US9589570B2 (en) * | 2012-09-18 | 2017-03-07 | Huawei Technologies Co., Ltd. | Audio classification based on perceptual quality for low or medium bit rates |
US9123328B2 (en) * | 2012-09-26 | 2015-09-01 | Google Technology Holdings LLC | Apparatus and method for audio frame loss recovery |
US9129600B2 (en) | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
CN103714821A (zh) | 2012-09-28 | 2014-04-09 | 杜比实验室特许公司 | 基于位置的混合域数据包丢失隐藏 |
EP2922052B1 (en) | 2012-11-13 | 2021-10-13 | Samsung Electronics Co., Ltd. | Method for determining an encoding mode |
KR102148407B1 (ko) * | 2013-02-27 | 2020-08-27 | 한국전자통신연구원 | 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법 |
JP6201043B2 (ja) | 2013-06-21 | 2017-09-20 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | エラー封じ込め中の切替音声符号化システムについての向上した信号フェードアウトのための装置及び方法 |
CN104347067B (zh) | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN107452391B (zh) | 2014-04-29 | 2020-08-25 | 华为技术有限公司 | 音频编码方法及相关装置 |
FR3020732A1 (fr) * | 2014-04-30 | 2015-11-06 | Orange | Correction de perte de trame perfectionnee avec information de voisement |
CN105336338B (zh) | 2014-06-24 | 2017-04-12 | 华为技术有限公司 | 音频编码方法和装置 |
EP2980797A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
FR3024581A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
CN111259919B (zh) * | 2018-11-30 | 2024-01-23 | 杭州海康威视数字技术股份有限公司 | 一种视频分类方法、装置及设备、存储介质 |
EP3751567B1 (en) | 2019-06-10 | 2022-01-26 | Axis AB | A method, a computer program, an encoder and a monitoring device |
NO20201393A1 (en) * | 2020-12-18 | 2022-06-20 | Pexip AS | Method and system for real time audio in multi-point video conferencing |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5751903A (en) * | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
-
1999
- 1999-01-18 AT AT99100790T patent/ATE302991T1/de active
- 1999-01-18 ES ES99100790T patent/ES2247741T3/es not_active Expired - Lifetime
- 1999-01-18 DE DE69926821T patent/DE69926821T2/de not_active Expired - Lifetime
- 1999-01-18 EP EP99100790A patent/EP0932141B1/en not_active Expired - Lifetime
- 1999-01-22 US US09/235,962 patent/US20030009325A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP0932141A3 (en) | 1999-12-29 |
EP0932141A2 (en) | 1999-07-28 |
DE69926821D1 (de) | 2005-09-29 |
DE69926821T2 (de) | 2007-12-06 |
US20030009325A1 (en) | 2003-01-09 |
ATE302991T1 (de) | 2005-09-15 |
EP0932141B1 (en) | 2005-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2247741T3 (es) | Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio. | |
Gersho | Advances in speech and audio compression | |
JP5373217B2 (ja) | 可変レートスピーチ符号化 | |
EP2573765B1 (en) | Audio encoder and decoder | |
US6377916B1 (en) | Multiband harmonic transform coder | |
RU2351907C2 (ru) | Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком) | |
US6134518A (en) | Digital audio signal coding using a CELP coder and a transform coder | |
ES2337270T3 (es) | Clasificacion de señales audio. | |
US6078880A (en) | Speech coding system and method including voicing cut off frequency analyzer | |
JP4166673B2 (ja) | 相互使用可能なボコーダ | |
US6081776A (en) | Speech coding system and method including adaptive finite impulse response filter | |
EP0878790A1 (en) | Voice coding system and method | |
US6094629A (en) | Speech coding system and method including spectral quantizer | |
US6138092A (en) | CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency | |
JPH09120298A (ja) | フレーム消失の間の音声復号に使用する音声の有声/無声分類 | |
KR20070112832A (ko) | 잔여분 변경에 의한 보코더 내부의 시간 와핑 프레임들 | |
CN103594090A (zh) | 使用时间分辨率能选择的低复杂性频谱分析/合成 | |
US6778953B1 (en) | Method and apparatus for representing masked thresholds in a perceptual audio coder | |
Combescure et al. | A 16, 24, 32 kbit/s wideband speech codec based on ATCELP | |
CA2156558C (en) | Speech-coding parameter sequence reconstruction by classification and contour inventory | |
Yeldener et al. | Multiband linear predictive speech coding at very low bit rates | |
Papanastasiou | LPC-Based Pitch Synchronous Interpolation Speech Coding | |
Yaghmaie | Prototype waveform interpolation based low bit rate speech coding | |
Gersho | Advances in speech and audio compression | |
Hernandez-Gomez et al. | Short-time synthesis procedures in vector adaptive transform coding of speech |