ES2298261T3 - Disimulacion de errores de transmision en una señal de audio. - Google Patents
Disimulacion de errores de transmision en una señal de audio. Download PDFInfo
- Publication number
- ES2298261T3 ES2298261T3 ES01969857T ES01969857T ES2298261T3 ES 2298261 T3 ES2298261 T3 ES 2298261T3 ES 01969857 T ES01969857 T ES 01969857T ES 01969857 T ES01969857 T ES 01969857T ES 2298261 T3 ES2298261 T3 ES 2298261T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- samples
- process according
- sound
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 31
- 230000005236 sound signal Effects 0.000 title claims abstract description 7
- 230000009467 reduction Effects 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 68
- 230000007774 longterm Effects 0.000 claims abstract description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 51
- 238000003786 synthesis reaction Methods 0.000 claims description 51
- 230000005284 excitation Effects 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 25
- 238000011282 treatment Methods 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 12
- 230000007423 decrease Effects 0.000 claims description 11
- 230000006978 adaptation Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 4
- 230000001755 vocal effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 230000036961 partial effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 18
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 15
- 239000000523 sample Substances 0.000 description 11
- 230000009466 transformation Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000000576 coating method Methods 0.000 description 6
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 239000011248 coating agent Substances 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 241001237745 Salamis Species 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 235000015175 salami Nutrition 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 102100038280 Prostaglandin G/H synthase 2 Human genes 0.000 description 2
- 108050003267 Prostaglandin G/H synthase 2 Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 239000006166 lysate Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 235000018084 Garcinia livingstonei Nutrition 0.000 description 1
- 240000007471 Garcinia livingstonei Species 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- AYEKOFBPNLCAJY-UHFFFAOYSA-O thiamine pyrophosphate Chemical compound CC1=C(CCOP(O)(=O)OP(O)(O)=O)SC=[N+]1CC1=CN=C(C)N=C1N AYEKOFBPNLCAJY-UHFFFAOYSA-O 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Mobile Radio Communication Systems (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
- Automobile Manufacture Line, Endless Track Vehicle, Trailer (AREA)
- Arrangements For Transmission Of Measured Signals (AREA)
Abstract
Proceso de disimulación de error de transmisión en una señal audio-numérica en la cual en la detección (3) de muestras faltantes o erróneas en una señal, se generan muestras de síntesis (5) con la ayuda de al menos un operador de predicción a corto plazo y al menos para los sonidos sonoros un operador de predicción a largo plazo estimado en función de muestras descodificadas de una señal descodificada pasada, dichas muestras descodificadas siendo memorizadas (6) anteriormente cuando los datos transmitidos de dicha señal pasada son válidos, caracterizado porque se controla la energía de la señal de síntesis generada de esta manera con la ayuda de una ganancia calculada y adaptada muestra por muestra según una ley de adaptación que depende de al menos un parámetro de dichas muestras descodificadas memorizadas.
Description
Disimulación de errores de transmisión en una
señal de audio.
La presente invención concierne a las técnicas
de disimulación de errores de transmisión consecutivos en los
sistemas de transmisión que utilizan cualquier tipo de codificación
numérica de la señal de la palabra y/o del sonido.
Se distinguen clásicamente dos grandes
categorías de codificadores:
- -
- los codificadores llamados temporales, que efectúan la compresión de las muestras de señal numerada muestra por muestra (es el caso de los codificadores MIC o MICDA [DAUMER][MAITRE] por ejemplo)
- -
- y los codificadores paramétricos que analizan las tramas sucesivas de muestras de la señal a codificar para extraer, en cada una de estas tramas, un cierto número de parámetros que son a continuación codificados y transmitidos (caso de los vocodificadores [TREMAIN], de los codificadores IMBE [HARDWICK], o de los codificadores por transformada [BRANDENBURG]).
Existen categorías intermediarias que completan
la codificación de los parámetros representativos de los
codificadores paramétricos por la codificación de una forma de onda
temporal residual. Para simplificar, estos codificadores pueden ser
ordenados en la categoría de los codificadores paramétricos.
En esta categoría se encuentran los
codificadores predictivos y particularmente la familia de los
codificadores de análisis por síntesis tales como el
RPE-LTP ([HELLWING]) o los CELP ([ATAL]).
Para todos estos codificadores, los valores
codificados son a continuación transformados en un tren binario que
será transmitido sobre un canal de transmisión. Según la calidad de
este canal y el tipo de transporte, las perturbaciones pueden
afectar la señal transmitida y producir errores sobre el tren
binario recibido por el descodificador. Estos errores pueden
intervenir de manera aislada en el tren binario pero se producen muy
frecuentemente por ráfagas. Esto es entonces un paquete de bits que
corresponde a una porción completa de señal que es errónea o no
recibida. Este tipo de problemas se encuentran por ejemplo en las
transmisiones sobre las redes móviles. Se encuentran también en las
transmisiones sobre las redes por paquetes y en particular sobre
las redes de tipo internet.
Cuando el sistema de transmisión o los módulos
cargados de la recepción permiten detectar que los datos recibidos
son fuertemente erróneos (por ejemplo en las redes móviles), o que
un bloque de datos no haya sido recibido (caso de sistemas de
transmisión por paquetes por ejemplo), procedimientos de
disimulación de errores son entonces puestos en práctica. Estos
procedimientos permiten extrapolar al descodificador las muestras
de la señal que falta a partir de las señales y datos disponibles
salidos de las tramas que anteceden y eventualmente siguiendo las
zonas borradas.
Tales técnicas han sido puestas en práctica
principalmente en el caso de los codificadores paramétricos
(técnicas de recuperación de las tramas borradas). Las mismas
permiten limitar fuertemente la degradación subjetiva de la señal
percibida en el descodificador en presencia de tramas borradas. La
mayor parte de los algoritmos desarrollados reposan en la técnica
utilizada por el codificador y el descodificador, y constituyen de
hecho una extensión del descodificador.
Un objetivo general de la invención es mejorar,
para cualquier sistema de compresión de la palabra y del sonido, la
calidad subjetiva de la señal de palabra restituida en el
descodificador cuando, a causa de una mala calidad del canal de
transmisión o a continuación de la pérdida o no recepción de un
paquete en un sistema de transmisión por paquetes, un conjunto de
datos codificados consecutivos se han perdido.
La misma propone a este efecto una técnica que
permite disimular los errores de transmisión sucesivos (paquetes de
error) cualquiera que sea la técnica de codificación utilizada, la
técnica propuesta pudiendo ser utilizada por ejemplo en el caso de
los codificadores temporales cuya estructura se presta menos bien
a priori para la disimulación de los paquetes de errores.
\vskip1.000000\baselineskip
La mayor parte de los algoritmos de codificación
de tipo predictivo proponen técnicas de recuperación de tramas
borradas ([GSM-FR], [REC G.723.1A], [SALAMI],
[HONKANEN], [COX-2], [CHEN-2],
[CHEN-3], [CHEN-4],
[CHEN-5], [CHEN-6],
[CHEN-7], [KROON-2], [WATKINS]). El
descodificador es informado de la ocurrencia de una trama borrada
de una manera o de otra, por ejemplo en el caso de los sistemas
radio-móviles por la transmisión de la información
de borrado de trama que proviene del descodificador canal. Los
dispositivos de recuperación de tramas borradas tienen por objetivo
extrapolar los parámetros de la trama borrada a partir de la (o de
las) últimas tramas anteriores consideradas como válidas. Ciertos
parámetros manipulados o codificados por los codificadores
predictivos presentan una fuerte correlación
inter-tramas (caso de los parámetros de predicción
a corto plazo, también denominados "LPC" de "Linear
Predictive Coding" (ver [RABINER]) que representan la envoltura
espectral, y los parámetros de predicción a largo plazo para los
sonidos sonorizados, por ejemplo). Debido al hecho de esta
correlación es mucho más ventajoso reutilizar los parámetros de la
última trama válida para sintetizar la trama borrada que utilizar
parámetros erróneos o aleatorios.
Para el algoritmo de codificación CELP (de
"Code Excited Linear Prediction", consultar a [RABINER]), los
parámetros de la trama borrada son clásicamente obtenidos de la
manera siguiente:
- -
- el filtro LPC es obtenido a partir de los parámetros LPC de la última trama válida sea por re-copia de los parámetros o con introducción de un cierto amortiguamiento (cf. codificador G723.1 [REC G.723.1A]).
- -
- se detecta la sonorización para determinar el grado de armonicidad de la señal al nivel de la trama borrada ([SALAMI], esta detección ocurre de la manera siguiente:
- \sqbullet
- en el caso de una señal no sonora:
- una señal de excitación es generada de manera aleatoria (tirada de una palabra de código y ganancia de la excitación pasada ligeramente amortiguada [SALAMI], selección aleatoria en la excitación pasada [CHEN], uso de los códigos transmitidos de manera eventual totalmente erróneos [HONKANEN]...)
- \sqbullet
- en el caso de una señal sonora:
- el plazo LTP es generalmente el plazo calculado en la trama anterior, eventualmente con una ligera fluctuación ([SALAMI]), la ganancia LTP siendo tomada muy cerca de 1 o igual a 1. La señal de excitación está limitada a la predicción a largo plazo efectuada a partir de la excitación pasada.
En todos los ejemplos citados anteriormente, los
procedimientos de disimulación de las tramas borradas están
fuertemente vinculados al descodificador y utilizan módulos de este
descodificador, como el módulo de síntesis de la señal. Los mismos
utilizan también señales intermediarias disponibles en el seno de
este descodificador como la señal de excitación pasada y memorizada
durante el tratamiento de las tramas válidas que anteceden las
tramas borradas.
La mayor parte de los métodos utilizados para
disimular los errores producidos por los paquetes perdidos durante
el transporte de datos codificados por los codificadores de tipo
temporal citan a las técnicas de sustitución de formas de ondas
tales como aquellas presentadas en [GOODMAN], [ERDÖL], [AT&T].
Los métodos de este tipo reconstituyen la señal seleccionando
porciones de la señal descodificada antes del período perdido y no
citan a los modelos de síntesis. Las técnicas de lisado son
igualmente puestas en práctica para evitar los artefactos
producidos por la concatenación de diferentes señales.
Para los codificadores por transformada, las
técnicas de reconstrucción de las tramas borradas se apoyan
igualmente en la estructura de codificación utilizada: los
algoritmos, tales como [PICTEL, MAHIEUX-2], apuntan
a regenerar los coeficientes transformados perdidos a partir de los
valores tomados por estos coeficientes antes del borrado.
El método descrito en [PARIKH] puede aplicarse a
cualquier tipo de señales; el mismo se basa en la construcción de
un modelo sinusoidal a partir de la señal válida descodificada que
antecede al borrado, para regenerar la parte de la señal
perdida.
Finalmente, existe una familia de técnicas de
disimulación de tramas borradas desarrolladas conjuntamente con la
codificación canal. Estos métodos, tal como los descritos en
[FINGSCHEIDT], se sirven de informaciones proporcionadas por el
descodificador canal, por ejemplo las informaciones concernientes al
grado de fiabilidad de los parámetros recibidos. Los mismos son
fundamentalmente diferentes de la presente invención que no
presupone la existencia de un codificador canal.
Un arte anterior que puede ser considerado como
el más próximo a la presente invención es el descrito en
[COMBESCURE], que proponía un método de disimulación de tramas
borradas equivalente al utilizado en los codificadores CELP para un
codificador por transformada. Los inconvenientes del método
propuesto eran la introducción de distorsiones espectrales audibles
(voz "sintética", resonancias parásitas,...), debidas,
principalmente al uso de filtros de síntesis a largo plazo mal
controlados (componente armónica única en sonidos sonoros,
generación de la señal de excitación limitada al uso de porciones de
la señal residual pasada). Además, el control de energía se
efectuaba en [COMBESCURE] al nivel de la señal de excitación, el
objetivo energético de esta señal era mantenido constante durante
toda la duración del borrado, lo que engendraba igualmente molestos
artefactos. Las mismas consideraciones se aplican al documento
US5884010.
La invención tal como se define en las
reivindicaciones 1, 17 y 18 permite en cuanto a ella la disimulación
de las tramas borradas sin distorsión marcada en las tasas de
errores más elevadas y/o por intervalos borrados más largos.
La misma propone principalmente un proceso de
disimulación de error de transmisión en una señal
audio-numérica según la cual se recibe una señal
descodificada después de la transmisión, se memorizan las muestras
descodificadas cuando los datos transmitidos son válidos, se estima
al menos un operador de predicción a corto plazo y al menos un
operador de predicción a largo plazo en función de las muestras
válidas memorizadas y se generan eventuales muestras faltantes o
erróneas en la señal descodificada con la ayuda de los operadores
estimados de esta manera.
Según un primer aspecto particularmente
ventajoso de la invención, se controla la energía de la señal de
síntesis de esta manera generada con la ayuda de una ganancia
calculada y adaptada muestra por muestra.
Esto contribuye en particular a mejorar las
ejecuciones de la técnica en las zonas de borrado de una duración
más larga.
Principalmente, la ganancia para el control de
la señal de síntesis es ventajosamente calculada en función de al
menos uno de los parámetros siguientes: valores de energía
previamente memorizados por las muestras que corresponden a los
datos válidos, período fundamental para los sonidos sonoros, o
cualquier parámetro que caracteriza el espectro de frecuencias.
De manera ventajosa igualmente, la ganancia
aplicada a la señal de síntesis decrece progresivamente en función
de la duración durante la cual las muestras de síntesis son
generadas.
De manera preferida igualmente, se discriminan
en los datos válidos los sonidos estacionarios y los sonidos no
estacionarios y se ponen en práctica leyes de adaptación de esta
ganancia (velocidad de decrecimiento, por ejemplo), diferentes por
una parte para las muestras generadas a continuación de datos
válidos que corresponden a sonidos estacionarios y por otra parte
para las muestras generadas a continuación de datos válidos que
corresponden a sonidos no estacionarios.
Según otro aspecto independiente de la
invención, se actualiza en función de las muestras de síntesis
generadas el contenido de las memorias utilizadas para el
tratamiento de descodificación.
De esta manera, por una parte se limita la
eventual desincronización del codificador y del descodificador (ver
párrafo 5.1.4 más adelante), y se evitan las bruscas
discontinuidades entre la zona borrada reconstruida según la
invención y las muestras que siguen a esta zona.
Principalmente, se pone en práctica al menos
parcialmente sobre las muestras sintetizadas una codificación
análoga a la puesta en práctica en el emisor seguido eventualmente
de una operación (eventualmente parcial) de descodificación, los
datos obtenidos sirviendo para regenerar las memorias del
descodificador.
En particular, esta operación de
codificación-descodificación eventualmente parcial
puede ser ventajosamente utilizada para regenerar la primera trama
borrada porque permite explotar el contenido de las memorias del
descodificador antes del corte, cuando estas memorias contienen
informaciones no proporcionadas por las últimas muestras válidas
descodificadas (por ejemplo en el caso de los codificadores por
transformada en adición-recubrimiento, ver párrafo
5.2.2.2.1 punto 10).
Según un aspecto también diferente de la
invención, se genera a la entrada del operador de predicción a
corto plazo una señal de excitación que, en zona sonora, es la suma
de una componente armónica y de una componente débilmente armónica
o no armónica, y en zona sonora limitada en la componente no
armónica.
Principalmente, la componente armónica es
ventajosamente obtenida poniendo en práctica una filtración por
medio del operador de predicción a largo plazo aplicado sobre una
señal residual calculada poniendo en práctica una filtración a
corto plazo inversa sobre las muestras memorizadas.
La otra componente puede ser determinada con la
ayuda de un operador de predicción a largo plazo en el cual se
aplican perturbaciones (por ejemplo perturbaciones de ganancia, o
del período), seudo-aleatorias.
De manera particularmente preferida, para la
generación de una señal de excitación sonora, la componente
armónica representa las bajas frecuencias del espectro, mientras que
la otra componente la parte de alta frecuencia.
Según otro aspecto más, el operador de
predicción a largo plazo es determinado a partir de las muestras de
tramas válidas memorizadas, con un número de muestras utilizadas
para esta estimación que varía entre un valor mínimo y un valor
igual a al menos dos veces el período fundamental estimado para el
sonido sonoro.
Por otra parte, la señal residual es
ventajosamente modificada por tratamientos de tipo no lineal para
eliminar picos de amplitud.
Igualmente, según otro aspecto ventajoso, se
detecta la actividad vocal estimando los parámetros de ruido cuando
la señal es considerada como no activa, y se hacen tender los
parámetros de la señal sintetizada hacia los del ruido
estimado.
De manera preferencial también, se estima la
envoltura espectral del ruido de las muestras descodificadas
válidas y se genera una señal sintetizada que evoluciona hacia una
señal que posee el mismo desarrollo espectral.
La invención propone igualmente un proceso de
tratamiento de señales de sonido, caracterizado porque se pone en
práctica una discriminación entre la palabra y los sonidos musicales
y cuando se detectan sonidos musicales, se pone en práctica un
proceso del tipo precipitado sin estimación de un operador de
predicción a largo plazo, la señal de excitación siendo limitada a
una componente no armónica obtenida por ejemplo generando un ruido
blanco uniforme.
La invención concierne además a un dispositivo
de disimulación de error de transmisión en una señal
audio-numérica que recibe a la entrada una señal
descodificada que le transmite un descodificador y que genera
muestras faltantes o erróneas en esa señal descodificada,
caracterizado porque comprende medios de tratamiento aptos para
poner en práctica el proceso precitado.
La misma comprende igualmente un sistema de
transmisión que comprende al menos un codificador, al menos un
canal de transmisión, un módulo apto para detectar qué datos
transmitidos se han perdido o son fuertemente erróneos, al menos un
descodificador y un dispositivo de disimulación de errores que
recibe la señal descodificada, caracterizado porque este
dispositivo de disimulación de errores es un dispositivo del tipo
precitado.
\vskip1.000000\baselineskip
Otras características y ventajas de la invención
resultarán también de la descripción que sigue, la cual es
puramente ilustrativa y no limitativa y debe ser leída con relación
a los dibujos anexados en los cuales:
- la figura 1 es un esquema sinóptico que
ilustra un sistema de transmisión conforme a un modo de realización
posible de la invención;
- la figura 2 y la figura 3 son esquemas
sinópticos que ilustran una puesta en práctica conforme a un modo
posible de la invención;
- las figuras 4 a 6 ilustran esquemáticamente
las ventanas utilizadas con el proceso de disimulación de errores
conforme a un modo de puesta en práctica posible de la
invención;
- las figuras 7 y 8 son representaciones
esquemáticas que ilustran un modo de puesta en práctica posible de
la invención en el caso de señales musicales.
\vskip1.000000\baselineskip
La figura 1 presenta un dispositivo de
codificación y descodificación de la señal audio numérica, que
comprende un codificador 1, un canal de transmisión 2, un módulo 3
que permite detectar que datos transmitidos se han perdido o son
fuertemente erróneos, un descodificador 4, y un módulo 5 de
disimulación de errores o paquetes perdidos conforme a un modo de
realización posible de la invención.
Se notará que este módulo 5, además de la
indicación de los datos borrados, recibe la señal descodificada en
período válido y transmite al descodificador señales utilizadas para
su actualización.
Más precisamente, el tratamiento puesto en
práctica por el módulo 5 se basa en:
- 1.
- la memorización de las muestras descodificadas cuando los datos transmitidos son válidos (tratamiento 6);
- 2.
- durante un bloque de datos borrados, la síntesis de las muestras que corresponden a los datos perdidos (tratamiento 7);
- 3.
- cuando la transmisión es restablecida, el lisado entre las muestras de síntesis producidas durante el período borrado y las muestras descodificadas (tratamiento 8);
- 4.
- la actualización de las memorias del descodificador (tratamiento 9) (actualización que se efectúa ya sea durante la generación de las muestras borradas, ya sea en el momento del restablecimiento de la transmisión).
\vskip1.000000\baselineskip
Después de la descodificación de los datos
válidos, se actualiza la memoria de las muestras descodificadas,
que contienen un número de muestras suficientes para la regeneración
de eventuales períodos borrados a continuación. Típicamente, se
memoriza del orden de 20 a 40 ms de señal. Se calcula igualmente la
energía de las tramas válidas y se retienen en memoria las energías
que corresponden a las últimas tramas válidas tratadas (típicamente
del orden de 5 s).
Se efectúan las operaciones siguientes,
ilustradas por la figura 3:
Se calcula este desarrollo espectral a la manera
de un filtro LPC [RABINER] [KLEIJN]. El análisis es efectuado por
métodos clásicos ([KLEIJN]) después del ventanaje de las muestras
memorizadas en período válido. Principalmente se pone en práctica
un análisis LPC (etapa 10) para obtener los parámetros de un filtro
A(z), cuyo inverso es utilizado para la filtración LPC
(etapa 11). Como los coeficientes de esta manera calculados no son
transmitidos, se puede utilizar para este análisis un orden elevado,
lo que permite obtener buenas ejecuciones sobre las señales
musicales.
Un método de detección de los sonidos sonoros
(tratamiento 12 de la figura 3: detección V/NV, por "sonoro/no
sonoro") es utilizado sobre los últimos datos memorizados. Por
ejemplo se puede utilizar para esto la correlación normalizada
([KLEIJN]), o el criterio presentado en el ejemplo de realización
que sigue.
Cuando la señal es declarada sonora, se calculan
los parámetros que permitan la generación de un filtro de síntesis
a largo plazo, también denominado filtro LTP ([KLEIJN]) (figura 3:
análisis LTP, se define por B(z) el filtro inverso LTP
calculado). Tal filtro es generalmente representado por un período
que corresponde al período fundamental y una ganancia. La precisión
de este filtro puede ser mejorada por el uso de pitch fraccionario
o de una estructura multi-coeficientes [KROON].
Cuando la señal es declarada no sonora, un valor
particular es atribuido al filtro de síntesis LTP (ver párrafo
4).
Es particularmente interesante en esta
estimación del filtro de síntesis LTP restringir la zona analizada
al final del período anterior al borrado. La longitud de la ventana
de análisis varía entre un valor mínimo y un valor ligado al
período fundamental de la señal.
Se calcula una señal residual por filtración
inversa LPC (tratamiento 10) de las últimas muestras memorizadas.
Esta señal es a continuación utilizada para generar una señal de
excitación del filtro de síntesis LPC 11 (ver abajo).
La síntesis de las muestras de reemplazo se
efectúa introduciendo una señal de excitación (calculada en 13 a
partir de la señal de salida del filtro LPC inverso) en el filtro de
síntesis LPC 11 (1/A(z)) calculado en 1. Esta señal de
excitación es engendrada de dos maneras diferentes según si la señal
es sonora o no sonora:
La señal de excitación es la suma de dos
señales, una componente fuertemente armónica y la otra menos o nada
armónica.
La componente fuertemente armónica es obtenida
por filtración LTP (módulo de tratamiento 14) con la ayuda de los
parámetros calculados en 2, de la señal residual mencionada en
3.
La segunda componente puede ser obtenida
igualmente por filtración LTP pero hecha no periódica por
modificaciones aleatorias de los parámetros, por generación de una
señal seudo-aleatoria.
Es particularmente interesante limitar la banda
pasante de la primera componente en las bajas frecuencias del
espectro. De la misma manera será interesante limitar en las más
altas frecuencias la segunda componente.
Cuando la señal es no sonora, una señal de
excitación no armónica es engendrada. Es interesante utilizar un
método de generación similar al utilizado para los sonidos sonoros,
con variaciones de parámetros (período, ganancia, signos) que
permitan hacerla no armónica.
Cuando la señal es no sonora, o débilmente
sonora, la señal residual utilizada para la generación de la
excitación es tratada para eliminar los picos de amplitud
significativamente por encima de la media.
La energía de la señal de síntesis es controlada
con la ayuda de una ganancia calculada y adaptada muestra por
muestra. En el caso donde el período de borrado es relativamente
largo, es necesario hacer bajar progresivamente la energía de la
señal de síntesis. La ley de adaptación de ganancia es calculada en
función de diferentes parámetros: valores de energía memorizados
antes del borrado (ver en 1), período fundamental, y estacionalidad
local de la señal en el momento del corte.
Si el sistema comprende un módulo que permite la
discriminación de los sonidos estacionarios (como la música) y no
estacionarios (como la palabra), las leyes de adaptación diferentes
pueden también ser utilizadas.
En el caso de codificadores por transformada con
adición-recubrimiento, la primera mitad de la
memoria de la última trama correctamente recibida contiene
informaciones bastante precisas sobre la primera mitad de la
primera trama perdida (su peso en la
adición-recubrimiento es más importante que el de la
trama actual). Esta información puede ser igualmente utilizada para
el cálculo de la ganancia adaptativa.
En el caso de períodos de borrado relativamente
largos, se puede igualmente hacer evolucionar los parámetros de
síntesis. Si el sistema está acoplado a un dispositivo de detección
de actividad vocal con estimación de los parámetros de ruido (tales
como [REC-G.723.1A], [SALAMI-2],
[BENYASSINE]), es particularmente interesante hacer tender los
parámetros de generación de la señal a reconstruir hacia aquellos
del ruido estimado: en particular al nivel de la envoltura
espectral (interpolación del filtro LPC con el del ruido estimado,
los coeficientes de la interpolación evolucionando con el
transcurso del tiempo hasta la obtención del filtro del ruido) y de
la energía (nivel que evoluciona progresivamente hacia el del ruido,
por ejemplo por ventanaje).
En el restablecimiento de la transmisión, es
particularmente importante evitar las rupturas brutales entre el
período borrado que se ha reconstruido según las técnicas definidas
en los párrafos anteriores y los períodos que siguen, en el curso
de los cuales se dispone de toda la información transmitida para
descodificar la señal. La presente invención efectúa una
ponderación en el dominio temporal con interpolación entre las
muestras de reemplazo anterior al restablecimiento de la
comunicación y las muestras descodificadas válidas que siguen al
período borrado. Esta operación es a priori independiente del
tipo de codificador empleado.
En el caso de codificadores por transformada con
adición-recubrimiento, esta operación es común con
la actualización de las memorias descritas en el párrafo que sigue
(ver ejemplo de realización).
Cuando la descodificación de las muestras
válidas se retoma después de un período borrado, puede haber una
degradación cuando el descodificador utiliza las datos normalmente
producidos en las tramas anteriores y memorizados. Es importante
actualizar adecuadamente estas memorias para evitar estos
artefactos.
Esto es particularmente importante para las
estructuras de codificación que utilizan procesos recursivos, que
para una muestra o una secuencia de muestras, se sirven de
informaciones obtenidas después de la descodificación de las
muestras anteriores. Estas son por ejemplo las predicciones
([KLEIJN]) que permiten extraer de la redundancia de la señal.
Estas informaciones están normalmente disponibles a la vez en el
codificador, que debe para esto haber efectuado para estas muestras
anteriores una forma de descodificación local, y en el
descodificador distante presente en la recepción. A partir de que
el canal de transmisión es perturbado y que el descodificador
distante no dispone más de las mismas informaciones que el
descodificador local presente en la emisión, hay desincronización
entre el codificador y el descodificador. En el caso de sistemas de
codificación fuertemente recursivos, esta desincronización puede
provocar degradaciones audibles que pueden perdurar largo tiempo
incluso amplificarse con el transcurso del tiempo si existen
inestabilidades en la estructura. En este caso, es entonces
importante esforzarse en re-sincronizar el
codificador y el descodificador, es decir, hacer una estimación de
las memorias del descodificador lo más cercana posible de las del
codificador. Sin embargo las técnicas de resincronización dependen
de la estructura de codificación utilizada. Se
presentará una cuyo principio es general en la presente patente, pero cuya complejidad es potencialmente importante.
presentará una cuyo principio es general en la presente patente, pero cuya complejidad es potencialmente importante.
Un método posible consiste en introducir en el
descodificador en la recepción un módulo de codificación del mismo
tipo que aquel presente en la emisión, que permite efectuar la
codificación-descodificación de las muestras de la
señal producida por las técnicas mencionadas en el párrafo anterior
durante los períodos borrados. De esta manera las memorias
necesarias para descodificar las muestras siguientes, son
completadas con datos a priori próximos (bajo reserva de una
cierta estacionalidad durante el período borrado) de aquellos que se
han perdido. En el caso donde esta hipótesis de estacionalidad no
sería respetada, después de un largo período borrado por ejemplo,
no se dispone de cualquier manera de informaciones suficientes para
actuar mejor.
De hecho no es generalmente necesario efectuar
la codificación completa de estas muestras, se limita a los módulos
necesarios para actualizar las memorias.
Esta puesta en práctica puede efectuarse en el
momento de la producción de las muestras de reemplazo, lo que
repartió la complejidad sobre toda la zona de borrado, pero se
acumula con el procedimiento de síntesis descrito
anteriormente.
Cuando la estructura de codificación lo permite,
se puede también limitar el procedimiento de arriba a una zona
intermediaria en el principio del período de datos válidos que
suceden a un período borrado, el proceso de actualización
acumulándose entonces con la operación de descodificación.
Los ejemplos particulares de puesta en práctica
posibles son dados a continuación. El caso de los codificadores por
transformada de tipo TDAC o TCDM ([MAHIEUX]) es en particular
abordado.
Sistema de codificación/descodificación numérico
por transformada del tipo TDAC.
Codificador en banda amplificada
(50-7000 Hz) a 24 kb/s o 32 kb/s.
Trama de 20 ms (320 muestras).
Ventanas de 40 ms (640 muestras) con
adición-recubrimientos de 20 ms. Una trama binaria
que contiene los parámetros codificados obtenidos por la
transformación TDAC sobre una ventana. Después de la descodificación
de estos parámetros, haciendo la transformación inversa TDAC, se
obtiene una trama de salida de 20 ms que es la suma de la segunda
mitad de la ventana anterior y la primera mitad de la ventana
actual. Sobre la figura 4, ha sido marcado en grueso las dos partes
de ventanas utilizadas para la reconstrucción de la trama n (en
temporal). De esta manera, una trama binaria perdida perturba la
reconstrucción de dos tramas consecutivas (la actual y la
siguiente, figura 5). Por el contrario, haciendo correctamente el
reemplazo de los parámetros perdidos, se pueden recuperar las
partes de la información que provienen de la trama binaria anterior
y siguiente (figura 6), para la reconstrucción estas dos
tramas.
Todas las operaciones descritas abajo son
puestas en práctica en la recepción, conforme a las figuras 1 y 2,
ya sea en el seno del módulo de disimulación de las tramas borradas
que comunican con el descodificador, como en el descodificador
mismo (actualización de las memorias del descodificador).
En correspondencia con el párrafo 5.1.2, se
actualiza la memoria de las muestras descodificadas. Esta memoria
es utilizada para los análisis LPC y LTP de la señal pasada en el
caso de un borrado de una trama binaria. En el ejemplo aquí
presentado, el análisis LPC es hecho sobre un período de señal de 20
ms (320 muestras). En general, el análisis LTP necesita más
muestras a memorizar. En nuestro ejemplo, para poder hacer el
análisis LTP correctamente, el número de muestras memorizadas es
igual a dos veces el valor máximo del pitch. Por ejemplo, si el
valor máximo del pitch MaxPitch está fijado en 320 muestras (50 Hz,
20 ms), las últimas 640 muestras serán memorizadas (40 ms de la
señal). Se calcula igualmente la energía de las tramas válidas y se
almacenan en un tampón circular de longitud 5s. Cuando una trama
borrada es detectada, se compara la energía de la última trama
válida con el máximo y con el mínimo de este tampón circular para
conocer su energía relativa.
Cuando una trama binaria es perdida, se
distinguen dos casos diferentes:
Primero, se hace un análisis de la señal
memorizada para estimar los parámetros del modelo que sirven para
sintetizar la señal regenerada. Este modelo nos permite a
continuación sintetizar 40 ms de señal, lo que corresponde a la
ventana de 40 ms perdida. Haciendo la transformación TDAC seguida de
la transformación inversa TDAC sobre esta señal sintetizada (sin
codificación - descodificación de los parámetros), se obtiene la
señal de salida de 20 ms. Gracias a estas operaciones TDAC - TDAC
inversa, se explota la información que proviene de la ventana
anterior correctamente recibida (ver figura 6). Al mismo tiempo, se
actualizan las memorias del descodificador. De esta manera, la
trama binaria siguiente, si es bien recibida, puede ser
descodificada normalmente, y las tramas descodificadas serán
automáticamente sincronizadas (figura 6).
Las operaciones a efectuar son las
siguientes:
1. Ventanaje de la señal memorizada. Por
ejemplo, se puede utilizar una ventana asimétrica de Hamming de 20
ms.
2. Cálculo de la función de autocorrelación
sobre la señal ventaneada.
3. Determinación de los coeficientes del filtro
LPC. Para esto, clásicamente se utiliza el algoritmo iterativo de
Levinson-Durbin. El orden de análisis puede ser
elevado, sobre todo cuando el codificador es utilizado para
codificar secuencias de música.
4. Detección de sonoridad y análisis a largo
plazo de la señal memorizada para la modelización de la eventual
periodicidad de la señal (sonidos sonorizados). En la realización
presentada, los inventores limitaron la estimación del período
fundamental Tp a los valores enteros, y calcularon una estimación
del grado de sonoridad bajo la forma del coeficiente de correlación
MaxCorr (ver abajo) evaluado en el período seleccionado. Sea Tm =
max (T, Fs/200), donde Fs es la frecuencia de muestreo, entonces
Fs/200 muestras corresponden a una duración de 5 ms. Para modelizar
mejor la evolución de la señal al final de la trama anterior, se
calculan los coeficientes de correlación Corr(T) que
corresponden a un retardo T utilizando solamente 2^{*}Tm muestras
al final de la señal memorizada:
donde
m_{0}...m_{Lmem-1} es la memoria de la señal
descodificada anteriormente. De esta fórmula, se ve que la longitud
de esta memoria L_{mem} debe ser al menos 2 veces el valor máximo
del período fundamental (también llamado "pitch")
MaxPitch.
Se ha fijado igualmente el valor mínimo del
período fundamental MinPitch que corresponde a una frecuencia
de 600 Hz (26 muestras con Fs = 16 kHz).
Se calcula Corr(T) para T=2,
101 , MaxPitch. Si T' es el más pequeño retardo
tal que Corr(T')<0 (se eliminan de esta manera las
correlaciones a muy corto plazo), entonces se busca MaxCorr,
máximo de Corr(T) para T'<T<=MaxPitch. Sea Tp el
período que corresponde a MaxCorr (Corr(Tp) = MaxCorr). Se
busca igualmente MaxCorrMP, máximo de Corr(T) para
T'<T<=0.75*MinPitch. Si Tp<MinPitch o MaxCorrMP >
0.7*MaxCorr y si la energía de la última trama válida es
relativamente débil, se decide que la trama es no sonora, porque
utilizando la predicción LTP se arriesgaría de obtener una
resonancia en las altas frecuencias muy molesta. El pitch escogido
es Tp=MaxPitch/2, y el coeficiente de correlación MaxCorr fijado en
un valor débil (0.25).
Se considera igualmente la trama como
no-sonora cuando más del 80% de su energía se
concentra en las últimas MinPitch muestras. Se trata entonces de
una salida de la palabra, pero el número de muestras no es
suficiente para estimar el período fundamental eventual, es mejor
tratarlo como trama no sonora, incluso disminuir más rápidamente la
energía de la señal sintetizada (para señalar esto, se pone
DiminFlag=1).
En el caso donde MaxCorr > 0.6, se verifica
que no se encontró un múltiplo (4, 3 ó 2 veces) del período
fundamental. Para esto, se busca el máximo local de la correlación
alrededor de Tp/4, Tp/3 y Tp/2. Se nota T_{1} la posición de este
máximo, y MaxCorrL = Corr(T_{1}). Si T_{1} > MinPitch
y MaxCorrL > 0.75* MaxCorr, se escoge T_{1} como nuevo período
fundamental.
Si Tp es inferior a MaxPitch/2, se puede
verificar si se trata realmente de una trama sonora buscando el
máximo local de la correlación alrededor de 2*TP(TPP) y
verificando si Corr(T_{pp})>0.4. Si
Corr(T_{pp})<0.4 y si la energía de la señal disminuye,
se pone DiminFlag=1 y se disminuye el valor de MaxCorr, si no se
busca el máximo local siguiente entre el T_{p} actual y
MaxPitch.
Otro criterio de sonorización consiste en
verificar si al menos en 2/3 de los casos la señal retardada por el
período fundamental tiene el mismo signo que la señal no
retardada.
Se verifica esto sobre una longitud igual al
máximo entre 5 ms y 2*T_{p}.
Se verifica igualmente si la energía de la señal
tiene tendencia a disminuir o no. Si sí, se pone DiminFlag=1 y se
hace decrecer el valor de MaxCorr en función del grado de
disminución.
La decisión de sonorización tiene en cuenta
igualmente la energía de la señal: si la energía es fuerte, se
aumenta el valor de MaxCorr, de esta manera es más probable que la
trama sea decidida sonora. Por el contrario, si la energía es muy
débil, se disminuye el valor de MaxCorr.
Finalmente, se toma la decisión de sonorización
en función del valor de MaxCorr: la trama es no sonora si y sólo si
MaxCorr < 0.4. El período fundamental T_{p} de una trama no
sonora es definido, el mismo debe ser inferior o igual a
MaxPitch/2.
\vskip1.000000\baselineskip
5. Cálculo de la señal residual por filtración
inversa LPC de las últimas muestras memorizadas. Esta señal
residual es almacenada en la memoria ResMem.
6. Igualamiento de la energía de la señal
residual. En el caso de una señal no sonora o débilmente sonora
(MaxCorr< 0.7), la energía de la señal residual almacenada en
ResMem puede cambiar bruscamente de una parte a la otra. La
repetición de esta excitación ocasiona una perturbación periódica
muy desagradable en la señal sintetizada. Para evitar esto, se
asegura que ningún pico de amplitud importante se presente en la
excitación de una trama débilmente sonora. Como la excitación es
construida a partir de las últimas Tp muestras de la señal
residual, se trata este vector de Tp muestras. El método utilizado
en nuestro ejemplo es el siguiente:
- \sqbullet
- Se calcula la media MeanAmpl de los valores absolutos de las últimas Tp_{ }muestras de la señal residual.
- \sqbullet
- Si el vector de las muestras a tratar contiene n pasajes en cero, se corta en n+1 sub-vectores, el signo de la señal en cada sub-vector siendo entonces invariable.
- \sqbullet
- Se busca la amplitud máxima MaxAmplSv de cada sub-vector. Si MaxAmplSv>1.5*MeanAmpl, se multiplica el sub-vector por 1.5*MeanAmpl/MaxAmplSv.
\vskip1.000000\baselineskip
7. Preparación de la señal de excitación de una
longitud de 640 muestras que corresponde a la longitud de la
ventana TDAC. Se distinguen 2 casos según la sonorización:
La componente fuertemente armónica es obtenida
por filtración LTP del orden 3 de la señal residual:
excb(i)
=
0.15*exc(i-Tp-1)+0.7*exc(i-Tp)+0.15*exc(i-Tp+1)
Los coeficientes [0.15, 0.7, 0.15] corresponden
a un filtro FIR paso-bajo de 3 dB de atenuación a
Fs/4.
La segunda componente es obtenida igualmente por
una filtración LTP hecha no periódica por la modificación aleatoria
de su período fundamental Tph. Tph es escogido como la parte entera
de un valor real aleatorio Tpa. El valor inicial de Tpa es igual a
Tp y después el mismo es modificado muestra por muestra
adicionándole un valor aleatorio en [-0.5, 0.5]. Además, esta
filtración LTP es combinada con una filtración IIR paso alto:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
La excitación sonora es entonces la suma de
estas dos componentes:
Exc(i)=excb(i)+exch(i)
- \sqbullet
- En el caso de una trama no sonora, la señal de excitación exc es obtenida igualmente por filtración LTP de orden 3 con los coeficientes [0.15, 0.7, 0.15] pero es hecha no periódica por aumento del período fundamental de un valor igual a 1 todas las 10 muestras, e inversión de la señal con una probabilidad de 0.2.
\vskip1.000000\baselineskip
8. Síntesis de las muestras de reemplazo
introduciendo la señal de excitación exc en el filtro LPC calculado
en 3.
9. Control del nivel de la energía de la señal
de síntesis. La energía tiende progresivamente hacia un nivel
fijado por adelantado desde la primera trama de reemplazo
sintetizado. Este nivel puede ser definido, por ejemplo, como la
energía de la trama de salida más débil encontrada durante los
últimos 5 segundos anteriores al borrado. Se definen dos leyes de
adaptación de la ganancia que son escogidas en función de la bandera
DiminFlag calculada en 4. La velocidad de disminución de la energía
depende igualmente del período fundamental. Existe una tercera ley
de adaptación más radical que es utilizada cuando se detecta que el
principio de la señal generada no corresponde bien a la señal
original, como es explicado posteriormente (ver punto 11).
\newpage
10. Transformación TDAC sobre la señal
sintetizada en 8, como se explica en el principio de este capítulo.
Los coeficientes TDAC obtenidos reemplazan los coeficientes TDAC
perdidos. A continuación, haciendo la transformación inversa TDAC,
se obtiene la trama de salida. Estas operaciones tienen tres
objetivos:
- \sqbullet
- En el caso de la primera ventana perdida, de esta manera se explota la información de la ventana anterior correctamente recibida que contiene la mitad de los datos necesarios para reconstruir la primera trama perturbada (figura 6).
- \sqbullet
- Se actualiza la memoria del descodificador para la descodificación de la trama siguiente (sincronización del codificador y del descodificador, ver párrafo 5.1.4).
- \sqbullet
- Se asegura automáticamente la transición continua (sin ruptura) de la señal de salida cuando la primera trama binaria correctamente recibida llega después de un período borrado que se ha reconstruido según las técnicas presentadas arriba (ver párrafo 5.1.3).
11. La técnica de
adición-recubrimiento permite verificar si la señal
sonora sintetizada corresponde bien a la señal de origen o no
porque para la primera mitad de la primera trama perdida el peso de
la memoria de la última ventana correctamente recibida es más
importante (figura 6). Entonces tomando la correlación entre la
primera mitad de la primera trama sintetizada y la primera mitad de
la trama obtenida después de las operaciones TDAC
101 TDAC inversa, se puede estimar la
similitud entre la trama perdida y la trama de reemplazo. Una
correlación débil (<0.65) señala que la señal original es
bastante diferente de la obtenida por el método de reemplazo, es
mejor disminuir la energía de esta última rápidamente hacia el nivel
mínimo.
En el párrafo anterior, los puntos
1-6 concernientes al análisis de la señal
descodificada que anteceden a la primera trama borrada y que
permiten la construcción de un modelo de síntesis (LPC y
eventualmente LTP) de esta señal. Para las tramas borradas
siguientes, no se rehace el análisis, el reemplazo de la señal
perdida está basada sobre los parámetros (coeficientes LPC, pitch,
MaxCorr, ResMem) calculados durante la primera trama borrada. Se
hacen entonces únicamente las operaciones que corresponden a la
síntesis de la señal y a la sincronización del descodificador, con
las modificaciones siguientes con relación a la primera trama
borrada:
- \sqbullet
- En la parte de síntesis (puntos 7 y 8), se generan únicamente 320 nuevas muestras, porque la ventana de la transformación TDAC cubre las últimas 320 muestras generadas durante la trama borrada anterior y estas nuevas 320 muestras.
- \sqbullet
- En el caso donde el período de borrado fuera relativamente largo, es importante hacer evolucionar los parámetros de síntesis hacia los parámetros de un ruido blanco o hacia aquellos con ruido de fondo (ver punto 5 en el párrafo 3.2.2.2). Como el sistema presente en este ejemplo no comprende VAD/CNG, se tiene, por ejemplo, la posibilidad de hacer una o varias de las modificaciones siguientes:
- \sqbullet
- Interpolación progresiva del filtro LPC con un filtro plano para hacer la señal sintetizada menos coloreada.
- \sqbullet
- Aumento progresivo del valor del pitch.
- \sqbullet
- En modo sonoro, se oscila en modo no-sonoro después de un cierto tiempo (por ejemplo cuando la energía mínima es alcanzada).
Si el sistema comprende un módulo que permite
la discriminación palabra/música, se puede entonces, después de la
selección de un modo de síntesis de música poner en práctica un
tratamiento específico para las señales musicales. En la figura 7,
el módulo de síntesis de música ha sido referenciado por 15, el de
la síntesis de palabra por 16 y el conmutador palabra/música por
17.
Tal tratamiento pone en práctica por ejemplo
para el modelo de síntesis de música las etapas siguientes,
ilustradas en la figura 8:
Se calcula esta envoltura espectral bajo la
forma de un filtro LPC [RABINER][KLEIJN]. El análisis es efectuado
por los métodos clásicos ([KLEIJN]). Después del ventanaje de las
muestras memorizadas en período válido, se pone en práctica un
análisis LPC para calcular un filtro LPC A(z) (etapa 19). Se
utiliza para este análisis un orden elevado (>100) con el fin de
obtener buenas ejecuciones sobre las señales musicales.
La síntesis de las muestras de reemplazo se
efectúa introduciendo una señal de excitación en el filtro de
síntesis LPC (1/A(z)) calculado en la etapa 19. Esta señal de
excitación - calculada en una etapa 20 - es un ruido blanco cuya
amplitud es escogida para obtener una señal que tiene la misma
energía de las últimas N muestras memorizadas en período válido. En
la figura 8, la etapa de filtración es referenciada por 21.
Si la excitación se presenta como un ruido
blanco uniforme multiplicado por una ganancia, se puede calcular
esta ganancia G como sigue:
El algoritmo de Durbin da la energía de la señal
residual. Conociendo igualmente la energía de la señal a modelizar
se estima la ganancia G_{LPC} del filtro LPC como la relación de
estas dos energías.
Se estima la energía objetivo igual a la energía
de las últimas N muestras memorizadas en período válido (N es
típicamente < la longitud de la señal utilizada para el análisis
LPC).
La energía de la señal sintetizada es el
producto de la energía del ruido blanco por G^{2} y G_{LPC}. Se
escoge G para que esta energía sea igual a la energía objetivo.
Como para las señales de palabra, salvo que la
velocidad de disminución de la energía de la señal de síntesis es
mucho más lenta, y que la misma no depende del período fundamental
(inexistente):
La energía de la señal de síntesis es controlada
con la ayuda de una ganancia calculada y adaptada muestra por
muestra. En el caso donde el período de borrado es relativamente
largo, es necesario hacer bajar progresivamente la energía de la
señal de síntesis. La ley de adaptación de la ganancia puede ser
calculada en función de diferentes parámetros como los valores de
las energías memorizadas antes del borrado, y estacionalidad local
de la señal en el momento del corte.
Como para las señales de palabra:
En el caso de períodos de borrado relativamente
largos, se puede igualmente hacer evolucionar los parámetros de
síntesis. Si el sistema es acoplado a un dispositivo de detección de
actividad vocal o de señales musicales con estimación de los
parámetros de ruido (tal como [REC-G.723.1A],
[SALAMI-2], [BENYASSINE]), será particularmente
interesante hacer tender los parámetros de generación de la señal a
reconstruir hacia aquellos del ruido estimado: en particular al
nivel de la envoltura espectral (interpolación del filtro LPC con el
del ruido estimado, los coeficientes de la interpolación
evolucionando con el transcurso del tiempo hasta obtención del
filtro del ruido) y de la energía (nivel que evoluciona
progresivamente hacia el del ruido, por ejemplo por ventanaje).
Como se habrá comprendido, la técnica que acaba
de ser descrita presenta la ventaja de ser utilizable con cualquier
tipo de codificador; en particular la misma permite remediar los
problemas de los paquetes de bits perdidos por los codificadores
temporales o por transformada, sobre las señales de palabra y música
con buenas ejecuciones: en efecto, en la presente técnica, las
únicas señales memorizadas durante los períodos donde los datos
transmitidos son válidos, son las muestras salidas del
descodificador, información que está disponible cualquiera que sea
la estructura de codificación utilizada.
[AT&T] AT&T (D.A. Kapilow, R.V.
Cox) "A high quality low-complexity
algorithm for frame erasure concealment (FEC) with G.711".
Delayed Contribution D.249 (WP 3/16), ITU, mayo 1999.
[ATAL] B.S. Atal y M.R. Schroeder.
"Predictive coding of speech signal and subjectives error
criteria". IEEE Trans. on Acoustics, Speech and Signal
Processing, 27:247-254, junio 1979.
[BENYASSINE] A. Benyassine, E.
Shlomot y H.Y. Su. "ITU-T
recommendation G.729 Annex B: A silence compression scheme for use
with G.729 optimized for V.70 digital simultaneous voice and data
applications". IEEE Communication Magazine, Septiembre
97, PP. 56-63.
[BRANDENBURG] K. H. Brandenburg y M.
Bossi. "Overview of MPEG audio: current and future
standards for low-bit-rate audio
coding". Journal of Audio Eng. Soc.,
Vol.45-1/2, enero/febrero 1997,
PP.4-21.
[CHEN] J. H. Chen, R. V. Cox, Y.
C. Lin, N. Jayant y M. J. Melchner. "A
low-delay CELP coder for the CCITT 16 kb/s speech
coding standard". IEEE Journal on Selected Areas on
Communications, Vol.10-5, junio 1992,
PP.830-849.
[CHEN-2] J. H. Chen, C.
R. Watkins. "Linear prediction coefficient generation
during frame erasure or packet loss". Patente US5574825,
EP0673018.
[CHEN-3] J. H. Chen, C.
R. Watkins. "Linear prediction coefficient generation
during frame erasure or packet loss". Patente 884010.
[CHEN-4] J. H. Chen, C.
R. Watkins. "Frame erasure or packet loss compensation
method". Patente US5550543, EP0707308.
[CHEN-5] J. H. Chen.
"Excitation signal synthesis during frame erasure or packet
loss". Patente US5615298, EP0673017.
[CHEN-6] J. H. Chen.
"Computational complexity reduction during frame erasure of packet
loss". Patente
US5717822.
US5717822.
[CHEN-7] J. H. Chen.
"Computational complexity reduction during frame erasure or packet
loss". Patente
US940212435, EP0673015.
US940212435, EP0673015.
[COX] R. V. Cox. "Three new speech
coders from the ITU cover a range of applications". IEEE
Communication Magazine, septiembre 97,
PP.40-47.
[COX-2] R. V. Cox. "An
improved frame erasure concealment method for ITU-T
Rec. G728". Delayed contribution D.107 (WP 3/16),
ITU-T, enero 1998.
[COMBESCURE] P. Combescure, J.
Schnitzler, K. Ficher, R. Kirchherr, C.
Lamblin, A. Le Guyader, D. Massaloux, C.
Quinquis, J. Stegmann, P. Vary. "A 16,24,32
kbit/s Wideband Speech Codec Based on ATCELP". Proc. of ICASSP
conference, 1998.
[DAUMER] W. R. Daumer, P.
Mermelstein, X. Maître y I. Tokizawa.
"Overview of the ADPCM coding algorithm". Proc. of
GLOBECOM 1984, PP.23.1.1-23.1.4.
[ERDÖL] N. Erdöl, C. Castelluccia,
A. Zilouchian. "Recovery of Missing Speech Packets Using
the Short-Time Energy and
Zero-Crossing Measurements" IEEE Trans. on
Speech and Audio Processing, Vol.1-3, julio
1993, PP. 295-303.
[FINGSCHEIDT] T. Fingscheidt, P.
Vary, "Robust speech decoding: a universal approach to bit
error concealment", Proc. of ICASSP conference,
1997, pp.1667-1670.
[GOODMAN] D. J. Goodman, G. B.
Lockhart, O. J. Wasem, W. C. Wong. "Waveform
Substitution Techniques for Recovering Missing Speech Segments in
Packet Voice Communications". IEEE Trans. on Acoustics, Speech
and Signal Processing, Vol. ASSP-34, diciembre
1986, PP. 1440-1448.
[GSM-FR] Recommendation GSM
06.11. "Substitution and muting of lost frames for full rate
speech traffic channels". ETSI/TC SMG, ver.:3.0.1., febrero
1992.
[HARDWICK] J. C. Hardwick y J. S.
Lim. "The application of the IMBE speech coder to mobile
communications". Proc. of ICASSP conference, 1991,
PP.249-252.
[HELLWIG] K. Hellwig, P. Vary, D.
Massaloux, J. P. Petit, C. Galand y M.
Rosso. "Speech codec for the European mobile radio
system". GLOBECOM conference, 1989, PP.
1065-1069.
[HONKANEN] T. Honkanen, J. Vainio,
P. Kapanen, P. Haavisto, R. Salami, C.
Laflamme y J. P. Adoul. "GSM enhanced full rate
speech codec". Proc. of ICASSP conference, 1997,
PP.771-774.
[KROON] P. Kroon, B. S. Atal.
"On the use of pitch predictors with high temporal resolution".
IEEE Trans. on Signal Processing, Vol. 39-3,
marzo. 1991, PP. 733-735.
[KROON-2] P. Kroon.
"Linear prediction coefficient generation during frame erasure or
packet loss". Patente US5450449, EP0673016.
\newpage
[MAHIEUX] Y. Mahieux, J. P. Petit.
"High quality audio transform coding at 64 kbit/s". IEEE
Trans. on Com., Vol. 42-11, nov. 1994,
PP.3010-3019.
[MAHIEUX-2] Y. Mahieux,
"Dissimulation erreurs de transmission", Patente 92 06720
depositada el 3 de junio 1992.
[MAITRE] X. Maitre. "7 kHz audio coding
within 64 kbit/s". IEEE Journal on Selected Areas on
Communications, Vol. 6-2, febrero 1988,
PP. 283-298.
[PARIKH] V. N. Parikh, J. H. Chen,
G. Aguilar. "Frame Erasure Concealment Using Sinusoidal
Analysis-Synthesis and Its Application to
MDCT-Based Codecs". Proc. of ICASSP
conference, 2000.
[PICTEL] PictureTel Corporation, "Detailed
Description of the PTC (PictureTel Transform Coder)",
Contribution ITU-T, SG15/WP2/Q6,
8-9 Octubre 1996 Baltimore meeting, TD7.
[RABINER] L. R. Rabiner, R. W.
Schafer. "Digital processing of speech signals". Bell
Laboratoires Inc., 1978.
[REC G.723.1A] ITU-T Annex A to
recommendation G.723.1 "Silence compression scheme for dual rate
speech coder for multimedia communications transmitting at 5.3
& 6.3 kbit/s".
[SALAMI] R. Salami, C. Laflamme,
J. P. Adoul, A. Kataoka, S. Hayashi, T.
Moriya, C. Lamblin, D. Massaloux, S.
Proust, P. Kroon y Y. Shoham. "Design and
description of CS-ACELP: a toll quality 8kb/s speech
coder". IEEE Trans. on Speech and Audio Processing, Vol.
6-2, marzo 1998, PP.
116-130.
[SALAMI-2] R. Salami, C.
Laflamme, J. P. Adoul. "ITU-T G.729
Annex A: Reduced complexity 8 kb/s CS-ACELP codec
for digital simultaneous voice and data". IEEE Communication
Magazine, septiembre 97, PP. 56-63.
[TREMAIN] T. E. Tremain. "The
government standard linear predictive coding algorithm: LPC 10".
Speech technology, abril 1982, PP.
40-49.
[WATKINS] C. R. Watkins, J. H.
Chen. "Improving 16 kb/s G.728 LD-CELP
Speech Coder for Frame Erasure Channels". Proc. of ICASSP
conference, 1995, PP. 241-244.
Claims (18)
1. Proceso de disimulación de error de
transmisión en una señal audio-numérica en la cual
en la detección (3) de muestras faltantes o erróneas en una señal,
se generan muestras de síntesis (5) con la ayuda de al menos un
operador de predicción a corto plazo y al menos para los sonidos
sonoros un operador de predicción a largo plazo estimado en función
de muestras descodificadas de una señal descodificada pasada, dichas
muestras descodificadas siendo memorizadas (6) anteriormente cuando
los datos transmitidos de dicha señal pasada son válidos,
caracterizado porque se controla la energía de la señal de
síntesis generada de esta manera con la ayuda de una ganancia
calculada y adaptada muestra por muestra según una ley de adaptación
que depende de al menos un parámetro de dichas muestras
descodificadas memorizadas.
2. Proceso según la reivindicación 1,
caracterizado porque la ganancia para el control de la señal
de síntesis es calculada en función de al menos uno de los
parámetros siguientes: valores de energía previamente memorizados
para las muestras que corresponden a los datos válidos, período
fundamental para los sonidos sonoros, o cualquier parámetro que
caracteriza el espectro de frecuencias.
3. Proceso según una de las reivindicaciones
anteriores, caracterizado porque la ganancia aplicada a la
señal de síntesis decrece progresivamente en función de la duración
durante la cual las muestras de síntesis son generadas.
4. Proceso según una de las reivindicaciones
anteriores, caracterizado porque se discrimina en los datos
válidos los sonidos estacionarios y los sonidos no estacionarios y
se ponen en práctica las leyes de adaptación de la ganancia que
permiten controlar la señal de síntesis diferentes por una parte
para las muestras generadas a continuación de datos válidos que
corresponden a sonidos estacionarios y por otra parte para las
muestras generadas a continuación de datos válidos que corresponden
a sonidos no estacionarios.
5. Proceso según una de las reivindicaciones
anteriores, caracterizado porque se actualiza en función de
las muestras de síntesis generadas el contenido de memorias
utilizadas para el tratamiento de descodificación.
6. Proceso según la reivindicación 5,
caracterizado porque se pone en práctica al menos
parcialmente sobre las muestras sintetizadas una codificación
análoga a aquella puesta en práctica en el emisor seguida
eventualmente de una operación de descodificación al menos parcial,
los datos obtenidos sirviendo para regenerar las memorias del
descodificador.
7. Proceso según la reivindicación 6,
caracterizado porque se regenera la primera trama borrada por
medio de esta operación de
codificación-descodificación, explotando el
contenido de las memorias del descodificador antes del corte,
cuando dichas memorias contienen informaciones explotables en esta
operación.
8. Proceso según una de las reivindicaciones
anteriores caracterizado porque se genera a la entrada del
operador de predicción a corto plazo una señal de excitación que,
en zona sonora, es la suma de una componente armónica y de una
componente débilmente armónica o no armónica, y en zona no sonora,
limitada por una componente no armónica.
9. Proceso según la reivindicación 8,
caracterizado porque la componente armónica es obtenida
poniendo en práctica una filtración por medio del operador de
predicción a largo plazo aplicado sobre una señal residual
calculada poniendo en práctica una filtración a corto plazo inversa
sobre las muestras memorizadas.
10. Proceso según la reivindicación 9,
caracterizado porque la otra componente es determinada con la
ayuda de un operador de predicción a largo plazo en el cual se
aplican perturbaciones seudo-aleatorias.
11. Proceso según una de las reivindicaciones 8
a 10, caracterizado porque para la generación de una señal
de excitación sonora, la componente armónica está limitada a bajas
frecuencias del espectro, mientras que, la otra componente está
limitada a altas frecuencias.
12. Proceso según una de las reivindicaciones
anteriores, caracterizado porque el operador de predicción a
largo plazo es determinado a partir de muestras de tramas válidas
memorizadas, con un número de muestras utilizadas para esta
estimación que varía entre un valor mínimo y un valor igual a al
menos dos veces el período fundamental estimado para el sonido
sonoro.
13. Proceso según una de las reivindicaciones
anteriores, caracterizado porque la señal residual es tratada
de manera no lineal para eliminar los picos de amplitud.
14. Proceso según una de las reivindicaciones
anteriores, caracterizado porque detecta la actividad vocal
estimando los parámetros de ruido y porque se hacen tender los
parámetros de la señal sintetizada hacia los del ruido
estimado.
15. Proceso según la reivindicación 14,
caracterizado porque se estima la envoltura espectral del
ruido de las muestras descodificadas válidas y se genera una señal
sintetizada que evoluciona hacia una señal que posee la misma
envoltura espectral.
16. Proceso de tratamiento de señales de
sonidos, caracterizado porque se pone en práctica una
discriminación entre los sonidos sonoros y los sonidos musicales y
cuando se detectan los sonidos musicales, se pone en práctica un
proceso según una de las reivindicaciones anteriores sin estimación
de un operador de predicción a largo plazo.
17. Dispositivo de disimulación de error de
transmisión en una señal audio-numérica que recibe a
la entrada una señal descodificada que le transmite un
descodificador y que genera muestras faltantes o erróneas en esta
señal descodificada, caracterizado porque comprende medios de
tratamiento aptos para poner en práctica el proceso según una de
las reivindicaciones anteriores.
18. Sistema de transmisión que comprende al
menos un codificador, al menos un canal de transmisión, un módulo
apto para detectar qué datos transmitidos se han perdido o son
fuertemente erróneos, al menos un descodificador y un dispositivo
de disimulación de errores que recibe la señal descodificada,
caracterizado porque este dispositivo de disimulación de
errores es un dispositivo según la reivindicación 17.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0011285 | 2000-09-05 | ||
FR0011285A FR2813722B1 (fr) | 2000-09-05 | 2000-09-05 | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2298261T3 true ES2298261T3 (es) | 2008-05-16 |
Family
ID=8853973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01969857T Expired - Lifetime ES2298261T3 (es) | 2000-09-05 | 2001-09-05 | Disimulacion de errores de transmision en una señal de audio. |
Country Status (11)
Country | Link |
---|---|
US (2) | US7596489B2 (es) |
EP (1) | EP1316087B1 (es) |
JP (1) | JP5062937B2 (es) |
AT (1) | ATE382932T1 (es) |
AU (1) | AU2001289991A1 (es) |
DE (1) | DE60132217T2 (es) |
ES (1) | ES2298261T3 (es) |
FR (1) | FR2813722B1 (es) |
HK (1) | HK1055346A1 (es) |
IL (2) | IL154728A0 (es) |
WO (1) | WO2002021515A1 (es) |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030163304A1 (en) * | 2002-02-28 | 2003-08-28 | Fisseha Mekuria | Error concealment for voice transmission system |
FR2849727B1 (fr) * | 2003-01-08 | 2005-03-18 | France Telecom | Procede de codage et de decodage audio a debit variable |
EP1589330B1 (en) * | 2003-01-30 | 2009-04-22 | Fujitsu Limited | Audio packet vanishment concealing device, audio packet vanishment concealing method, reception terminal, and audio communication system |
US7835916B2 (en) * | 2003-12-19 | 2010-11-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Channel signal concealment in multi-channel audio systems |
KR100587953B1 (ko) * | 2003-12-26 | 2006-06-08 | 한국전자통신연구원 | 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템 |
JP4761506B2 (ja) * | 2005-03-01 | 2011-08-31 | 国立大学法人北陸先端科学技術大学院大学 | 音声処理方法と装置及びプログラム並びに音声システム |
DK1869671T3 (da) * | 2005-04-28 | 2009-10-19 | Siemens Ag | Fremgangsmåde og anordning til stöjundertrykkelse |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US8620644B2 (en) * | 2005-10-26 | 2013-12-31 | Qualcomm Incorporated | Encoder-assisted frame loss concealment techniques for audio coding |
US7805297B2 (en) | 2005-11-23 | 2010-09-28 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US8417185B2 (en) | 2005-12-16 | 2013-04-09 | Vocollect, Inc. | Wireless headset and method for robust voice data communication |
JP5142727B2 (ja) * | 2005-12-27 | 2013-02-13 | パナソニック株式会社 | 音声復号装置および音声復号方法 |
US7885419B2 (en) * | 2006-02-06 | 2011-02-08 | Vocollect, Inc. | Headset terminal with speech functionality |
US7773767B2 (en) | 2006-02-06 | 2010-08-10 | Vocollect, Inc. | Headset terminal with rear stability strap |
MX2009000054A (es) * | 2006-07-27 | 2009-01-23 | Nec Corp | Dispositivo de descodificacion de datos de audio. |
US8015000B2 (en) * | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
EP2080194B1 (fr) | 2006-10-20 | 2011-12-07 | France Telecom | Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information |
EP1921608A1 (en) * | 2006-11-13 | 2008-05-14 | Electronics And Telecommunications Research Institute | Method of inserting vector information for estimating voice data in key re-synchronization period, method of transmitting vector information, and method of estimating voice data in key re-synchronization using vector information |
KR100862662B1 (ko) | 2006-11-28 | 2008-10-10 | 삼성전자주식회사 | 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치 |
JP4504389B2 (ja) * | 2007-02-22 | 2010-07-14 | 富士通株式会社 | 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム |
ES2642091T3 (es) * | 2007-03-02 | 2017-11-15 | Iii Holdings 12, Llc | Dispositivo de codificación de audio y dispositivo de decodificación de audio |
US7853450B2 (en) * | 2007-03-30 | 2010-12-14 | Alcatel-Lucent Usa Inc. | Digital voice enhancement |
US20080249767A1 (en) * | 2007-04-05 | 2008-10-09 | Ali Erdem Ertan | Method and system for reducing frame erasure related error propagation in predictive speech parameter coding |
WO2008146466A1 (ja) * | 2007-05-24 | 2008-12-04 | Panasonic Corporation | オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路 |
KR100906766B1 (ko) * | 2007-06-18 | 2009-07-09 | 한국전자통신연구원 | 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법 |
KR101450297B1 (ko) * | 2007-09-21 | 2014-10-13 | 오렌지 | 복잡성 분배를 이용하는 디지털 신호에서의 전송 에러 위장 |
FR2929466A1 (fr) * | 2008-03-28 | 2009-10-02 | France Telecom | Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique |
CN101588341B (zh) * | 2008-05-22 | 2012-07-04 | 华为技术有限公司 | 一种丢帧隐藏的方法及装置 |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
USD605629S1 (en) | 2008-09-29 | 2009-12-08 | Vocollect, Inc. | Headset |
JP2010164859A (ja) * | 2009-01-16 | 2010-07-29 | Sony Corp | オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム |
CN101609677B (zh) * | 2009-03-13 | 2012-01-04 | 华为技术有限公司 | 一种预处理方法、装置及编码设备 |
US8160287B2 (en) | 2009-05-22 | 2012-04-17 | Vocollect, Inc. | Headset with adjustable headband |
US8438659B2 (en) | 2009-11-05 | 2013-05-07 | Vocollect, Inc. | Portable computing device and headset interface |
PL3364411T3 (pl) * | 2009-12-14 | 2022-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie do kwantyzacji wektorowej, urządzenie do kodowania głosu, sposób kwantyzacji wektorowej i sposób kodowania głosu |
PT2676270T (pt) | 2011-02-14 | 2017-05-02 | Fraunhofer Ges Forschung | Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade |
KR101424372B1 (ko) | 2011-02-14 | 2014-08-01 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 랩핑 변환을 이용한 정보 신호 표현 |
BR112013020324B8 (pt) * | 2011-02-14 | 2022-02-08 | Fraunhofer Ges Forschung | Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio |
PT3239978T (pt) | 2011-02-14 | 2019-04-02 | Fraunhofer Ges Forschung | Codificação e descodificação de posições de pulso de faixas de um sinal de áudio |
PL2676268T3 (pl) | 2011-02-14 | 2015-05-29 | Fraunhofer Ges Forschung | Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej |
AR085794A1 (es) | 2011-02-14 | 2013-10-30 | Fraunhofer Ges Forschung | Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral |
US8849663B2 (en) * | 2011-03-21 | 2014-09-30 | The Intellisis Corporation | Systems and methods for segmenting and/or classifying an audio signal from transformed audio information |
US9142220B2 (en) | 2011-03-25 | 2015-09-22 | The Intellisis Corporation | Systems and methods for reconstructing an audio signal from transformed audio information |
US9026434B2 (en) * | 2011-04-11 | 2015-05-05 | Samsung Electronic Co., Ltd. | Frame erasure concealment for a multi rate speech and audio codec |
US8620646B2 (en) | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US9183850B2 (en) | 2011-08-08 | 2015-11-10 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal |
US8548803B2 (en) | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
CN104011793B (zh) * | 2011-10-21 | 2016-11-23 | 三星电子株式会社 | 帧错误隐藏方法和设备以及音频解码方法和设备 |
EP2830062B1 (en) * | 2012-03-21 | 2019-11-20 | Samsung Electronics Co., Ltd. | Method and apparatus for high-frequency encoding/decoding for bandwidth extension |
US9123328B2 (en) * | 2012-09-26 | 2015-09-01 | Google Technology Holdings LLC | Apparatus and method for audio frame loss recovery |
US20150302892A1 (en) * | 2012-11-27 | 2015-10-22 | Nokia Technologies Oy | A shared audio scene apparatus |
US9437203B2 (en) * | 2013-03-07 | 2016-09-06 | QoSound, Inc. | Error concealment for speech decoder |
FR3004876A1 (fr) * | 2013-04-18 | 2014-10-24 | France Telecom | Correction de perte de trame par injection de bruit pondere. |
FR3011408A1 (fr) | 2013-09-30 | 2015-04-03 | Orange | Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard |
ES2805744T3 (es) | 2013-10-31 | 2021-02-15 | Fraunhofer Ges Forschung | Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo |
KR101940740B1 (ko) | 2013-10-31 | 2019-01-22 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법 |
US9437211B1 (en) * | 2013-11-18 | 2016-09-06 | QoSound, Inc. | Adaptive delay for enhanced speech processing |
EP2922056A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
EP2922055A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922054A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
CN107004417B (zh) * | 2014-12-09 | 2021-05-07 | 杜比国际公司 | Mdct域错误掩盖 |
US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
MX2018010756A (es) * | 2016-03-07 | 2019-01-14 | Fraunhofer Ges Forschung | Unidad de ocultamiento de error, decodificador de audio, y método relacionado y programa de computadora que usa características de una representación decodificada de una trama de audio decodificada apropiadamente. |
ES2874629T3 (es) * | 2016-03-07 | 2021-11-05 | Fraunhofer Ges Forschung | Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes |
EP3553777B1 (en) * | 2018-04-09 | 2022-07-20 | Dolby Laboratories Licensing Corporation | Low-complexity packet loss concealment for transcoded audio signals |
US10763885B2 (en) | 2018-11-06 | 2020-09-01 | Stmicroelectronics S.R.L. | Method of error concealment, and associated device |
WO2020164751A1 (en) | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment |
CN111063362B (zh) * | 2019-12-11 | 2022-03-22 | 中国电子科技集团公司第三十研究所 | 一种数字语音通信噪音消除和语音恢复方法及装置 |
CN111554309A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2746033B2 (ja) * | 1992-12-24 | 1998-04-28 | 日本電気株式会社 | 音声復号化装置 |
CA2142391C (en) * | 1994-03-14 | 2001-05-29 | Juin-Hwey Chen | Computational complexity reduction during frame erasure or packet loss |
US5574825A (en) * | 1994-03-14 | 1996-11-12 | Lucent Technologies Inc. | Linear prediction coefficient generation during frame erasure or packet loss |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
CA2177413A1 (en) * | 1995-06-07 | 1996-12-08 | Yair Shoham | Codebook gain attenuation during frame erasures |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
EP1686563A3 (en) * | 1997-12-24 | 2007-02-07 | Mitsubishi Denki Kabushiki Kaisha | Method and apparatus for speech decoding |
FR2774827B1 (fr) * | 1998-02-06 | 2000-04-14 | France Telecom | Procede de decodage d'un flux binaire representatif d'un signal audio |
US6449590B1 (en) * | 1998-08-24 | 2002-09-10 | Conexant Systems, Inc. | Speech encoder using warping in long term preprocessing |
US6188980B1 (en) * | 1998-08-24 | 2001-02-13 | Conexant Systems, Inc. | Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US6556966B1 (en) * | 1998-08-24 | 2003-04-29 | Conexant Systems, Inc. | Codebook structure for changeable pulse multimode speech coding |
JP3365360B2 (ja) * | 1999-07-28 | 2003-01-08 | 日本電気株式会社 | 音声信号復号方法および音声信号符号化復号方法とその装置 |
US7590525B2 (en) * | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
-
2000
- 2000-09-05 FR FR0011285A patent/FR2813722B1/fr not_active Expired - Fee Related
-
2001
- 2001-09-05 WO PCT/FR2001/002747 patent/WO2002021515A1/fr active IP Right Grant
- 2001-09-05 EP EP01969857A patent/EP1316087B1/fr not_active Expired - Lifetime
- 2001-09-05 AU AU2001289991A patent/AU2001289991A1/en not_active Abandoned
- 2001-09-05 JP JP2002525647A patent/JP5062937B2/ja not_active Expired - Lifetime
- 2001-09-05 AT AT01969857T patent/ATE382932T1/de not_active IP Right Cessation
- 2001-09-05 IL IL15472801A patent/IL154728A0/xx unknown
- 2001-09-05 US US10/363,783 patent/US7596489B2/en not_active Expired - Lifetime
- 2001-09-05 DE DE60132217T patent/DE60132217T2/de not_active Expired - Lifetime
- 2001-09-05 ES ES01969857T patent/ES2298261T3/es not_active Expired - Lifetime
-
2003
- 2003-03-04 IL IL154728A patent/IL154728A/en unknown
- 2003-10-15 HK HK03107426A patent/HK1055346A1/xx not_active IP Right Cessation
-
2009
- 2009-08-07 US US12/462,763 patent/US8239192B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
AU2001289991A1 (en) | 2002-03-22 |
DE60132217T2 (de) | 2009-01-29 |
WO2002021515A1 (fr) | 2002-03-14 |
DE60132217D1 (de) | 2008-02-14 |
HK1055346A1 (en) | 2004-01-02 |
EP1316087B1 (fr) | 2008-01-02 |
FR2813722A1 (fr) | 2002-03-08 |
EP1316087A1 (fr) | 2003-06-04 |
IL154728A (en) | 2008-07-08 |
US20100070271A1 (en) | 2010-03-18 |
IL154728A0 (en) | 2003-10-31 |
JP5062937B2 (ja) | 2012-10-31 |
US20040010407A1 (en) | 2004-01-15 |
JP2004508597A (ja) | 2004-03-18 |
US7596489B2 (en) | 2009-09-29 |
FR2813722B1 (fr) | 2003-01-24 |
ATE382932T1 (de) | 2008-01-15 |
US8239192B2 (en) | 2012-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2298261T3 (es) | Disimulacion de errores de transmision en una señal de audio. | |
KR101290425B1 (ko) | 소거된 스피치 프레임을 복원하는 시스템 및 방법 | |
JP4967054B2 (ja) | 受信器において実行される方法および受信器 | |
ES2625895T3 (es) | Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal | |
KR101092267B1 (ko) | 프레임 삭제 복구를 위한 시스템, 방법, 및 장치 | |
ES2434947T3 (es) | Procedimiento y dispositivo para la ocultación eficiente de un borrado de trama en códecs de voz | |
JP3432082B2 (ja) | フレーム消失の間のピッチ遅れ修正方法 | |
EP2026330B1 (en) | Device and method for lost frame concealment | |
ES2865099T3 (es) | Procedimiento y aparato de ocultación de errores de trama y procedimiento y aparato de decodificación que usa los mismos | |
Geiser et al. | High rate data hiding in ACELP speech codecs | |
US20120232889A1 (en) | Method and apparatus for performing packet loss or frame erasure concealment | |
JPH09120298A (ja) | フレーム消失の間の音声復号に使用する音声の有声/無声分類 | |
ES2378972T3 (es) | Atenuación de la sobresonorización, en particular para la generación de una excitación en un decodificador, en ausencia de información | |
BRPI0718422B1 (pt) | Método para sintetizar um sinal de áudio digital, memória de um dispositivo de síntese de sinal de áudio digital, dispositivo de síntese de sinal de áudio digital e decodificador de um sinal de áudio digital | |
RU2741518C1 (ru) | Кодирование и декодирование аудиосигналов | |
JPH09120297A (ja) | フレーム消失の間のコードブック利得減衰 |