ES2266281T3 - Metodo y sistema para ocultacion de error en tramas de voz en la decodificacion de voz. - Google Patents
Metodo y sistema para ocultacion de error en tramas de voz en la decodificacion de voz. Download PDFInfo
- Publication number
- ES2266281T3 ES2266281T3 ES01983716T ES01983716T ES2266281T3 ES 2266281 T3 ES2266281 T3 ES 2266281T3 ES 01983716 T ES01983716 T ES 01983716T ES 01983716 T ES01983716 T ES 01983716T ES 2266281 T3 ES2266281 T3 ES 2266281T3
- Authority
- ES
- Spain
- Prior art keywords
- long
- term
- delay
- prediction
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000007774 longterm Effects 0.000 claims description 105
- 230000001755 vocal effect Effects 0.000 claims description 31
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000008054 signal transmission Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Error Detection And Correction (AREA)
Abstract
Método de ocultación de error en un tren de bits codificado indicativo de señales de voz recibidas en un decodificador de voz (10, 220, 320), en el que el tren de bits codificado incluye una pluralidad de tramas de voz dispuestas en secuencias vocales, incluyendo las tramas de voz, al menos, una trama parcialmente corrupta precedida por una o más tramas sin corromper, en el que la trama parcialmente corrupta incluye un primer valor de retardo de predicción a largo plazo y un primer valor de ganancia de predicción a largo plazo, incluyendo las tramas sin corromper segundos valores de retardo de predicción a largo plazo y segundos valores de ganancia de predicción a largo plazo, comprendiendo dicho método las etapas de: Proporcionar un límite superior y de un límite inferior a partir de los segundos valores de retardo de predicción a largo plazo; determinar si el primer valor de retardo de predicción a largo plazo se encuentra dentro o fuera de los límites superior e inferior; Sustituir el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta por un tercer valor de retardo de predicción, cuando el primer valor de retardo de predicción a largo plazo se encuentre fuera de los límites superior e inferior (182); y Conservar el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta cuando el primer valor de retardo de predicción a largo plazo se encuentre dentro de los límites superior e inferior.
Description
Método y sistema para ocultación de error en
tramas de voz en la decodificación de voz.
La presente invención se refiere en general a la
decodificación de señales de voz procedentes de un tren de bits
codificado, y más especialmente, a la ocultación de parámetros
vocales corruptos cuando se detectan errores en las tramas de voz
durante la decodificación de la voz.
Los algoritmos de codificación de voz y audio
tienen una gran variedad de aplicaciones en los sistemas de
comunicación, multimedia y de almacenamiento. El desarrollo de los
algoritmos de codificación viene dado por la necesidad de ahorrar
capacidad de transmisión y almacenamiento, manteniendo al mismo
tiempo la elevada calidad de la señal sintetizada. La complejidad
del codificador está limitada, por ejemplo, por la potencia de
procesamiento de la plataforma de la aplicación. En algunas
aplicaciones, como por ejemplo, el almacenamiento de voz, el
codificador puede ser enormemente complejo, aunque el decodificador
debería ser lo más sencillo posible.
Los
codificadores-decodificadores (codecs) de voz
modernos funcionan procesando la señal de voz en breves segmentos
denominados tramas. Una longitud típica de trama de un
codificador-decodificador de voz es de 120 ms, lo
que corresponde a 160 muestras de voz, suponiendo una frecuencia de
muestreo de 8 KHz. En los
codificadores-decodificadores de banda ancha, la
longitud de trama típica de 20 ms corresponde a 320 muestras de voz,
suponiendo una frecuencia de muestreo de 16 KHz. La trama puede
dividirse adicionalmente en diversas subtramas. Para cada trama, el
decodificador determina una representación paramétrica de la señal
de entrada. Los parámetros se cuantifican y se transmiten a través
de un canal de comunicación (o se almacenan en un medio de
almacenamiento) en formato digital. El decodificador genera una
señal de voz sintetizada a partir de los parámetros recibidos, como
se muestra en la figura 1.
Un conjunto típico de parámetros de codificación
extraídos incluye parámetros espectrales (tales como parámetros de
Codificación Predictiva Lineal (LPC)) a utilizar en la predicción a
corto plazo de la señal, parámetros a utilizar para la predicción a
largo plazo (LTP) de la señal, diversos parámetros de ganancia y
parámetros de excitación. El parámetro LTP se encuentra
estrechamente relacionado con la frecuencia fundamental de la señal
de voz. Este parámetro suele conocerse como un denominado parámetro
de retardo de tono, que describe la periodicidad fundamental en
términos de muestras de voz. Asimismo, uno de los parámetros de
ganancia está relacionado en buena medida con la periodicidad
fundamental, por lo que se denomina ganancia LTP. La ganancia LTP
es un parámetro muy importante a la hora de conseguir que la voz sea
lo más natural posible. La descripción de los parámetros de
codificación que acaba de efectuarse se ajusta en términos generales
a una variedad de codificadores-decodificadores de
voz, incluyendo los codificadores-decodificadores de
predicción lineal excitada por código (CELP), que han sido durante
algún tiempo los codificadores-decodificadores de
voz que han gozado de un mayor éxito.
Los parámetros vocales se transmiten a través de
un canal de comunicación en formato digital. A veces, las
condiciones de la comunicación experimentan cambios, lo que puede
provocar errores en el tren de bits. Esto provocará errores de
trama (tramas erróneas), es decir, algunos de los parámetros que
describen un segmento de voz específico (normalmente de 20 ms)
estarán corrompidos. Existen dos clases de error de trama: tramas
totalmente corruptas y tramas parcialmente corruptas. A veces, estas
tramas no se reciben en el decodificador en absoluto. En los
sistemas de transmisiones basados en paquetes, tales como las
conexiones a Internet ordinarias, puede darse la situación de que
el paquete de datos no llegue jamás al receptor, o que el paquete de
datos llegue tan tarde que no pueda ser utilizado debido a las
características de tiempo real de la voz hablada. La trama
parcialmente corrupta es una trama que llega al receptor y que aún
puede contener algunos parámetros sin error. Esta suele ser la
situación de las conexiones conmutadas por circuito, tales como las
conexiones GSM existentes. La tasa de error binario (BER) de las
tramas parcialmente corruptas suele ser de aproximadamente un
0,5-5%.
Partiendo de la descripción precedente, puede
verse que los dos casos de tramas erróneas o corruptas requerirán
diferentes métodos a la hora de abordar la degradación de la voz
reconstruida, debido a la pérdida de parámetros vocales.
Las tramas de voz perdidas o con error, son una
consecuencia de la degradación de las condiciones del canal de
comunicación, que provoca errores en el tren de bits. Cuando se
detecta un error en la trama de voz recibida, se inicia un
procedimiento de corrección de error. Este procedimiento de
corrección de error suele incluir un procedimiento de sustitución y
un procedimiento de atenuación del sonido. En la técnica anterior,
los parámetros vocales de la trama errónea se sustituyen por
valores atenuados o modificados de la trama correcta anterior. No
obstante, algunos parámetros (como la excitación, en el caso de los
parámetros CELP) de la trama corrupta pueden seguir utilizándose
para la decodificación.
La figura 2 muestra el principio del método de
la técnica anterior. Como se muestra en la figura 2, se utiliza una
memoria intermedia etiquetada como "histórico de parámetros"
para almacenar los parámetros vocales de la última trama correcta.
Cuando se detecta una trama errónea, el Indicativo de Tramas
erróneas (BFI) se pone a 1 y se inicia el procedimiento de
ocultación de error. Cuando no se configura el BFI (BFI=0), se
actualiza el histórico de parámetros y los parámetros vocales se
utilizan para llevar a cabo la decodificación sin ocultación de
error. Con el sistema de la técnica anterior, el procedimiento de
ocultación de error utiliza el histórico de parámetros para ocultar
los parámetros perdidos o erróneos de las tramas corruptas. Algunos
parámetros vocales de la trama recibida pueden utilizarse, aún
cuando se haya clasificado como trama errónea (BFI=1). Por ejemplo,
en un codificador-decodificador de voz adaptable de
frecuencia múltiple (AMR) GSM (Especificiación ETSI 06.91), siempre
se utiliza el vector de excitación procedente del canal. Cuando las
tramas de voz son tramas de voz completamente perdidas (por
ejemplo, en algunos sistemas de transmisión basados en IP) no se
utilizarán parámetros de la trama errónea recibida. En algunos
casos, no se recibirá ninguna trama, o la trama llegará tan tarde
que tendrá que clasificarse como trama perdida.
En los sistemas de la técnica anterior, la
ocultación del retardo LTP utiliza el último valor de retardo LTP
correcto con una parte fraccional ligeramente modificada, y los
parámetros espectrales se sustituyen por los últimos parámetros
correctos ligeramente modificados hacia una media constante. Las
ganancias (LTP y libro de codificación fija) pueden por lo general
sustituirse por el último valor correcto atenuado o por la mediana
de varios de los últimos valores correctos. Los mismos parámetros
vocales sustituidos se utilizan para todas las subtramas,
introduciendo ligeras modificaciones en algunas de ellas.
La ocultación LTP de la técnica anterior puede
ser adecuada para señales de voz estacionarias, por ejemplo, la voz
estacionaria o vocalizada. No obstante, en el caso de las señales de
voz no estacionarias, el método de la técnica anterior puede causar
distorsiones audibles y desagradables. Por ejemplo, cuando la señal
de voz es no estacionaria o sin vocalizar, la mera sustitución del
valor de retardo de la trama errónea por el último valor de retardo
correcto tiene el efecto de generar un breve segmento de voz
vocalizada en medio de una ráfaga de voz sin vocalizar (Véase la
figura 10). El efecto, conocido como perturbación "bing" puede
resultar muy molesto.
El documento US 6188980 describe un
decodificador para la síntesis de voz a partir de una señal
codificada que incluye parámetros de predicción lineal excitada y
vectores LSF. Si en la transmisión de la señal procedente de un
codificador se produce un error, la secuencia de valores LSF del
vector LSF puede tener uno o más pares de valores LSF incorrectos.
El decodificador lleva a cabo selectivamente el borrado, la
ocultación LSF o eliminación de pares, a partir del número de pares
incorrectos de la secuencia.
La presente invención aprovecha el hecho de que
entre los parámetros de predicción a largo plazo (LTP) de las
señales de voz existe una relación reconocible. Concretamente, el
retardo LTP tiene una estrecha correlación con la ganancia LTP.
Cuando la ganancia LTP es elevada y razonablemente estable, el
retardo LTP suele ser muy estable y la variación entre los valores
de retardo adyacentes es muy pequeña. En este caso, los parámetros
vocales indican una secuencia de voz vocalizada. Cuando la ganancia
LTP es baja o inestable, el retardo LTP suele ser sin vocalizar, y
los parámetros vocales indican una secuencia de voz sin vocalizar.
Una vez que la secuencia de voz se ha clasificado como estacionaria
(vocalizada) o no estacionaria (sin vocalizar), la trama corrupta o
errónea de la secuencia puede procesarse de forma diferente.
De acuerdo con la invención, se facilita un
método para la ocultación de error en un tren de bits codificado
que indica las señales de voz recibidas en un decodificador de voz,
en el que el tren de bits codificado incluye una pluralidad de
tramas de voz dispuestas en secuencias vocales, incluyendo las
tramas de voz, al menos, una trama parcialmente corrupta precedida
por una o más tramas sin corromper, en el que la trama parcialmente
corrupta incluye un primer valor de retardo de predicción a largo
plazo y un primer valor de ganancia de predicción a largo plazo,
incluyendo las tramas sin corromper segundos valores de retardo de
predicción a largo plazo y segundos valores de ganancia de
predicción a largo plazo, incluyendo dicho método las siguientes
fases: proporcionar un límite superior y un límite inferior a
partir de los segundos valores de retardo de predicción a largo
plazo; determinar si el primer valor de retardo de predicción a
largo plazo se encuentra dentro o fuera de los límites superior e
inferior; sustituir el primer valor de retardo de predicción a largo
plazo de la trama parcialmente corrupta por un tercer valor de
retardo, cuando el primer valor de retardo de predicción a largo
plazo se encuentra fuera de los límites superior e inferior; y
conservar el primer valor de retardo de predicción a largo plazo de
la trama parcialmente corrupta cuando el primer valor de retardo de
predicción a largo plazo se encuentra dentro de los límites
superior e inferior.
El método puede también incluir la sustitución
del primer valor de retardo de predicción a largo plazo de la trama
parcialmente corrupta por un tercer valor de ganancia, cuando el
primer valor de retardo de predicción a largo plazo se encuentra
fuera de los límites superior e inferior.
De acuerdo con la invención, también se facilita
un transmisor de señales de voz y un sistema receptor para
codificar señales de un tren de bits codificado y la decodificación
del tren de bits codificado en voz sintetizada, en el que el tren
de bits codificado incluye una pluralidad de tramas de voz
dispuestas en secuencias vocales, incluyendo las tramas de voz al
menos una trama parcialmente corrupta precedida por una o más tramas
sin corromper, en el que la trama parcialmente corrupta incluye un
primer valor de retardo de predicción a largo plazo y un primer
valor de ganancia de predicción a largo plazo, incluyendo las tramas
sin corromper segundos valores de retardo de predicción a largo
plazo y segundos valores de ganancia de predicción a largo plazo,
utilizándose una primera señal para indicar la trama parcialmente
corrupta, incluyendo dicho sistema: primeros medios, que responden
a la primera señal, para determinar si el primer valor de retardo de
predicción a largo plazo se encuentra dentro de un límite superior
y de un límite inferior, y para proporcionar una segunda señal que
indique dicha determinación; segundos medios, que responden a la
segunda señal, para sustituir el primer valor de retardo de
predicción a largo plazo de la trama parcialmente corrupta por un
tercer valor de retardo, cuando el primer valor de retardo de
predicción a largo plazo se encuentra fuera de los límites superior
e inferior; y conservar el primer valor de retardo de predicción a
largo plazo de la trama parcialmente corrupta cuando el primer
valor de retardo de predicción a largo plazo se encuentra dentro de
los límites superior e inferior.
Adicionalmente, de acuerdo con la invención,
también se facilita un decodificador para sintetizar voz a partir
de un tren de bits codificado, en el que el tren de bits codificado
incluye una pluralidad de tramas de voz dispuestas en secuencias
vocales, incluyendo las tramas de voz, al menos, una trama
parcialmente corrupta precedida por una o más tramas sin corromper,
en el que la trama parcialmente corrupta incluye un primer valor de
retardo de predicción a largo plazo y un primer valor de ganancia de
predicción a largo plazo, incluyendo las tramas sin corromper
segundos valores de retardo de predicción a largo plazo y segundos
valores de ganancia de predicción a largo plazo, utilizándose una
primera señal para indicar la trama parcialmente corrupta,
incluyendo dicho decodificador: primeros medios, que responden a la
primera señal, para determinar si el primer valor de retardo de
predicción a largo plazo se encuentra dentro de un límite superior y
de un límite inferior, y para proporcionar una segunda señal que
indique dicha determinación; segundos medios, que responden a la
segunda señal, para sustituir el primer valor de retardo de
predicción a largo plazo de la trama parcialmente corrupta por un
tercer valor de retardo, cuando el primer valor de retardo de
predicción a largo plazo se encuentra fuera de los límites superior
e inferior; y conservar el primer valor de retardo de predicción a
largo plazo de la trama parcialmente corrupta cuando el primer valor
de retardo de predicción a largo plazo se encuentra dentro de los
límites superior e inferior.
Adicionalmente, también se facilita, de acuerdo
con la invención, una estación móvil dispuesta para recibir un tren
de bits codificado, que contiene datos de voz indicativos de señales
de voz, en el que el tren de bits codificado incluye una pluralidad
de tramas de voz dispuestas en secuencias vocales, incluyendo las
tramas de voz, al menos, una trama parcialmente corrupta precedida
por una o más tramas sin corromper, en el que la trama parcialmente
corrupta incluye un primer valor de retardo de predicción a largo
plazo y un primer valor de ganancia de predicción a largo plazo,
incluyendo las tramas sin corromper segundos valores de retardo de
predicción a largo plazo y segundos valores de ganancia de
predicción a largo plazo, utilizándose una primera señal para
indicar la trama parcialmente corrupta, incluyendo dicha estación
móvil: primeros medios, que responden a la primera señal, para
determinar si el primer valor de retardo de predicción a largo plazo
se encuentra dentro de un límite superior y de un límite inferior,
y para proporcionar una segunda señal que indique dicha
determinación; segundos medios, que responden a la segunda señal,
para sustituir el primer valor de retardo de predicción a largo
plazo de la trama parcialmente corrupta por un tercer valor de
retardo, cuando el primer valor de retardo de predicción a largo
plazo se encuentra fuera de los límites superior e inferior; y
conservar el primer valor de retardo de predicción a largo plazo de
la trama parcialmente corrupta cuando el primer valor de retardo de
predicción a largo plazo se encuentra dentro de los límites superior
e
inferior.
inferior.
Adicionalmente se proporciona, de acuerdo con la
invención, un elemento de una red de telecomunicación, que está
dispuesto para recibir un tren de bits codificado que contiene datos
de voz procedentes de una estación móvil, en el que los datos de
voz incluyen una pluralidad de tramas de voz dispuestas en
secuencias vocales, incluyendo las tramas de voz, al menos, una
trama parcialmente corrupta precedida por una o más tramas sin
corromper, en el que la trama parcialmente corrupta incluye un
primer valor de retardo de predicción a largo plazo y un primer
valor de ganancia de predicción a largo plazo, incluyendo las tramas
sin corromper segundos valores de retardo de predicción a largo
plazo y segundos valores de ganancia de predicción a largo plazo,
utilizándose una primera señal para indicar la trama parcialmente
corrupta, incluyendo dicho decodificador:
primeros medios, que responden a la primera
señal, para determinar si el primer valor de retardo de predicción
a largo plazo se encuentra dentro de un límite superior y de un
límite inferior, y para proporcionar una segunda señal que indique
dicha determinación; segundos medios, que responden a la segunda
señal, para sustituir el primer valor de retardo de predicción a
largo plazo de la trama parcialmente corrupta por un tercer valor
de retardo, cuando el primer valor de retardo de predicción a largo
plazo se encuentra fuera de los límites superior e inferior; y
conservar el primer valor de retardo de predicción a largo plazo de
la trama parcialmente corrupta cuando el primer valor de retardo de
predicción a largo plazo se encuentra dentro de los límites
superior e inferior.
El tercer valor de retardo puede estar basado en
los segundos valores de retardo de predicción a largo plazo y en
una fluctuación de retardo aleatoria con limitación adaptable.
Los segundos medios puede adicionalmente
sustituir el primer valor de ganancia a largo plazo de la trama
parcialmente corrupta por un tercer valor de ganancia cuando el
primer valor de retardo de predicción a largo plazo se encuentra
fuera de los límites superior e inferior. Adicionalmente, el tercer
valor de ganancia puede determinarse a partir de los segundos
valores de ganancia de predicción a largo plazo y de una latencia de
ganancia aleatoria
limitada.
limitada.
La presente invención se comprenderá más
claramente tras la lectura de la descripción, efectuada
conjuntamente con las Figuras 3 a 11c.
La figura 1 es un diagrama de bloques que
muestra un codificador-decodificador de voz
distribuido genérico, en el que el tren de bits codificado que
contiene los datos de voz se transporta desde un codificador a un
decodificador a través de un canal de comunicación o un medio de
almacenamiento.
La figura 2 es un diagrama de bloques que
muestra un dispositivo de ocultación de error de un receptor, de
acuerdo con la técnica anterior.
La figura 3 es un diagrama de bloques que
muestra el dispositivo de ocultación de error de un receptor, de
acuerdo con la presente invención.
La figura 4 es un organigrama que muestra el
método de ocultación de error de acuerdo con la presente
invención.
La figura 5 es una representación en diagrama de
una estación móvil que incluye un dispositivo de ocultación de
error de acuerdo con la presente invención.
La figura 6 es una representación en diagrama de
una red de telecomunicación que utiliza un decodificador de acuerdo
con la presente invención.
La figura 7 es un trazado de los parámetros LTP,
que muestra los perfiles de retardo y ganancia en una secuencia de
voz con vocalizada.
La figura 8 es un trazado de los parámetros LTP,
que muestra los perfiles de retardo y ganancia en una secuencia de
voz sin vocalizar.
La figura 9 es un trazado de los valores de
retardo LTP en una serie de subtramas que muestra la diferencia
entre el método de ocultación de error de la técnica anterior y el
método de acuerdo con la presente invención.
La figura 10 es otro trazado de los valores de
retardo LTP en una serie de subtramas que muestra la diferencia
entre el método de ocultación de error de la técnica anterior y el
método de acuerdo con la presente invención.
La figura 11a es un trazado de señales de voz
que muestra una secuencia de voz libre de errores que tiene el
emplazamiento de la trama errónea del canal de voz, como se muestra
en las figuras 11b y 11c.
La figura 11b es un trazado de señales de voz
que muestra la ocultación de parámetros en una trama errónea de
acuerdo con el método de la técnica anterior.
La figura 11c es un trazado de señales de de voz
que muestra la ocultación de parámetros en una trama errónea de
acuerdo con la presente invención.
La figura 3 muestra un decodificador 10, que
incluye un módulo de decodificación 20 y un módulo de ocultación de
error 30. El módulo decodificador 20 recibe una señal 140, que
normalmente indica unos parámetros vocales 102 para llevar a cabo
la síntesis de la voz. El módulo decodificador 20 es perfectamente
conocido por la técnica. El módulo de ocultación de error 30 está
configurado para recibir un tren de bits codificado 100, que
incluye una pluralidad de trenes de voz dispuestos en forma de
secuencias vocales. Un dispositivo 32 de detección de tramas
erróneas se utiliza para detectar las tramas corruptas en las
secuencias vocales, y proporcionar una señal de Indicación de
Tramas erróneas 110 que muestra una bandera BFI cuando al detectar
una trama corrupta. El BFI también es conocido por la técnica. La
señal BFI 110 se utiliza para controlar dos conmutadores 40 y 42.
Normalmente, las tramas de voz no están corrompidas, y la bandera
BFI está a 0. El terminal S está conectado operativamente al
terminal 0 de los conmutadores 40 y 42. Los parámetros vocales 102
se envían a una memoria intermedia, o almacenamiento de
"histórico de parámetros" 50, y al módulo decodificador 20 para
llevar a cabo la síntesis de la voz. Cuando el dispositivo de
detección de tramas erróneas 32 detecta una trama errónea, la
bandera BFI se pone a 1. El terminal S está conectado al terminal 1
en los conmutadores 40 y 42. De este modo, se proporcionan
parámetros vocales 102 a un analizador 70, y los parámetros vocales
necesarios para la síntesis de voz son facilitados al módulo
decodificador 20 por un módulo de ocultación de parámetros 60. Los
parámetros vocales 102 incluyen normalmente parámetros LPC para la
predicción a corto plazo, parámetros de excitación, un parámetro de
retardo de predicción a largo plazo (LTP), un parámetro de ganancia
LTP y parámetros de ganancia adicionales. El almacenamiento del
histórico de parámetros 50 se utiliza para almacenar el retardo LTP
y la ganancia LTP de una serie de tramas de voz sin corromper. Los
contenidos del almacenamiento del histórico de parámetros 50 están
constantemente actualizados, de forma que el último parámetro de
ganancia LTP y el último parámetro de retardo LTP almacenados en el
almacenamiento 50 corresponden a los de la última trama de voz sin
corromper. Cuando en el decodificador 10 se recibe una trama
corrupta en una secuencia de voz, la bandera BFI se pone a 1 y los
parámetros vocales 102 de la trama corrupta se envían al analizador
70 a través del conmutador 40, al comparar el parámetro de ganancia
LTP de la trama corrupta y los parámetros de ganancia LTP
almacenados en el almacenamiento 50, el analizador 70 puede
determinar si la secuencia de voz es estacionaria o no
estacionaria, a partir de la magnitud y de su variación en los
parámetros de ganancia LTP de tramas adyacentes. Normalmente, en
una secuencia estacionaria, los parámetros de ganancia LTP son
elevados y razonablemente estables, el valor de retardo LTP es
estable y la variación en los valores de retardo LTP adyacentes es
pequeña, como se muestra en la figura 7. Por el contrario, en una
secuencia no estacionaria, los parámetros de ganancia LTP son bajos
e inestables, y el retardo LTP también es inestable, como se muestra
en la figura 8. Los valores de retardo LTP cambian de forma más o
menos aleatoria. La figura 7 muestra la secuencia de voz
correspondiente a la palabra "viiniä". La figura 8
muestra la secuencia de voz correspondiente a la palabra
"exhibition".
Si la secuencia de voz que incluye la trama
corrupta es estacionaria o vocalizada, el último retardo LTP
correcto se recupera del almacenamiento 50 y se envía al módulo de
ocultación de parámetros 60. Se utiliza el retardo LTP correcto
para sustituir al retardo LTP de la trama corrupta. Debido al hecho
de que el retardo LTP de una secuencia de voz estacionaria es
estable y sus variaciones son pequeñas, resulta razonable utilizar
un retardo LTP anterior con unas pequeñas modificaciones para
ocultar el correspondiente parámetro de la trama corrupta.
Posteriormente, una señal RX 104 hace que los parámetros de
sustitución, como se indica mediante la referencia 134, se envíen
al módulo decodificador 20 a través del conmutador 42.
Si la secuencia de voz que incluye la trama
corrupta es no estacionaria o sin vocalizar, el analizador 70
calcula un valor de retardo LTP y un valor de ganancia LTP para la
ocultación del parámetro. Dado que el retardo LTP de una secuencia
de voz no estacionaria es inestable y su variación en tramas
adyacentes suele ser importante, la ocultación de parámetros
debería permitir al retardo LTP en una secuencia no estacionaria con
ocultación de error fluctuar de forma aleatoria. Si los parámetros
de la trama corrupta están totalmente corrompidos, como en el caso
de una trama perdida, el retardo LTP sustitutivo se calcula
utilizando una media ponderada de los valores de retardo LTP
correctos anteriores, junto con una fluctuación con limitación
adaptable. Se permite que la fluctuación con limitación adaptable
varíe dentro de unos límites calculados a partir del histórico de
los valores LTP, de forma que la fluctuación de parámetros en un
segmento con ocultación de error sea similar a la sección correcta
anterior de la misma secuencia de voz.
Un ejemplo de regla para la ocultación del
retardo LTP se rige por las siguientes condiciones:
Si
- minGain > 0,5 Y LagDIF < 10; O
- lastGain > 0,5 Y SecondlastGain > 0,5
el último retardo LTP correcto
recibido se utilizará para la trama totalmente corrupta. De lo
contrario, para la trama totalmente corrupta se utilizará
update_lag, una media ponderada del buffer de retardo LTP
aleatorio. Update_lag se calcula de la forma descrita a
continuación:
Se ordena el buffer de retardo LTP y se
recuperan los tres valores del buffer mayores. La media de dichos
tres valores mayores se denomina retardo medio ponderado (WAL) y la
diferencia entre dichos valores mayores se denomina diferencia de
retardo ponderada (WLD).
Supongamos que RAND es la aleatorización
con la escala de (-WLD/2, WLD/2); entonces:
Update_lag =
WAL + RAND(-WLD/2,
WLD/2),
Donde:
minGain es el valor menor del buffer de
ganancia LTP;
LagDif es la diferencia entre los valores
superiores e inferiores del retardo LTP;
lastGain es la última ganancia LTP
correcta recibida; y
secondLastGain es la antepenúltima
ganancia LTP correcta recibida.
Si los parámetros de la trama corrupta están
parcialmente corrompidos, el valor del retardo LTP de la trama
corrupta se sustituirá en consecuencia. El hecho de que dicha trama
esté parcialmente corrupta se determina mediante un conjunto de
criterios de ejemplo de características LTP, que se facilita a
continuación:
Si las expresiones:
(1) LagDif < 10 Y
(minLag-5)< Tbf< (maxLag+5); O
(2) lastGain> 0.5 Y secondLastGain>0.5 Y
(lastLag-10) < Tbf < (lastLag+10); O
(3) minGain<0.4 Y lastGain=minGain Y minLag
< Tbf<maxLag; O
(4) LagDif <70 Y minLag <Tbf <maxLag;
O
(5) meanLag <Tbf <maxLag
son ciertas, Tbf se utilizará
entonces para sustituir el retardo LTP en la trama corrupta. De lo
contrario, la trama corrupta se considerará como una trama
totalmente corrupta, como se ha descrito anteriormente. En las
condiciones que
anteceden:
maxLag es el valor superior del buffer de
retardo LTP;
meanLag es la media del buffer de retardo
LTP;
minLag es el valor inferior del buffer de
retardo LTP;
lastLag es el último valor de retardo LTP
correcto recibido; y
Tbf es un retardo LTP decodificado que se busca,
cuando se establece BFI, en el libro de codificación adaptable,
como si no se hubiese establecido el BFI.
En las figuras 9 y 10 se muestran dos ejemplos
de ocultación de parámetros. Tal y como se muestra, el perfil de
los valores de retardo LTP sustitutivos de la trama errónea, de
acuerdo con la técnica anterior, es bastante plano, pero el perfil
de sustitución, de acuerdo con la presente invención, permite
ciertas fluctuaciones, del mismo modo que en el perfil exento de
error. La diferencia entre el método de la técnica anterior y la
presente invención puede verse en las figuras 11b y 11c,
respectivamente, a partir de las señales de voz en un canal exento
de error, como se muestra en la figura 11a.
Cuando los parámetros de la trama corrupta están
parcialmente corrompidos puede optimizarse adicionalmente la
ocultación de parámetros. En las tramas parcialmente corruptas, los
retardos LTP de las tramas corruptas pueden seguir ofreciendo aún
un segmento de voz sintetizada aceptable. De acuerdo con las
especificaciones GSM, la bandera BFI se pone mediante un mecanismo
de comprobación de redundancia cíclica (CRC) u otro mecanismo de
detección de error. Estos mecanismos de detección de error detectan
errores en los bits más significativos durante el proceso de
decodificación de canal. Por ello, aun cuando tan sólo sean erróneos
unos pocos bits, el error podrá detectarse y en consecuencia
ponerse la bandera BFI. En el método de ocultación de parámetros de
la técnica anterior se descarta toda la trama. Por ello, se desecha
información que contienen los bits correctos.
Normalmente, en el proceso de decodificación de
canal, el BER por trama es un buen indicativo de la situación del
canal. Cuando las condiciones de canal son buenas, el BER por trama
es pequeño, y un elevado porcentaje de los valores de retardo LTP
de las tramas erróneas son correctos. Por ejemplo, cuando la tasa de
error de trama (FER) es de un 0,2%, más del 70% de los valores de
retardo LTP son correctos. Incluso cuando el FER alcanza el 3%,
alrededor del 60% de los valores de retardo LTP siguen siendo
correctos. El proceso CRC puede detectar con precisión una trama
errónea y fijar la bandera BFI en consecuencia.
No obstante, el método CRC no proporciona un
cálculo del BER en la trama. Si la bandera BFI se utiliza como
único criterio para la ocultación de parámetros, podría
desaprovecharse un porcentaje muy elevado de los valores de retardo
LTP correctos. Para impedir que se deseche una gran cantidad de
retardos LTP correctos, es posible adaptar un criterio para decidir
la ocultación de parámetros basado en el histórico de LTP. También
es posible utilizar el FER, por ejemplo, como criterio de decisión.
Si el retardo LTP satisface los criterios de decisión no será
necesaria la ocultación de parámetros. En este caso, el analizador
70 transporta los parámetros vocales 102, como se han recibido a
través del conmutador 40, al módulo de ocultación de parámetros 60,
que a su vez los transporta al módulo de decodificación 20 a través
del conmutador 42. Si el retardo LTP no satisface el criterio de
decisión, la trama corrupta se examinará una vez más utilizando los
criterios de características LTP, como se ha descrito
anteriormente, para la ocultación de parámetros.
En el caso de secuencias vocales estacionarias,
el retardo LTP es muy estable. Independientemente de que la mayoría
de los valores de retardo LTP de una trama corrupta sean correctos o
erróneos, pueden predecirse correctamente con una elevada
probabilidad. De este modo, es posible adaptar un criterio muy
estricto de ocultación de parámetros. En secuencias vocales no
estacionarias, puede resultar difícil predecir si es correcto el
valor LTP de una trama corrupta, a causa de la naturaleza inestable
de los parámetros LTP. No obstante, el hecho de que la predicción
sea correcta o no resulta menos importante en el caso de la voz no
estacionaria que en el de la voz estacionaria. Aunque el permitir
la utilización de valores de retardo LTP erróneos a la hora de
decodificar la voz estacionaria puede hacer que la voz sintetizada
sea irreconocible, el permitir la utilización de valores de retardo
LTP erróneos para la decodificación de voz no estacionaria tan sólo
suele aumentar el número de interferencias audibles. De este modo,
el criterio de decisión para la ocultación de parámetros en la voz
no estacionaria puede resultar relativamente poco riguroso.
Como se ha mencionado anteriormente, la ganancia
LTP fluctúa enormemente en el caso de la voz no estacionaria. Si se
utiliza repetidamente el mismo valor de ganancia LTP procedente de
la última trama correcta para sustituir el valor de ganancia LTP de
una o más tramas corruptas de una secuencia de voz, el perfil de
ganancia LTP del segmento oculto de ganancia será plano (similar a
la sustituir el retardo LTP de la técnica anterior, como se muestra
en las figuras 7 y 8), lo que contrasta fuertemente con el perfil
fluctuante de las tramas sin corromper. El cambio repentino del
perfil de ganancia LTP puede provocar molestas interferencias
audibles. A fin de minimizar estas interferencias audibles, es
posible permitir que el valor de sustitución de la ganancia LTP
fluctúe en el segmento con errores ocultos. Con este motivo, el
analizador 70 puede también utilizarse para determinar los límites
entre los cuales se permite la fluctuación del valor de ganancia LTP
de sustitución, a partir de los valores de ganancia del histórico
LTP.
La ocultación de la ganancia LTP puede llevarse
a cabo de la forma descrita a continuación. Cuando se fija el valor
de BFI, se calcula un valor de ganancia LTP sustitutivo de acuerdo
con un conjunto de reglas de ocultación de la ganancia LTP. La
ganancia LTP de sustitución se denomina Updated_gain.
(1) Si gainDif >0.5 Y lastGain = maxGain
>0.9 Y subBF = 1, entonces Updated_gain = (secondLastGain+
thirdLastGain)/2;
thirdLastGain)/2;
(2) Si gainDif >0.5 Y lastGain=maxGain
>0.9 Y subBF = 2, entonces Updated_gain =
meanGain+randvar*
(maxGain-meanGain);
(maxGain-meanGain);
(3) Si gainDif >0.5 Y lastGain = maxGain
>0.9 Y subBF = 3, entonces Updated_gain =
meanGain-randVar*
(meanGain-minGain);
(meanGain-minGain);
(4) Si gainDif >0.5 Y lastGain = maxGain
>0.9 Y subBF = 4, entonces Updated_gain =
meanGain+randVar*
(maxGain-meanGain);
(maxGain-meanGain);
En las condiciones que anteceden, Updated_gain
no puede ser mayor que lastGain. Si no se pueden cumplir las
condiciones que anteceden, se utilizarán las siguientes
condiciones:
(5) Si gainDif >0.5, entonces Updated_gain =
lastGain;
(6) Si gainDif <0.5 Y lastGain = maxGain,
entonces Updated_gain = meanGain;
(7) Si gainDIF <0.5, entonces Updated_gain =
lastGain,
Donde:
meanGain es la media del buffer de ganancia
LTP;
maxGain es el valor más elevado del buffer de
ganancia LTP;
minGain es el valor inferior del buffer de
ganancia LTP;
randVar es un valor aleatorio entre 0 y 1,
gainDIF es la diferencia entre los valores
inferior y superior de ganancia LTP del buffer de ganancia LTP;
lastGain es el último valor correcto de ganancia
LTP recibido;
secondLastGain es el penúltimo valor correcto de
ganancia LTP recibido;
thirdLastGain es el antepenúltimo valor correcto
de ganancia LTP recibido; y
subBF es el orden de la subtrama.
La figura 4 muestra un método de ocultación de
error, de acuerdo con la presente invención. Cuando se recibe el
tren de bits codificado en la etapa 160, se comprueba la trama para
ver si se encuentra corrompida en la etapa 162. Si la trama no está
corrompida, el histórico de parámetros de la secuencia de voz se
actualiza en la etapa 164, y los parámetros vocales de la trama
actual se decodifican en la etapa 166. El procedimiento vuelve
entonces a la etapa 162. Si la trama es errónea o está corrompida,
se recuperan los parámetros del almacenamiento del histórico de
parámetros en la etapa 170. En la etapa 172 se determina si la trama
corrupta forma parte de la secuencia de voz estacionaria o de la
secuencia de voz no estacionaria. Si la secuencia de voz es
estacionaria, se utilizará el retardo LTP de la última trama
correcta para sustituir el retardo LTP de la trama corrupta en la
etapa 174. Si la secuencia de voz es no estacionaria, se calcularán
un nuevo valor de retardo y un nuevo valor de ganancia a partir del
histórico LTP en la etapa 180, y se utilizarán para sustituir los
correspondientes parámetros de la trama corrupta en la etapa
182.
La figura 5 muestra un diagrama de bloques de
una estación móvil 200 de acuerdo con un ejemplo de realización de
la invención. La estación móvil incluye componentes típicos del
dispositivo, tales como un micrófono 201, un teclado 207, una
pantalla de presentación 206, un auricular 214, un conmutador de
transmisión/recepción 208, una antena 209 y una unidad de control
205. Adicionalmente, la figura muestra unos bloques de transmisión
y recepción 204, 211 típicos de una estación móvil. El bloque
transmisor 204 incluye un decodificador 221 para codificar la señal
de voz. El bloque transmisor 204 también incluye las operaciones
necesarias para codificación de canal, descifrado y modulación, así
como funciones de RF, que no se representan en la figura 5 en aras
de la claridad. El bloque receptor 211 también incluye un bloque
decodificador 220 de acuerdo con la invención. El bloque
decodificador 220 incluye un módulo de ocultación de error 222 como
el módulo de ocultación de parámetros 30 mostrado en la figura 3.
La señal procedente del micrófono 201, amplificada en la etapa de
amplificación 202 y digitalizada en el convertidor A/D se lleva al
bloque de transmisión 204, y normalmente, al dispositivo de
codificación de voz formado por el bloque de transmisión. La señal
de transmisión, que se procesa, se modula y se amplifica en el
bloque de transmisión, se lleva a la antena 209a través del
conmutador de transmisión/recepción 208. La señal a recibir se
lleva desde la antena, a través del conmutador de
transmisión/recepción 208, al bloque receptor 211, que demodula la
señal recibida y decodifica el descifrado y la codificación de
canal. La señal de voz resultante se lleva a través del convertidor
D/A 212 a un amplificador 213, y posteriormente, a un auricular
214. La unidad de control 205 controla el funcionamiento de la
estación móvil 200, lee los comandos de control facilitados por el
usuario desde el teclado 207 y proporciona mensajes al usuario a
través de la pantalla de presentación 206.
El módulo de ocultación de parámetros 30, de
acuerdo con la invención, puede también utilizarse en una red de
telecomunicación 300, tal como una red telefónica ordinaria, o una
red de estaciones móviles, tal como la red GSM. La figura 6 muestra
un ejemplo de un diagrama de bloques de este tipo de redes de
telecomunicación. Por ejemplo, la red de telecomunicación 300 puede
incluir centralitas telefónicas o los correspondientes sistemas de
conmutación 360, a los cuales se conectan teléfonos ordinarios 370,
estaciones base 340, controladores de estación base 350 y otros
dispositivos centrales 355 de las redes de telecomunicación. Las
estaciones móviles 330 pueden establecer conexiones con la red de
telecomunicación a través de las estaciones base 340. Un bloque
decodificador 320, que incluye un módulo de ocultación de error 322
similar al módulo de ocultación de error 30 mostrado en la figura
3, puede situarse ventajosamente en la estación base 340, por
ejemplo. No obstante, el bloque decodificador 320 puede también
situarse en el controlador de la estación base 350 o en otro
dispositivo central o de conmutación 355, por ejemplo. Si el
sistema de la estación móvil utiliza transcodificadores
independientes, por ejemplo, entre las estaciones base y los
controladores de estación base, para transformar la señal codificada
transportada a través del canal radioeléctrico en una señal típica
de 64 Kbits/s transferida en un sistema de telecomunicación y
viceversa, el bloque decodificador 320 puede también situarse en
dicho transcodificador. Por lo general, el bloque decodificador 320
también puede situarse en dicho transcodificador. En general, el
bloque decodificador 320, incluyendo el módulo de ocultación de
parámetros 322 puede situarse en cualquier elemento de la red de
telecomunicación 300, que transforma el tren de datos codificado en
un tren de datos sin codificar. El bloque decodificador 320
decodifica y filtra la señal de voz codificada procedente de la
estación móvil 330, tras lo cual esta señal de voz puede
transferirse en la red de telecomunicación 300 en la forma usual
sin comprimir.
Debe observarse que el método de ocultación de
error de la presente invención se ha descrito en relación con las
secuencias vocales estacionarias y no estacionarias, y que las
secuencias vocales estacionarias suelen ser con vocalizada, y las
secuencias vocales no estacionarias suelen ser sin vocalización. De
este modo, se comprenderá que el método descrito es aplicable a la
ocultación de error en secuencias vocales con y sin
vocalización.
La presente invención es aplicable a
codificadores-decodificadores de voz del tipo CELP,
y también puede adaptarse a otros tipos de
codificadores-decodificadores de voz.
Claims (20)
1. Método de ocultación de error en un tren de
bits codificado indicativo de señales de voz recibidas en un
decodificador de voz (10, 220, 320), en el que el tren de bits
codificado incluye una pluralidad de tramas de voz dispuestas en
secuencias vocales, incluyendo las tramas de voz, al menos, una
trama parcialmente corrupta precedida por una o más tramas sin
corromper, en el que la trama parcialmente corrupta incluye un
primer valor de retardo de predicción a largo plazo y un primer
valor de ganancia de predicción a largo plazo, incluyendo las
tramas sin corromper segundos valores de retardo de predicción a
largo plazo y segundos valores de ganancia de predicción a largo
plazo, comprendiendo dicho método las etapas de:
Proporcionar un límite superior y de un límite
inferior a partir de los segundos valores de retardo de predicción
a largo plazo; determinar si el primer valor de retardo de
predicción a largo plazo se encuentra dentro o fuera de los límites
superior e inferior;
Sustituir el primer valor de retardo de
predicción a largo plazo de la trama parcialmente corrupta por un
tercer valor de retardo de predicción, cuando el primer valor de
retardo de predicción a largo plazo se encuentre fuera de los
límites superior e inferior (182); y
Conservar el primer valor de retardo de
predicción a largo plazo de la trama parcialmente corrupta cuando
el primer valor de retardo de predicción a largo plazo se encuentre
dentro de los límites superior e inferior.
2. Método de la reivindicación 1, que comprende
adicionalmente la etapa de sustituir el primer valor de ganancia de
predicción a largo plazo de la trama parcialmente corrupta por un
tercer valor de ganancia, cuando el primer valor de retardo de
predicción a largo plazo se encuentre fuera de los límites superior
e inferior (182).
3. Método de la reivindicación 1, en el que el
tercer valor de retardo se calcula a partir de los segundos valores
de retardo de predicción a largo plazo y de una fluctuación de
retardo aleatoria con limitación adaptable sujeta a unos límites
adicionales determinados a partir de los segundos valores de retardo
de predicción a largo plazo (180).
4. Método de la reivindicación 2, en el que el
tercer valor de ganancia se calcula a partir de los segundos
valores de ganancia de predicción a largo plazo y de una fluctuación
de retardo aleatoria con limitación adaptable sujeta a unos límites
determinados a partir de los segundos valores de ganancia de
predicción a largo plazo (180).
5. Sistema de transmisión y recepción de señales
de voz (204, 211) para codificar señales de un tren de bits
codificado y para decodificar el tren de bits codificado en voz
sintetizada, en el que el tren de bits sintetizado incluye una
pluralidad de tramas de voz dispuestas en secuencias vocales,
incluyendo las tramas de voz, al menos, una trama parcialmente
corrupta precedida por una o más tramas sin corromper, en el que la
trama parcialmente corrupta incluye un primer valor de retardo de
predicción a largo plazo y un primer valor de ganancia de predicción
a largo plazo, incluyendo las tramas sin corromper segundos valores
de retardo de predicción a largo plazo y segundos valores de
ganancia de predicción a largo plazo, utilizándose una primera señal
(110) para indicar la trama parcialmente corrupta, comprendiendo
dicho sistema:
Primeros medios (70) que responden a la primera
señal (110) para determinar si el primer retardo de predicción a
largo plazo se encuentra dentro de un límite superior y de un límite
inferior, y para proporcionar una segunda señal (130) que indica
dicha determinación;
Segundos medios (60) que responden a la segunda
señal, para sustituir el primer valor de retardo de predicción a
largo plazo de la trama parcialmente corrupta por un tercer valor de
retardo cuando el primer valor de retardo de predicción a largo
plazo se encuentra fuera de los límites superior e inferior, y
conservar el primer valor de retardo de predicción a largo plazo de
la trama parcialmente corrupta cuando el primer valor de retardo de
predicción a largo plazo se encuentra dentro de los límites superior
e inferior.
6. Sistema (204, 211) de acuerdo con la
reivindicación 5, en el que el tercer valor de retardo se determina
a partir de los segundos valores de retardo de predicción a largo
plazo y de una fluctuación de retardo aleatoria con limitación
adaptable.
7. Sistema (204, 211) de acuerdo con la
reivindicación 5, en el que los segundos medios sustituyen
adicionalmente el primer valor de ganancia a largo plazo de la
trama parcialmente corrupta por un tercer valor de ganancia, cuando
el primer valor de retardo de predicción a largo plazo se encuentra
fuera de los límites superior e inferior.
8. Sistema (204, 211) de acuerdo con la
reivindicación 7, en el que el tercer valor de ganancia se determina
a partir de los segundos valores de ganancia de predicción a largo
plazo y de una fluctuación de retardo aleatoria con limitación
adaptable.
9. Decodificador (10, 220, 320) para sintetizar
voz a partir de un tren de bits codificado, en el que dicho tren de
bits codificado incluye una pluralidad de tramas de voz dispuestas
en secuencias vocales, incluyendo las tramas de voz, al menos, una
trama parcialmente corrupta precedida por una o más tramas sin
corromper, en el que la trama parcialmente corrupta incluye un
primer valor de retardo de predicción a largo plazo y un primer
valor de ganancia de predicción a largo plazo, incluyendo las tramas
sin corromper segundos valores de retardo de predicción a largo
plazo y segundos valores de ganancia de predicción a largo plazo,
utilizándose una primera señal (110) para indicar la trama
parcialmente corrupta, comprendiendo dicho decodificador:
Primeros medios (70) que responden a la primera
señal (110) para determinar si el primer retardo de predicción a
largo plazo se encuentra dentro de un límite superior y de un límite
inferior, y para proporcionar una segunda señal (130) que indica
dicha determinación;
Segundos medios (60) que responden a la segunda
señal, para sustituir el primer valor de retardo de predicción a
largo plazo de la trama parcialmente corrupta por un tercer valor de
retardo cuando el primer valor de retardo de predicción a largo
plazo se encuentra fuera de los límites superior e inferior, y
conservar el primer valor de retardo de predicción a largo plazo de
la trama parcialmente corrupta cuando el primer valor de retardo de
predicción a largo plazo se encuentra dentro de los límites superior
e inferior.
10. Decodificador (10, 220, 320) de acuerdo con
la reivindicación 9, en el que el tercer valor de retardo se
determina a partir de los segundos valores de retardo de predicción
a largo plazo y de una fluctuación de retardo aleatoria con
limitación adaptable.
11. Decodificador (10, 220, 320) de acuerdo con
la reivindicación 9, en el que los segundos medios sustituyen
adicionalmente el primer valor de ganancia a largo plazo de la trama
parcialmente corrupta por un tercer valor de ganancia cuando el
primer valor de retardo
\hbox{de predicción a largo plazo se encuentra fuera de los límites superior e inferior.}
12. Decodificador (10, 220, 320) de acuerdo con
la reivindicación 11, en el que el tercer valor de ganancia se
determina a partir de los segundos valores de ganancia de predicción
a largo plazo y de una fluctuación de retardo aleatoria con
limitación adaptable.
13. Estación móvil (200) dispuesta para recibir
un tren de bits codificado que contiene datos de voz indicativos de
señales de voz, en la que dicho tren de bits codificado incluye una
pluralidad de tramas de voz dispuestas en secuencias vocales,
incluyendo las tramas de voz al menos una trama parcialmente
corrupta precedida por una o más tramas sin corromper, en la que la
trama parcialmente corrupta incluye un primer valor de retardo de
predicción a largo plazo y un primer valor de ganancia de predicción
a largo plazo, incluyendo las tramas sin corromper segundos valores
de retardo de predicción a largo plazo y segundos valores de
ganancia de predicción a largo plazo, utilizándose una primera
señal (110) para indicar la trama parcialmente corrupta,
comprendiendo dicha estación móvil:
Primeros medios (70) que responden a la primera
señal (110) para determinar si el primer retardo de predicción a
largo plazo se encuentra dentro de un límite superior y de un límite
inferior, y para proporcionar una segunda señal (130) que indica
dicha determinación;
Segundos medios (60) que responden a la segunda
señal, para sustituir el primer valor de retardo de predicción a
largo plazo de la trama parcialmente corrupta por un tercer valor de
retardo cuando el primer valor de retardo de predicción a largo
plazo se encuentra fuera de los límites superior e inferior, y
conservar el primer valor de retardo de predicción a largo plazo de
la trama parcialmente corrupta cuando el primer valor de retardo de
predicción a largo plazo se encuentra dentro de los límites superior
e inferior.
14. Estación móvil (200) de acuerdo con la
reivindicación 13, en la que el tercer valor de retardo se determina
a partir de los segundos valores de retardo de predicción a largo
plazo y de una fluctuación de retardo aleatoria con limitación
adaptable.
15. Estación móvil (200) de acuerdo con la
reivindicación 13, en la que los segundos medios sustituyen
adicionalmente el primer valor de ganancia a largo plazo de la
trama parcialmente corrupta por un tercer valor de ganancia, cuando
el primer valor de retardo de predicción a largo plazo se encuentra
fuera de los límites superior e inferior.
16. Estación móvil (200) de acuerdo con la
reivindicación 15, en la que el tercer valor de ganancia se
determina a partir de los segundos valores de ganancia de
predicción a largo plazo y de una fluctuación de retardo aleatoria
con limitación adaptable.
17. Elemento (340) de una red de
telecomunicación, dispuesto para recibir un tren de bits codificado
que contiene datos de voz procedentes de una estación móvil, en el
que los datos de voz incluyen una pluralidad de tramas de voz
dispuestas en secuencias vocales, incluyendo las tramas de voz, al
menos, una trama parcialmente corrupta precedida por una o más
tramas sin corromper, en el que la trama parcialmente corrupta
incluye un primer valor de retardo de predicción a largo plazo y un
primer valor de ganancia de predicción a largo plazo, incluyendo
las tramas sin corromper segundos valores de retardo de predicción a
largo plazo y segundos valores de ganancia de predicción a largo
plazo, utilizándose una primera señal (110) para indicar la trama
parcialmente corrupta, comprendiendo dicho elemento:
Primeros medios (70) que responden a la primera
señal (110) para determinar si el primer retardo de predicción a
largo plazo se encuentra dentro de un límite superior y de un límite
inferior, y para proporcionar una segunda señal (130) que indica
dicha determinación;
Segundos medios (60) que responden a la segunda
señal, para sustituir el primer valor de retardo de predicción a
largo plazo de la trama parcialmente corrupta por un tercer valor de
retardo cuando el primer valor de retardo de predicción a largo
plazo se encuentra fuera de los límites superior e inferior, y
conservar el primer valor de retardo de predicción a largo plazo de
la trama parcialmente corrupta cuando el primer valor de retardo de
predicción a largo plazo se encuentra dentro de los límites superior
e inferior.
18. Elemento (340) de acuerdo con la
reivindicación 17, en el que el tercer valor de retardo se determina
a partir de los segundos valores de retardo de predicción a largo
plazo y de una fluctuación de retardo aleatoria con limitación
adaptable.
19. Elemento (340) de acuerdo con la
reivindicación 17, en el que los segundos medios sustituyen
adicionalmente el primer valor de ganancia a largo plazo de la
trama parcialmente corrupta por un tercer valor de ganancia cuando
el primer valor de retardo de predicción a largo plazo se encuentra
fuera de los límites superior e inferior.
20. Elemento (340) de acuerdo con la
reivindicación 19, en el que el tercer valor de ganancia se
determina a partir de los segundos valores de ganancia de
predicción a largo plazo y de una fluctuación de retardo aleatoria
con limitación adaptable.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/702,540 US6968309B1 (en) | 2000-10-31 | 2000-10-31 | Method and system for speech frame error concealment in speech decoding |
US702540 | 2000-10-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2266281T3 true ES2266281T3 (es) | 2007-03-01 |
Family
ID=24821628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01983716T Expired - Lifetime ES2266281T3 (es) | 2000-10-31 | 2001-10-29 | Metodo y sistema para ocultacion de error en tramas de voz en la decodificacion de voz. |
Country Status (14)
Country | Link |
---|---|
US (1) | US6968309B1 (es) |
EP (1) | EP1330818B1 (es) |
JP (1) | JP4313570B2 (es) |
KR (1) | KR100563293B1 (es) |
CN (1) | CN1218295C (es) |
AT (1) | ATE332002T1 (es) |
AU (1) | AU2002215138A1 (es) |
BR (2) | BR0115057A (es) |
CA (1) | CA2424202C (es) |
DE (1) | DE60121201T2 (es) |
ES (1) | ES2266281T3 (es) |
PT (1) | PT1330818E (es) |
WO (1) | WO2002037475A1 (es) |
ZA (1) | ZA200302556B (es) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7821953B2 (en) * | 2005-05-13 | 2010-10-26 | Yahoo! Inc. | Dynamically selecting CODECS for managing an audio message |
DE60217522T2 (de) * | 2001-08-17 | 2007-10-18 | Broadcom Corp., Irvine | Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung |
CN1675868B (zh) * | 2002-08-02 | 2010-09-29 | 西门子公司 | 通过错误隐蔽检测分析接收到的有用信息的方法和设备 |
US7634399B2 (en) * | 2003-01-30 | 2009-12-15 | Digital Voice Systems, Inc. | Voice transcoder |
GB2398982B (en) * | 2003-02-27 | 2005-05-18 | Motorola Inc | Speech communication unit and method for synthesising speech therein |
US7610190B2 (en) * | 2003-10-15 | 2009-10-27 | Fuji Xerox Co., Ltd. | Systems and methods for hybrid text summarization |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
US7409338B1 (en) * | 2004-11-10 | 2008-08-05 | Mediatek Incorporation | Softbit speech decoder and related method for performing speech loss concealment |
WO2006079348A1 (en) * | 2005-01-31 | 2006-08-03 | Sonorit Aps | Method for generating concealment frames in communication system |
WO2006098274A1 (ja) * | 2005-03-14 | 2006-09-21 | Matsushita Electric Industrial Co., Ltd. | スケーラブル復号化装置およびスケーラブル復号化方法 |
US7831421B2 (en) | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US8160874B2 (en) * | 2005-12-27 | 2012-04-17 | Panasonic Corporation | Speech frame loss compensation using non-cyclic-pulse-suppressed version of previous frame excitation as synthesis filter source |
KR100900438B1 (ko) * | 2006-04-25 | 2009-06-01 | 삼성전자주식회사 | 음성 패킷 복구 장치 및 방법 |
KR100862662B1 (ko) | 2006-11-28 | 2008-10-10 | 삼성전자주식회사 | 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치 |
CN100578618C (zh) * | 2006-12-04 | 2010-01-06 | 华为技术有限公司 | 一种解码方法及装置 |
CN101226744B (zh) * | 2007-01-19 | 2011-04-13 | 华为技术有限公司 | 语音解码器中实现语音解码的方法及装置 |
KR20080075050A (ko) * | 2007-02-10 | 2008-08-14 | 삼성전자주식회사 | 오류 프레임의 파라미터 갱신 방법 및 장치 |
GB0703795D0 (en) * | 2007-02-27 | 2007-04-04 | Sepura Ltd | Speech encoding and decoding in communications systems |
US8165224B2 (en) | 2007-03-22 | 2012-04-24 | Research In Motion Limited | Device and method for improved lost frame concealment |
EP2174516B1 (en) * | 2007-05-15 | 2015-12-09 | Broadcom Corporation | Transporting gsm packets over a discontinuous ip based network |
CN101743586B (zh) * | 2007-06-11 | 2012-10-17 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、编码方法、解码器、解码方法 |
CN100524462C (zh) | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
KR101525617B1 (ko) | 2007-12-10 | 2015-06-04 | 한국전자통신연구원 | 다중 경로를 이용한 스트리밍 데이터 송수신 장치 및 그방법 |
US20090180531A1 (en) * | 2008-01-07 | 2009-07-16 | Radlive Ltd. | codec with plc capabilities |
US8892228B2 (en) * | 2008-06-10 | 2014-11-18 | Dolby Laboratories Licensing Corporation | Concealing audio artifacts |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
US10230346B2 (en) | 2011-01-10 | 2019-03-12 | Zhinian Jing | Acoustic voice activity detection |
CN104718571B (zh) | 2012-06-08 | 2018-09-18 | 三星电子株式会社 | 用于隐藏帧错误的方法和设备以及用于音频解码的方法和设备 |
US9830920B2 (en) | 2012-08-19 | 2017-11-28 | The Regents Of The University Of California | Method and apparatus for polyphonic audio signal prediction in coding and networking systems |
US9406307B2 (en) * | 2012-08-19 | 2016-08-02 | The Regents Of The University Of California | Method and apparatus for polyphonic audio signal prediction in coding and networking systems |
IN2015DN02595A (es) * | 2012-11-15 | 2015-09-11 | Ntt Docomo Inc | |
EP2922055A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922054A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
EP2922056A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
JP7266689B2 (ja) * | 2019-01-13 | 2023-04-28 | 華為技術有限公司 | ハイレゾリューションオーディオ符号化 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
US6188980B1 (en) | 1998-08-24 | 2001-02-13 | Conexant Systems, Inc. | Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients |
US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
US6377915B1 (en) * | 1999-03-17 | 2002-04-23 | Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. | Speech decoding using mix ratio table |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
-
2000
- 2000-10-31 US US09/702,540 patent/US6968309B1/en not_active Expired - Lifetime
-
2001
- 2001-10-29 KR KR1020037005909A patent/KR100563293B1/ko active IP Right Grant
- 2001-10-29 JP JP2002540142A patent/JP4313570B2/ja not_active Expired - Lifetime
- 2001-10-29 BR BR0115057-0A patent/BR0115057A/pt active IP Right Grant
- 2001-10-29 PT PT01983716T patent/PT1330818E/pt unknown
- 2001-10-29 BR BRPI0115057A patent/BRPI0115057B1/pt unknown
- 2001-10-29 WO PCT/IB2001/002021 patent/WO2002037475A1/en active IP Right Grant
- 2001-10-29 CA CA002424202A patent/CA2424202C/en not_active Expired - Lifetime
- 2001-10-29 CN CN018183778A patent/CN1218295C/zh not_active Expired - Lifetime
- 2001-10-29 ES ES01983716T patent/ES2266281T3/es not_active Expired - Lifetime
- 2001-10-29 DE DE60121201T patent/DE60121201T2/de not_active Expired - Lifetime
- 2001-10-29 AU AU2002215138A patent/AU2002215138A1/en not_active Abandoned
- 2001-10-29 EP EP01983716A patent/EP1330818B1/en not_active Expired - Lifetime
- 2001-10-29 AT AT01983716T patent/ATE332002T1/de not_active IP Right Cessation
-
2003
- 2003-04-01 ZA ZA200302556A patent/ZA200302556B/xx unknown
Also Published As
Publication number | Publication date |
---|---|
DE60121201D1 (de) | 2006-08-10 |
AU2002215138A1 (en) | 2002-05-15 |
JP4313570B2 (ja) | 2009-08-12 |
BR0115057A (pt) | 2004-06-15 |
CN1218295C (zh) | 2005-09-07 |
CA2424202A1 (en) | 2002-05-10 |
ZA200302556B (en) | 2004-04-05 |
ATE332002T1 (de) | 2006-07-15 |
US6968309B1 (en) | 2005-11-22 |
CN1489762A (zh) | 2004-04-14 |
EP1330818B1 (en) | 2006-06-28 |
DE60121201T2 (de) | 2007-05-31 |
CA2424202C (en) | 2009-05-19 |
EP1330818A1 (en) | 2003-07-30 |
KR100563293B1 (ko) | 2006-03-22 |
PT1330818E (pt) | 2006-11-30 |
WO2002037475A1 (en) | 2002-05-10 |
BRPI0115057B1 (pt) | 2018-09-18 |
JP2004526173A (ja) | 2004-08-26 |
KR20030086577A (ko) | 2003-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2266281T3 (es) | Metodo y sistema para ocultacion de error en tramas de voz en la decodificacion de voz. | |
ES2276839T3 (es) | Sustitucion mejorada de parametros espectrales para la ocultacion de errores de trama en un decodificador de voz. | |
EP2535893B1 (en) | Device and method for lost frame concealment | |
ES2298261T3 (es) | Disimulacion de errores de transmision en una señal de audio. | |
JP4969454B2 (ja) | スケーラブル符号化装置およびスケーラブル符号化方法 | |
US20030236674A1 (en) | Methods and systems for compression of stored audio | |
EP0910066A2 (en) | Coding method and apparatus, and decoding method and apparatus | |
JP4527369B2 (ja) | データ埋め込み装置及びデータ抽出装置 | |
ES2378972T3 (es) | Atenuación de la sobresonorización, en particular para la generación de una excitación en un decodificador, en ausencia de información | |
US20060015330A1 (en) | Voice coding/decoding method and apparatus | |
JPH06502930A (ja) | 多重モード音声コーダのためのエラー保護 | |
ES2391360T3 (es) | Ocultación de error de transmisión en una señal digital con distribución de la complejidad | |
JPH1022937A (ja) | 誤り補償装置および記録媒体 | |
JP4437052B2 (ja) | 音声復号化装置および音声復号化方法 | |
ES2738885T3 (es) | Método para el procesamiento de tramas perdidas y decodificador | |
JP3508850B2 (ja) | 疑似背景雑音生成方法 | |
JPH09149104A (ja) | 擬似背景雑音生成方法 | |
KR20050027272A (ko) | 스피치 프레임들의 에러 경감을 위한 스피치 통신 유닛 및방법 | |
JP2947008B2 (ja) | 音声符号化装置 | |
September | Packet loss concealment for speech coding | |
JPWO2003021573A1 (ja) | コーデック | |
JPH03245199A (ja) | エラー補償方式 |