ES2266281T3

ES2266281T3 - Metodo y sistema para ocultacion de error en tramas de voz en la decodificacion de voz.

Info

Publication number: ES2266281T3
Application number: ES01983716T
Authority: ES
Inventors: Jari Makinen; Hannu J. Mikkola; Janne Vainio; Jani Rotola-Pukkila
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2000-10-31
Filing date: 2001-10-29
Publication date: 2007-03-01
Anticipated expiration: 2021-10-29
Also published as: DE60121201D1; AU2002215138A1; JP4313570B2; BR0115057A; CN1218295C; CA2424202A1; ZA200302556B; ATE332002T1; US6968309B1; CN1489762A; EP1330818B1; DE60121201T2; CA2424202C; EP1330818A1; KR100563293B1; PT1330818E; WO2002037475A1; BRPI0115057B1; JP2004526173A; KR20030086577A

Abstract

Método de ocultación de error en un tren de bits codificado indicativo de señales de voz recibidas en un decodificador de voz (10, 220, 320), en el que el tren de bits codificado incluye una pluralidad de tramas de voz dispuestas en secuencias vocales, incluyendo las tramas de voz, al menos, una trama parcialmente corrupta precedida por una o más tramas sin corromper, en el que la trama parcialmente corrupta incluye un primer valor de retardo de predicción a largo plazo y un primer valor de ganancia de predicción a largo plazo, incluyendo las tramas sin corromper segundos valores de retardo de predicción a largo plazo y segundos valores de ganancia de predicción a largo plazo, comprendiendo dicho método las etapas de: Proporcionar un límite superior y de un límite inferior a partir de los segundos valores de retardo de predicción a largo plazo; determinar si el primer valor de retardo de predicción a largo plazo se encuentra dentro o fuera de los límites superior e inferior; Sustituir el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta por un tercer valor de retardo de predicción, cuando el primer valor de retardo de predicción a largo plazo se encuentre fuera de los límites superior e inferior (182); y Conservar el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta cuando el primer valor de retardo de predicción a largo plazo se encuentre dentro de los límites superior e inferior.

Description

Método y sistema para ocultación de error en tramas de voz en la decodificación de voz.

Alcance de la invención

La presente invención se refiere en general a la decodificación de señales de voz procedentes de un tren de bits codificado, y más especialmente, a la ocultación de parámetros vocales corruptos cuando se detectan errores en las tramas de voz durante la decodificación de la voz.

Antecedentes de la invención

Los algoritmos de codificación de voz y audio tienen una gran variedad de aplicaciones en los sistemas de comunicación, multimedia y de almacenamiento. El desarrollo de los algoritmos de codificación viene dado por la necesidad de ahorrar capacidad de transmisión y almacenamiento, manteniendo al mismo tiempo la elevada calidad de la señal sintetizada. La complejidad del codificador está limitada, por ejemplo, por la potencia de procesamiento de la plataforma de la aplicación. En algunas aplicaciones, como por ejemplo, el almacenamiento de voz, el codificador puede ser enormemente complejo, aunque el decodificador debería ser lo más sencillo posible.

Los codificadores-decodificadores (codecs) de voz modernos funcionan procesando la señal de voz en breves segmentos denominados tramas. Una longitud típica de trama de un codificador-decodificador de voz es de 120 ms, lo que corresponde a 160 muestras de voz, suponiendo una frecuencia de muestreo de 8 KHz. En los codificadores-decodificadores de banda ancha, la longitud de trama típica de 20 ms corresponde a 320 muestras de voz, suponiendo una frecuencia de muestreo de 16 KHz. La trama puede dividirse adicionalmente en diversas subtramas. Para cada trama, el decodificador determina una representación paramétrica de la señal de entrada. Los parámetros se cuantifican y se transmiten a través de un canal de comunicación (o se almacenan en un medio de almacenamiento) en formato digital. El decodificador genera una señal de voz sintetizada a partir de los parámetros recibidos, como se muestra en la figura 1.

Un conjunto típico de parámetros de codificación extraídos incluye parámetros espectrales (tales como parámetros de Codificación Predictiva Lineal (LPC)) a utilizar en la predicción a corto plazo de la señal, parámetros a utilizar para la predicción a largo plazo (LTP) de la señal, diversos parámetros de ganancia y parámetros de excitación. El parámetro LTP se encuentra estrechamente relacionado con la frecuencia fundamental de la señal de voz. Este parámetro suele conocerse como un denominado parámetro de retardo de tono, que describe la periodicidad fundamental en términos de muestras de voz. Asimismo, uno de los parámetros de ganancia está relacionado en buena medida con la periodicidad fundamental, por lo que se denomina ganancia LTP. La ganancia LTP es un parámetro muy importante a la hora de conseguir que la voz sea lo más natural posible. La descripción de los parámetros de codificación que acaba de efectuarse se ajusta en términos generales a una variedad de codificadores-decodificadores de voz, incluyendo los codificadores-decodificadores de predicción lineal excitada por código (CELP), que han sido durante algún tiempo los codificadores-decodificadores de voz que han gozado de un mayor éxito.

Los parámetros vocales se transmiten a través de un canal de comunicación en formato digital. A veces, las condiciones de la comunicación experimentan cambios, lo que puede provocar errores en el tren de bits. Esto provocará errores de trama (tramas erróneas), es decir, algunos de los parámetros que describen un segmento de voz específico (normalmente de 20 ms) estarán corrompidos. Existen dos clases de error de trama: tramas totalmente corruptas y tramas parcialmente corruptas. A veces, estas tramas no se reciben en el decodificador en absoluto. En los sistemas de transmisiones basados en paquetes, tales como las conexiones a Internet ordinarias, puede darse la situación de que el paquete de datos no llegue jamás al receptor, o que el paquete de datos llegue tan tarde que no pueda ser utilizado debido a las características de tiempo real de la voz hablada. La trama parcialmente corrupta es una trama que llega al receptor y que aún puede contener algunos parámetros sin error. Esta suele ser la situación de las conexiones conmutadas por circuito, tales como las conexiones GSM existentes. La tasa de error binario (BER) de las tramas parcialmente corruptas suele ser de aproximadamente un 0,5-5%.

Partiendo de la descripción precedente, puede verse que los dos casos de tramas erróneas o corruptas requerirán diferentes métodos a la hora de abordar la degradación de la voz reconstruida, debido a la pérdida de parámetros vocales.

Las tramas de voz perdidas o con error, son una consecuencia de la degradación de las condiciones del canal de comunicación, que provoca errores en el tren de bits. Cuando se detecta un error en la trama de voz recibida, se inicia un procedimiento de corrección de error. Este procedimiento de corrección de error suele incluir un procedimiento de sustitución y un procedimiento de atenuación del sonido. En la técnica anterior, los parámetros vocales de la trama errónea se sustituyen por valores atenuados o modificados de la trama correcta anterior. No obstante, algunos parámetros (como la excitación, en el caso de los parámetros CELP) de la trama corrupta pueden seguir utilizándose para la decodificación.

La figura 2 muestra el principio del método de la técnica anterior. Como se muestra en la figura 2, se utiliza una memoria intermedia etiquetada como "histórico de parámetros" para almacenar los parámetros vocales de la última trama correcta. Cuando se detecta una trama errónea, el Indicativo de Tramas erróneas (BFI) se pone a 1 y se inicia el procedimiento de ocultación de error. Cuando no se configura el BFI (BFI=0), se actualiza el histórico de parámetros y los parámetros vocales se utilizan para llevar a cabo la decodificación sin ocultación de error. Con el sistema de la técnica anterior, el procedimiento de ocultación de error utiliza el histórico de parámetros para ocultar los parámetros perdidos o erróneos de las tramas corruptas. Algunos parámetros vocales de la trama recibida pueden utilizarse, aún cuando se haya clasificado como trama errónea (BFI=1). Por ejemplo, en un codificador-decodificador de voz adaptable de frecuencia múltiple (AMR) GSM (Especificiación ETSI 06.91), siempre se utiliza el vector de excitación procedente del canal. Cuando las tramas de voz son tramas de voz completamente perdidas (por ejemplo, en algunos sistemas de transmisión basados en IP) no se utilizarán parámetros de la trama errónea recibida. En algunos casos, no se recibirá ninguna trama, o la trama llegará tan tarde que tendrá que clasificarse como trama perdida.

En los sistemas de la técnica anterior, la ocultación del retardo LTP utiliza el último valor de retardo LTP correcto con una parte fraccional ligeramente modificada, y los parámetros espectrales se sustituyen por los últimos parámetros correctos ligeramente modificados hacia una media constante. Las ganancias (LTP y libro de codificación fija) pueden por lo general sustituirse por el último valor correcto atenuado o por la mediana de varios de los últimos valores correctos. Los mismos parámetros vocales sustituidos se utilizan para todas las subtramas, introduciendo ligeras modificaciones en algunas de ellas.

La ocultación LTP de la técnica anterior puede ser adecuada para señales de voz estacionarias, por ejemplo, la voz estacionaria o vocalizada. No obstante, en el caso de las señales de voz no estacionarias, el método de la técnica anterior puede causar distorsiones audibles y desagradables. Por ejemplo, cuando la señal de voz es no estacionaria o sin vocalizar, la mera sustitución del valor de retardo de la trama errónea por el último valor de retardo correcto tiene el efecto de generar un breve segmento de voz vocalizada en medio de una ráfaga de voz sin vocalizar (Véase la figura 10). El efecto, conocido como perturbación "bing" puede resultar muy molesto.

El documento US 6188980 describe un decodificador para la síntesis de voz a partir de una señal codificada que incluye parámetros de predicción lineal excitada y vectores LSF. Si en la transmisión de la señal procedente de un codificador se produce un error, la secuencia de valores LSF del vector LSF puede tener uno o más pares de valores LSF incorrectos. El decodificador lleva a cabo selectivamente el borrado, la ocultación LSF o eliminación de pares, a partir del número de pares incorrectos de la secuencia.

Resumen de la invención

La presente invención aprovecha el hecho de que entre los parámetros de predicción a largo plazo (LTP) de las señales de voz existe una relación reconocible. Concretamente, el retardo LTP tiene una estrecha correlación con la ganancia LTP. Cuando la ganancia LTP es elevada y razonablemente estable, el retardo LTP suele ser muy estable y la variación entre los valores de retardo adyacentes es muy pequeña. En este caso, los parámetros vocales indican una secuencia de voz vocalizada. Cuando la ganancia LTP es baja o inestable, el retardo LTP suele ser sin vocalizar, y los parámetros vocales indican una secuencia de voz sin vocalizar. Una vez que la secuencia de voz se ha clasificado como estacionaria (vocalizada) o no estacionaria (sin vocalizar), la trama corrupta o errónea de la secuencia puede procesarse de forma diferente.

De acuerdo con la invención, se facilita un método para la ocultación de error en un tren de bits codificado que indica las señales de voz recibidas en un decodificador de voz, en el que el tren de bits codificado incluye una pluralidad de tramas de voz dispuestas en secuencias vocales, incluyendo las tramas de voz, al menos, una trama parcialmente corrupta precedida por una o más tramas sin corromper, en el que la trama parcialmente corrupta incluye un primer valor de retardo de predicción a largo plazo y un primer valor de ganancia de predicción a largo plazo, incluyendo las tramas sin corromper segundos valores de retardo de predicción a largo plazo y segundos valores de ganancia de predicción a largo plazo, incluyendo dicho método las siguientes fases: proporcionar un límite superior y un límite inferior a partir de los segundos valores de retardo de predicción a largo plazo; determinar si el primer valor de retardo de predicción a largo plazo se encuentra dentro o fuera de los límites superior e inferior; sustituir el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta por un tercer valor de retardo, cuando el primer valor de retardo de predicción a largo plazo se encuentra fuera de los límites superior e inferior; y conservar el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta cuando el primer valor de retardo de predicción a largo plazo se encuentra dentro de los límites superior e inferior.

El método puede también incluir la sustitución del primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta por un tercer valor de ganancia, cuando el primer valor de retardo de predicción a largo plazo se encuentra fuera de los límites superior e inferior.

De acuerdo con la invención, también se facilita un transmisor de señales de voz y un sistema receptor para codificar señales de un tren de bits codificado y la decodificación del tren de bits codificado en voz sintetizada, en el que el tren de bits codificado incluye una pluralidad de tramas de voz dispuestas en secuencias vocales, incluyendo las tramas de voz al menos una trama parcialmente corrupta precedida por una o más tramas sin corromper, en el que la trama parcialmente corrupta incluye un primer valor de retardo de predicción a largo plazo y un primer valor de ganancia de predicción a largo plazo, incluyendo las tramas sin corromper segundos valores de retardo de predicción a largo plazo y segundos valores de ganancia de predicción a largo plazo, utilizándose una primera señal para indicar la trama parcialmente corrupta, incluyendo dicho sistema: primeros medios, que responden a la primera señal, para determinar si el primer valor de retardo de predicción a largo plazo se encuentra dentro de un límite superior y de un límite inferior, y para proporcionar una segunda señal que indique dicha determinación; segundos medios, que responden a la segunda señal, para sustituir el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta por un tercer valor de retardo, cuando el primer valor de retardo de predicción a largo plazo se encuentra fuera de los límites superior e inferior; y conservar el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta cuando el primer valor de retardo de predicción a largo plazo se encuentra dentro de los límites superior e inferior.

Adicionalmente, de acuerdo con la invención, también se facilita un decodificador para sintetizar voz a partir de un tren de bits codificado, en el que el tren de bits codificado incluye una pluralidad de tramas de voz dispuestas en secuencias vocales, incluyendo las tramas de voz, al menos, una trama parcialmente corrupta precedida por una o más tramas sin corromper, en el que la trama parcialmente corrupta incluye un primer valor de retardo de predicción a largo plazo y un primer valor de ganancia de predicción a largo plazo, incluyendo las tramas sin corromper segundos valores de retardo de predicción a largo plazo y segundos valores de ganancia de predicción a largo plazo, utilizándose una primera señal para indicar la trama parcialmente corrupta, incluyendo dicho decodificador: primeros medios, que responden a la primera señal, para determinar si el primer valor de retardo de predicción a largo plazo se encuentra dentro de un límite superior y de un límite inferior, y para proporcionar una segunda señal que indique dicha determinación; segundos medios, que responden a la segunda señal, para sustituir el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta por un tercer valor de retardo, cuando el primer valor de retardo de predicción a largo plazo se encuentra fuera de los límites superior e inferior; y conservar el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta cuando el primer valor de retardo de predicción a largo plazo se encuentra dentro de los límites superior e inferior.

Adicionalmente, también se facilita, de acuerdo con la invención, una estación móvil dispuesta para recibir un tren de bits codificado, que contiene datos de voz indicativos de señales de voz, en el que el tren de bits codificado incluye una pluralidad de tramas de voz dispuestas en secuencias vocales, incluyendo las tramas de voz, al menos, una trama parcialmente corrupta precedida por una o más tramas sin corromper, en el que la trama parcialmente corrupta incluye un primer valor de retardo de predicción a largo plazo y un primer valor de ganancia de predicción a largo plazo, incluyendo las tramas sin corromper segundos valores de retardo de predicción a largo plazo y segundos valores de ganancia de predicción a largo plazo, utilizándose una primera señal para indicar la trama parcialmente corrupta, incluyendo dicha estación móvil: primeros medios, que responden a la primera señal, para determinar si el primer valor de retardo de predicción a largo plazo se encuentra dentro de un límite superior y de un límite inferior, y para proporcionar una segunda señal que indique dicha determinación; segundos medios, que responden a la segunda señal, para sustituir el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta por un tercer valor de retardo, cuando el primer valor de retardo de predicción a largo plazo se encuentra fuera de los límites superior e inferior; y conservar el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta cuando el primer valor de retardo de predicción a largo plazo se encuentra dentro de los límites superior e
inferior.

Adicionalmente se proporciona, de acuerdo con la invención, un elemento de una red de telecomunicación, que está dispuesto para recibir un tren de bits codificado que contiene datos de voz procedentes de una estación móvil, en el que los datos de voz incluyen una pluralidad de tramas de voz dispuestas en secuencias vocales, incluyendo las tramas de voz, al menos, una trama parcialmente corrupta precedida por una o más tramas sin corromper, en el que la trama parcialmente corrupta incluye un primer valor de retardo de predicción a largo plazo y un primer valor de ganancia de predicción a largo plazo, incluyendo las tramas sin corromper segundos valores de retardo de predicción a largo plazo y segundos valores de ganancia de predicción a largo plazo, utilizándose una primera señal para indicar la trama parcialmente corrupta, incluyendo dicho decodificador:

primeros medios, que responden a la primera señal, para determinar si el primer valor de retardo de predicción a largo plazo se encuentra dentro de un límite superior y de un límite inferior, y para proporcionar una segunda señal que indique dicha determinación; segundos medios, que responden a la segunda señal, para sustituir el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta por un tercer valor de retardo, cuando el primer valor de retardo de predicción a largo plazo se encuentra fuera de los límites superior e inferior; y conservar el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta cuando el primer valor de retardo de predicción a largo plazo se encuentra dentro de los límites superior e inferior.

El tercer valor de retardo puede estar basado en los segundos valores de retardo de predicción a largo plazo y en una fluctuación de retardo aleatoria con limitación adaptable.

Los segundos medios puede adicionalmente sustituir el primer valor de ganancia a largo plazo de la trama parcialmente corrupta por un tercer valor de ganancia cuando el primer valor de retardo de predicción a largo plazo se encuentra fuera de los límites superior e inferior. Adicionalmente, el tercer valor de ganancia puede determinarse a partir de los segundos valores de ganancia de predicción a largo plazo y de una latencia de ganancia aleatoria
limitada.

La presente invención se comprenderá más claramente tras la lectura de la descripción, efectuada conjuntamente con las Figuras 3 a 11c.

Breve descripción de las figuras

La figura 1 es un diagrama de bloques que muestra un codificador-decodificador de voz distribuido genérico, en el que el tren de bits codificado que contiene los datos de voz se transporta desde un codificador a un decodificador a través de un canal de comunicación o un medio de almacenamiento.

La figura 2 es un diagrama de bloques que muestra un dispositivo de ocultación de error de un receptor, de acuerdo con la técnica anterior.

La figura 3 es un diagrama de bloques que muestra el dispositivo de ocultación de error de un receptor, de acuerdo con la presente invención.

La figura 4 es un organigrama que muestra el método de ocultación de error de acuerdo con la presente invención.

La figura 5 es una representación en diagrama de una estación móvil que incluye un dispositivo de ocultación de error de acuerdo con la presente invención.

La figura 6 es una representación en diagrama de una red de telecomunicación que utiliza un decodificador de acuerdo con la presente invención.

La figura 7 es un trazado de los parámetros LTP, que muestra los perfiles de retardo y ganancia en una secuencia de voz con vocalizada.

La figura 8 es un trazado de los parámetros LTP, que muestra los perfiles de retardo y ganancia en una secuencia de voz sin vocalizar.

La figura 9 es un trazado de los valores de retardo LTP en una serie de subtramas que muestra la diferencia entre el método de ocultación de error de la técnica anterior y el método de acuerdo con la presente invención.

La figura 10 es otro trazado de los valores de retardo LTP en una serie de subtramas que muestra la diferencia entre el método de ocultación de error de la técnica anterior y el método de acuerdo con la presente invención.

La figura 11a es un trazado de señales de voz que muestra una secuencia de voz libre de errores que tiene el emplazamiento de la trama errónea del canal de voz, como se muestra en las figuras 11b y 11c.

La figura 11b es un trazado de señales de voz que muestra la ocultación de parámetros en una trama errónea de acuerdo con el método de la técnica anterior.

La figura 11c es un trazado de señales de de voz que muestra la ocultación de parámetros en una trama errónea de acuerdo con la presente invención.

Método preferido de realización de la invención

La figura 3 muestra un decodificador 10, que incluye un módulo de decodificación 20 y un módulo de ocultación de error 30. El módulo decodificador 20 recibe una señal 140, que normalmente indica unos parámetros vocales 102 para llevar a cabo la síntesis de la voz. El módulo decodificador 20 es perfectamente conocido por la técnica. El módulo de ocultación de error 30 está configurado para recibir un tren de bits codificado 100, que incluye una pluralidad de trenes de voz dispuestos en forma de secuencias vocales. Un dispositivo 32 de detección de tramas erróneas se utiliza para detectar las tramas corruptas en las secuencias vocales, y proporcionar una señal de Indicación de Tramas erróneas 110 que muestra una bandera BFI cuando al detectar una trama corrupta. El BFI también es conocido por la técnica. La señal BFI 110 se utiliza para controlar dos conmutadores 40 y 42. Normalmente, las tramas de voz no están corrompidas, y la bandera BFI está a 0. El terminal S está conectado operativamente al terminal 0 de los conmutadores 40 y 42. Los parámetros vocales 102 se envían a una memoria intermedia, o almacenamiento de "histórico de parámetros" 50, y al módulo decodificador 20 para llevar a cabo la síntesis de la voz. Cuando el dispositivo de detección de tramas erróneas 32 detecta una trama errónea, la bandera BFI se pone a 1. El terminal S está conectado al terminal 1 en los conmutadores 40 y 42. De este modo, se proporcionan parámetros vocales 102 a un analizador 70, y los parámetros vocales necesarios para la síntesis de voz son facilitados al módulo decodificador 20 por un módulo de ocultación de parámetros 60. Los parámetros vocales 102 incluyen normalmente parámetros LPC para la predicción a corto plazo, parámetros de excitación, un parámetro de retardo de predicción a largo plazo (LTP), un parámetro de ganancia LTP y parámetros de ganancia adicionales. El almacenamiento del histórico de parámetros 50 se utiliza para almacenar el retardo LTP y la ganancia LTP de una serie de tramas de voz sin corromper. Los contenidos del almacenamiento del histórico de parámetros 50 están constantemente actualizados, de forma que el último parámetro de ganancia LTP y el último parámetro de retardo LTP almacenados en el almacenamiento 50 corresponden a los de la última trama de voz sin corromper. Cuando en el decodificador 10 se recibe una trama corrupta en una secuencia de voz, la bandera BFI se pone a 1 y los parámetros vocales 102 de la trama corrupta se envían al analizador 70 a través del conmutador 40, al comparar el parámetro de ganancia LTP de la trama corrupta y los parámetros de ganancia LTP almacenados en el almacenamiento 50, el analizador 70 puede determinar si la secuencia de voz es estacionaria o no estacionaria, a partir de la magnitud y de su variación en los parámetros de ganancia LTP de tramas adyacentes. Normalmente, en una secuencia estacionaria, los parámetros de ganancia LTP son elevados y razonablemente estables, el valor de retardo LTP es estable y la variación en los valores de retardo LTP adyacentes es pequeña, como se muestra en la figura 7. Por el contrario, en una secuencia no estacionaria, los parámetros de ganancia LTP son bajos e inestables, y el retardo LTP también es inestable, como se muestra en la figura 8. Los valores de retardo LTP cambian de forma más o menos aleatoria. La figura 7 muestra la secuencia de voz correspondiente a la palabra "viiniä". La figura 8 muestra la secuencia de voz correspondiente a la palabra "exhibition".

Si la secuencia de voz que incluye la trama corrupta es estacionaria o vocalizada, el último retardo LTP correcto se recupera del almacenamiento 50 y se envía al módulo de ocultación de parámetros 60. Se utiliza el retardo LTP correcto para sustituir al retardo LTP de la trama corrupta. Debido al hecho de que el retardo LTP de una secuencia de voz estacionaria es estable y sus variaciones son pequeñas, resulta razonable utilizar un retardo LTP anterior con unas pequeñas modificaciones para ocultar el correspondiente parámetro de la trama corrupta. Posteriormente, una señal RX 104 hace que los parámetros de sustitución, como se indica mediante la referencia 134, se envíen al módulo decodificador 20 a través del conmutador 42.

Si la secuencia de voz que incluye la trama corrupta es no estacionaria o sin vocalizar, el analizador 70 calcula un valor de retardo LTP y un valor de ganancia LTP para la ocultación del parámetro. Dado que el retardo LTP de una secuencia de voz no estacionaria es inestable y su variación en tramas adyacentes suele ser importante, la ocultación de parámetros debería permitir al retardo LTP en una secuencia no estacionaria con ocultación de error fluctuar de forma aleatoria. Si los parámetros de la trama corrupta están totalmente corrompidos, como en el caso de una trama perdida, el retardo LTP sustitutivo se calcula utilizando una media ponderada de los valores de retardo LTP correctos anteriores, junto con una fluctuación con limitación adaptable. Se permite que la fluctuación con limitación adaptable varíe dentro de unos límites calculados a partir del histórico de los valores LTP, de forma que la fluctuación de parámetros en un segmento con ocultación de error sea similar a la sección correcta anterior de la misma secuencia de voz.

Un ejemplo de regla para la ocultación del retardo LTP se rige por las siguientes condiciones:

Si

: minGain > 0,5 Y LagDIF < 10; O

: lastGain > 0,5 Y SecondlastGain > 0,5

el último retardo LTP correcto recibido se utilizará para la trama totalmente corrupta. De lo contrario, para la trama totalmente corrupta se utilizará update_lag, una media ponderada del buffer de retardo LTP aleatorio. Update_lag se calcula de la forma descrita a continuación:

Se ordena el buffer de retardo LTP y se recuperan los tres valores del buffer mayores. La media de dichos tres valores mayores se denomina retardo medio ponderado (WAL) y la diferencia entre dichos valores mayores se denomina diferencia de retardo ponderada (WLD).

Supongamos que RAND es la aleatorización con la escala de (-WLD/2, WLD/2); entonces:

Update_lag = WAL + RAND(-WLD/2, WLD/2),

Donde:

minGain es el valor menor del buffer de ganancia LTP;

LagDif es la diferencia entre los valores superiores e inferiores del retardo LTP;

lastGain es la última ganancia LTP correcta recibida; y

secondLastGain es la antepenúltima ganancia LTP correcta recibida.

Si los parámetros de la trama corrupta están parcialmente corrompidos, el valor del retardo LTP de la trama corrupta se sustituirá en consecuencia. El hecho de que dicha trama esté parcialmente corrupta se determina mediante un conjunto de criterios de ejemplo de características LTP, que se facilita a continuación:

Si las expresiones:

(1) LagDif < 10 Y (minLag-5)< Tbf< (maxLag+5); O

(2) lastGain> 0.5 Y secondLastGain>0.5 Y (lastLag-10) < Tbf < (lastLag+10); O

(3) minGain<0.4 Y lastGain=minGain Y minLag < Tbf<maxLag; O

(4) LagDif <70 Y minLag <Tbf <maxLag; O

(5) meanLag <Tbf <maxLag

son ciertas, Tbf se utilizará entonces para sustituir el retardo LTP en la trama corrupta. De lo contrario, la trama corrupta se considerará como una trama totalmente corrupta, como se ha descrito anteriormente. En las condiciones que anteceden:

maxLag es el valor superior del buffer de retardo LTP;

meanLag es la media del buffer de retardo LTP;

minLag es el valor inferior del buffer de retardo LTP;

lastLag es el último valor de retardo LTP correcto recibido; y

Tbf es un retardo LTP decodificado que se busca, cuando se establece BFI, en el libro de codificación adaptable, como si no se hubiese establecido el BFI.

En las figuras 9 y 10 se muestran dos ejemplos de ocultación de parámetros. Tal y como se muestra, el perfil de los valores de retardo LTP sustitutivos de la trama errónea, de acuerdo con la técnica anterior, es bastante plano, pero el perfil de sustitución, de acuerdo con la presente invención, permite ciertas fluctuaciones, del mismo modo que en el perfil exento de error. La diferencia entre el método de la técnica anterior y la presente invención puede verse en las figuras 11b y 11c, respectivamente, a partir de las señales de voz en un canal exento de error, como se muestra en la figura 11a.

Cuando los parámetros de la trama corrupta están parcialmente corrompidos puede optimizarse adicionalmente la ocultación de parámetros. En las tramas parcialmente corruptas, los retardos LTP de las tramas corruptas pueden seguir ofreciendo aún un segmento de voz sintetizada aceptable. De acuerdo con las especificaciones GSM, la bandera BFI se pone mediante un mecanismo de comprobación de redundancia cíclica (CRC) u otro mecanismo de detección de error. Estos mecanismos de detección de error detectan errores en los bits más significativos durante el proceso de decodificación de canal. Por ello, aun cuando tan sólo sean erróneos unos pocos bits, el error podrá detectarse y en consecuencia ponerse la bandera BFI. En el método de ocultación de parámetros de la técnica anterior se descarta toda la trama. Por ello, se desecha información que contienen los bits correctos.

Normalmente, en el proceso de decodificación de canal, el BER por trama es un buen indicativo de la situación del canal. Cuando las condiciones de canal son buenas, el BER por trama es pequeño, y un elevado porcentaje de los valores de retardo LTP de las tramas erróneas son correctos. Por ejemplo, cuando la tasa de error de trama (FER) es de un 0,2%, más del 70% de los valores de retardo LTP son correctos. Incluso cuando el FER alcanza el 3%, alrededor del 60% de los valores de retardo LTP siguen siendo correctos. El proceso CRC puede detectar con precisión una trama errónea y fijar la bandera BFI en consecuencia.

No obstante, el método CRC no proporciona un cálculo del BER en la trama. Si la bandera BFI se utiliza como único criterio para la ocultación de parámetros, podría desaprovecharse un porcentaje muy elevado de los valores de retardo LTP correctos. Para impedir que se deseche una gran cantidad de retardos LTP correctos, es posible adaptar un criterio para decidir la ocultación de parámetros basado en el histórico de LTP. También es posible utilizar el FER, por ejemplo, como criterio de decisión. Si el retardo LTP satisface los criterios de decisión no será necesaria la ocultación de parámetros. En este caso, el analizador 70 transporta los parámetros vocales 102, como se han recibido a través del conmutador 40, al módulo de ocultación de parámetros 60, que a su vez los transporta al módulo de decodificación 20 a través del conmutador 42. Si el retardo LTP no satisface el criterio de decisión, la trama corrupta se examinará una vez más utilizando los criterios de características LTP, como se ha descrito anteriormente, para la ocultación de parámetros.

En el caso de secuencias vocales estacionarias, el retardo LTP es muy estable. Independientemente de que la mayoría de los valores de retardo LTP de una trama corrupta sean correctos o erróneos, pueden predecirse correctamente con una elevada probabilidad. De este modo, es posible adaptar un criterio muy estricto de ocultación de parámetros. En secuencias vocales no estacionarias, puede resultar difícil predecir si es correcto el valor LTP de una trama corrupta, a causa de la naturaleza inestable de los parámetros LTP. No obstante, el hecho de que la predicción sea correcta o no resulta menos importante en el caso de la voz no estacionaria que en el de la voz estacionaria. Aunque el permitir la utilización de valores de retardo LTP erróneos a la hora de decodificar la voz estacionaria puede hacer que la voz sintetizada sea irreconocible, el permitir la utilización de valores de retardo LTP erróneos para la decodificación de voz no estacionaria tan sólo suele aumentar el número de interferencias audibles. De este modo, el criterio de decisión para la ocultación de parámetros en la voz no estacionaria puede resultar relativamente poco riguroso.

Como se ha mencionado anteriormente, la ganancia LTP fluctúa enormemente en el caso de la voz no estacionaria. Si se utiliza repetidamente el mismo valor de ganancia LTP procedente de la última trama correcta para sustituir el valor de ganancia LTP de una o más tramas corruptas de una secuencia de voz, el perfil de ganancia LTP del segmento oculto de ganancia será plano (similar a la sustituir el retardo LTP de la técnica anterior, como se muestra en las figuras 7 y 8), lo que contrasta fuertemente con el perfil fluctuante de las tramas sin corromper. El cambio repentino del perfil de ganancia LTP puede provocar molestas interferencias audibles. A fin de minimizar estas interferencias audibles, es posible permitir que el valor de sustitución de la ganancia LTP fluctúe en el segmento con errores ocultos. Con este motivo, el analizador 70 puede también utilizarse para determinar los límites entre los cuales se permite la fluctuación del valor de ganancia LTP de sustitución, a partir de los valores de ganancia del histórico LTP.

La ocultación de la ganancia LTP puede llevarse a cabo de la forma descrita a continuación. Cuando se fija el valor de BFI, se calcula un valor de ganancia LTP sustitutivo de acuerdo con un conjunto de reglas de ocultación de la ganancia LTP. La ganancia LTP de sustitución se denomina Updated_gain.

(1) Si gainDif >0.5 Y lastGain = maxGain >0.9 Y subBF = 1, entonces Updated_gain = (secondLastGain+
thirdLastGain)/2;

(2) Si gainDif >0.5 Y lastGain=maxGain >0.9 Y subBF = 2, entonces Updated_gain = meanGain+randvar*
(maxGain-meanGain);

(3) Si gainDif >0.5 Y lastGain = maxGain >0.9 Y subBF = 3, entonces Updated_gain = meanGain-randVar*
(meanGain-minGain);

(4) Si gainDif >0.5 Y lastGain = maxGain >0.9 Y subBF = 4, entonces Updated_gain = meanGain+randVar*
(maxGain-meanGain);

En las condiciones que anteceden, Updated_gain no puede ser mayor que lastGain. Si no se pueden cumplir las condiciones que anteceden, se utilizarán las siguientes condiciones:

(5) Si gainDif >0.5, entonces Updated_gain = lastGain;

(6) Si gainDif <0.5 Y lastGain = maxGain, entonces Updated_gain = meanGain;

(7) Si gainDIF <0.5, entonces Updated_gain = lastGain,

Donde:

meanGain es la media del buffer de ganancia LTP;

maxGain es el valor más elevado del buffer de ganancia LTP;

minGain es el valor inferior del buffer de ganancia LTP;

randVar es un valor aleatorio entre 0 y 1,

gainDIF es la diferencia entre los valores inferior y superior de ganancia LTP del buffer de ganancia LTP;

lastGain es el último valor correcto de ganancia LTP recibido;

secondLastGain es el penúltimo valor correcto de ganancia LTP recibido;

thirdLastGain es el antepenúltimo valor correcto de ganancia LTP recibido; y

subBF es el orden de la subtrama.

La figura 4 muestra un método de ocultación de error, de acuerdo con la presente invención. Cuando se recibe el tren de bits codificado en la etapa 160, se comprueba la trama para ver si se encuentra corrompida en la etapa 162. Si la trama no está corrompida, el histórico de parámetros de la secuencia de voz se actualiza en la etapa 164, y los parámetros vocales de la trama actual se decodifican en la etapa 166. El procedimiento vuelve entonces a la etapa 162. Si la trama es errónea o está corrompida, se recuperan los parámetros del almacenamiento del histórico de parámetros en la etapa 170. En la etapa 172 se determina si la trama corrupta forma parte de la secuencia de voz estacionaria o de la secuencia de voz no estacionaria. Si la secuencia de voz es estacionaria, se utilizará el retardo LTP de la última trama correcta para sustituir el retardo LTP de la trama corrupta en la etapa 174. Si la secuencia de voz es no estacionaria, se calcularán un nuevo valor de retardo y un nuevo valor de ganancia a partir del histórico LTP en la etapa 180, y se utilizarán para sustituir los correspondientes parámetros de la trama corrupta en la etapa 182.

La figura 5 muestra un diagrama de bloques de una estación móvil 200 de acuerdo con un ejemplo de realización de la invención. La estación móvil incluye componentes típicos del dispositivo, tales como un micrófono 201, un teclado 207, una pantalla de presentación 206, un auricular 214, un conmutador de transmisión/recepción 208, una antena 209 y una unidad de control 205. Adicionalmente, la figura muestra unos bloques de transmisión y recepción 204, 211 típicos de una estación móvil. El bloque transmisor 204 incluye un decodificador 221 para codificar la señal de voz. El bloque transmisor 204 también incluye las operaciones necesarias para codificación de canal, descifrado y modulación, así como funciones de RF, que no se representan en la figura 5 en aras de la claridad. El bloque receptor 211 también incluye un bloque decodificador 220 de acuerdo con la invención. El bloque decodificador 220 incluye un módulo de ocultación de error 222 como el módulo de ocultación de parámetros 30 mostrado en la figura 3. La señal procedente del micrófono 201, amplificada en la etapa de amplificación 202 y digitalizada en el convertidor A/D se lleva al bloque de transmisión 204, y normalmente, al dispositivo de codificación de voz formado por el bloque de transmisión. La señal de transmisión, que se procesa, se modula y se amplifica en el bloque de transmisión, se lleva a la antena 209a través del conmutador de transmisión/recepción 208. La señal a recibir se lleva desde la antena, a través del conmutador de transmisión/recepción 208, al bloque receptor 211, que demodula la señal recibida y decodifica el descifrado y la codificación de canal. La señal de voz resultante se lleva a través del convertidor D/A 212 a un amplificador 213, y posteriormente, a un auricular 214. La unidad de control 205 controla el funcionamiento de la estación móvil 200, lee los comandos de control facilitados por el usuario desde el teclado 207 y proporciona mensajes al usuario a través de la pantalla de presentación 206.

El módulo de ocultación de parámetros 30, de acuerdo con la invención, puede también utilizarse en una red de telecomunicación 300, tal como una red telefónica ordinaria, o una red de estaciones móviles, tal como la red GSM. La figura 6 muestra un ejemplo de un diagrama de bloques de este tipo de redes de telecomunicación. Por ejemplo, la red de telecomunicación 300 puede incluir centralitas telefónicas o los correspondientes sistemas de conmutación 360, a los cuales se conectan teléfonos ordinarios 370, estaciones base 340, controladores de estación base 350 y otros dispositivos centrales 355 de las redes de telecomunicación. Las estaciones móviles 330 pueden establecer conexiones con la red de telecomunicación a través de las estaciones base 340. Un bloque decodificador 320, que incluye un módulo de ocultación de error 322 similar al módulo de ocultación de error 30 mostrado en la figura 3, puede situarse ventajosamente en la estación base 340, por ejemplo. No obstante, el bloque decodificador 320 puede también situarse en el controlador de la estación base 350 o en otro dispositivo central o de conmutación 355, por ejemplo. Si el sistema de la estación móvil utiliza transcodificadores independientes, por ejemplo, entre las estaciones base y los controladores de estación base, para transformar la señal codificada transportada a través del canal radioeléctrico en una señal típica de 64 Kbits/s transferida en un sistema de telecomunicación y viceversa, el bloque decodificador 320 puede también situarse en dicho transcodificador. Por lo general, el bloque decodificador 320 también puede situarse en dicho transcodificador. En general, el bloque decodificador 320, incluyendo el módulo de ocultación de parámetros 322 puede situarse en cualquier elemento de la red de telecomunicación 300, que transforma el tren de datos codificado en un tren de datos sin codificar. El bloque decodificador 320 decodifica y filtra la señal de voz codificada procedente de la estación móvil 330, tras lo cual esta señal de voz puede transferirse en la red de telecomunicación 300 en la forma usual sin comprimir.

Debe observarse que el método de ocultación de error de la presente invención se ha descrito en relación con las secuencias vocales estacionarias y no estacionarias, y que las secuencias vocales estacionarias suelen ser con vocalizada, y las secuencias vocales no estacionarias suelen ser sin vocalización. De este modo, se comprenderá que el método descrito es aplicable a la ocultación de error en secuencias vocales con y sin vocalización.

La presente invención es aplicable a codificadores-decodificadores de voz del tipo CELP, y también puede adaptarse a otros tipos de codificadores-decodificadores de voz.

Claims

1. Método de ocultación de error en un tren de bits codificado indicativo de señales de voz recibidas en un decodificador de voz (10, 220, 320), en el que el tren de bits codificado incluye una pluralidad de tramas de voz dispuestas en secuencias vocales, incluyendo las tramas de voz, al menos, una trama parcialmente corrupta precedida por una o más tramas sin corromper, en el que la trama parcialmente corrupta incluye un primer valor de retardo de predicción a largo plazo y un primer valor de ganancia de predicción a largo plazo, incluyendo las tramas sin corromper segundos valores de retardo de predicción a largo plazo y segundos valores de ganancia de predicción a largo plazo, comprendiendo dicho método las etapas de:

Proporcionar un límite superior y de un límite inferior a partir de los segundos valores de retardo de predicción a largo plazo; determinar si el primer valor de retardo de predicción a largo plazo se encuentra dentro o fuera de los límites superior e inferior;

Sustituir el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta por un tercer valor de retardo de predicción, cuando el primer valor de retardo de predicción a largo plazo se encuentre fuera de los límites superior e inferior (182); y

Conservar el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta cuando el primer valor de retardo de predicción a largo plazo se encuentre dentro de los límites superior e inferior.

2. Método de la reivindicación 1, que comprende adicionalmente la etapa de sustituir el primer valor de ganancia de predicción a largo plazo de la trama parcialmente corrupta por un tercer valor de ganancia, cuando el primer valor de retardo de predicción a largo plazo se encuentre fuera de los límites superior e inferior (182).

3. Método de la reivindicación 1, en el que el tercer valor de retardo se calcula a partir de los segundos valores de retardo de predicción a largo plazo y de una fluctuación de retardo aleatoria con limitación adaptable sujeta a unos límites adicionales determinados a partir de los segundos valores de retardo de predicción a largo plazo (180).

4. Método de la reivindicación 2, en el que el tercer valor de ganancia se calcula a partir de los segundos valores de ganancia de predicción a largo plazo y de una fluctuación de retardo aleatoria con limitación adaptable sujeta a unos límites determinados a partir de los segundos valores de ganancia de predicción a largo plazo (180).

5. Sistema de transmisión y recepción de señales de voz (204, 211) para codificar señales de un tren de bits codificado y para decodificar el tren de bits codificado en voz sintetizada, en el que el tren de bits sintetizado incluye una pluralidad de tramas de voz dispuestas en secuencias vocales, incluyendo las tramas de voz, al menos, una trama parcialmente corrupta precedida por una o más tramas sin corromper, en el que la trama parcialmente corrupta incluye un primer valor de retardo de predicción a largo plazo y un primer valor de ganancia de predicción a largo plazo, incluyendo las tramas sin corromper segundos valores de retardo de predicción a largo plazo y segundos valores de ganancia de predicción a largo plazo, utilizándose una primera señal (110) para indicar la trama parcialmente corrupta, comprendiendo dicho sistema:

Primeros medios (70) que responden a la primera señal (110) para determinar si el primer retardo de predicción a largo plazo se encuentra dentro de un límite superior y de un límite inferior, y para proporcionar una segunda señal (130) que indica dicha determinación;

Segundos medios (60) que responden a la segunda señal, para sustituir el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta por un tercer valor de retardo cuando el primer valor de retardo de predicción a largo plazo se encuentra fuera de los límites superior e inferior, y conservar el primer valor de retardo de predicción a largo plazo de la trama parcialmente corrupta cuando el primer valor de retardo de predicción a largo plazo se encuentra dentro de los límites superior e inferior.

6. Sistema (204, 211) de acuerdo con la reivindicación 5, en el que el tercer valor de retardo se determina a partir de los segundos valores de retardo de predicción a largo plazo y de una fluctuación de retardo aleatoria con limitación adaptable.

7. Sistema (204, 211) de acuerdo con la reivindicación 5, en el que los segundos medios sustituyen adicionalmente el primer valor de ganancia a largo plazo de la trama parcialmente corrupta por un tercer valor de ganancia, cuando el primer valor de retardo de predicción a largo plazo se encuentra fuera de los límites superior e inferior.

8. Sistema (204, 211) de acuerdo con la reivindicación 7, en el que el tercer valor de ganancia se determina a partir de los segundos valores de ganancia de predicción a largo plazo y de una fluctuación de retardo aleatoria con limitación adaptable.

9. Decodificador (10, 220, 320) para sintetizar voz a partir de un tren de bits codificado, en el que dicho tren de bits codificado incluye una pluralidad de tramas de voz dispuestas en secuencias vocales, incluyendo las tramas de voz, al menos, una trama parcialmente corrupta precedida por una o más tramas sin corromper, en el que la trama parcialmente corrupta incluye un primer valor de retardo de predicción a largo plazo y un primer valor de ganancia de predicción a largo plazo, incluyendo las tramas sin corromper segundos valores de retardo de predicción a largo plazo y segundos valores de ganancia de predicción a largo plazo, utilizándose una primera señal (110) para indicar la trama parcialmente corrupta, comprendiendo dicho decodificador:

10. Decodificador (10, 220, 320) de acuerdo con la reivindicación 9, en el que el tercer valor de retardo se determina a partir de los segundos valores de retardo de predicción a largo plazo y de una fluctuación de retardo aleatoria con limitación adaptable.

11. Decodificador (10, 220, 320) de acuerdo con la reivindicación 9, en el que los segundos medios sustituyen adicionalmente el primer valor de ganancia a largo plazo de la trama parcialmente corrupta por un tercer valor de ganancia cuando el primer valor de retardo

\hbox{de predicción a largo plazo se
encuentra fuera de los límites  superior e inferior.}

12. Decodificador (10, 220, 320) de acuerdo con la reivindicación 11, en el que el tercer valor de ganancia se determina a partir de los segundos valores de ganancia de predicción a largo plazo y de una fluctuación de retardo aleatoria con limitación adaptable.

13. Estación móvil (200) dispuesta para recibir un tren de bits codificado que contiene datos de voz indicativos de señales de voz, en la que dicho tren de bits codificado incluye una pluralidad de tramas de voz dispuestas en secuencias vocales, incluyendo las tramas de voz al menos una trama parcialmente corrupta precedida por una o más tramas sin corromper, en la que la trama parcialmente corrupta incluye un primer valor de retardo de predicción a largo plazo y un primer valor de ganancia de predicción a largo plazo, incluyendo las tramas sin corromper segundos valores de retardo de predicción a largo plazo y segundos valores de ganancia de predicción a largo plazo, utilizándose una primera señal (110) para indicar la trama parcialmente corrupta, comprendiendo dicha estación móvil:

14. Estación móvil (200) de acuerdo con la reivindicación 13, en la que el tercer valor de retardo se determina a partir de los segundos valores de retardo de predicción a largo plazo y de una fluctuación de retardo aleatoria con limitación adaptable.

15. Estación móvil (200) de acuerdo con la reivindicación 13, en la que los segundos medios sustituyen adicionalmente el primer valor de ganancia a largo plazo de la trama parcialmente corrupta por un tercer valor de ganancia, cuando el primer valor de retardo de predicción a largo plazo se encuentra fuera de los límites superior e inferior.

16. Estación móvil (200) de acuerdo con la reivindicación 15, en la que el tercer valor de ganancia se determina a partir de los segundos valores de ganancia de predicción a largo plazo y de una fluctuación de retardo aleatoria con limitación adaptable.

17. Elemento (340) de una red de telecomunicación, dispuesto para recibir un tren de bits codificado que contiene datos de voz procedentes de una estación móvil, en el que los datos de voz incluyen una pluralidad de tramas de voz dispuestas en secuencias vocales, incluyendo las tramas de voz, al menos, una trama parcialmente corrupta precedida por una o más tramas sin corromper, en el que la trama parcialmente corrupta incluye un primer valor de retardo de predicción a largo plazo y un primer valor de ganancia de predicción a largo plazo, incluyendo las tramas sin corromper segundos valores de retardo de predicción a largo plazo y segundos valores de ganancia de predicción a largo plazo, utilizándose una primera señal (110) para indicar la trama parcialmente corrupta, comprendiendo dicho elemento:

18. Elemento (340) de acuerdo con la reivindicación 17, en el que el tercer valor de retardo se determina a partir de los segundos valores de retardo de predicción a largo plazo y de una fluctuación de retardo aleatoria con limitación adaptable.

19. Elemento (340) de acuerdo con la reivindicación 17, en el que los segundos medios sustituyen adicionalmente el primer valor de ganancia a largo plazo de la trama parcialmente corrupta por un tercer valor de ganancia cuando el primer valor de retardo de predicción a largo plazo se encuentra fuera de los límites superior e inferior.

20. Elemento (340) de acuerdo con la reivindicación 19, en el que el tercer valor de ganancia se determina a partir de los segundos valores de ganancia de predicción a largo plazo y de una fluctuación de retardo aleatoria con limitación adaptable.