ES2650787T3

ES2650787T3 - Seleccionando un procedimiento de ocultación de pérdida de paquetes

Info

Publication number: ES2650787T3
Application number: ES15728656.8T
Authority: ES
Inventors: Stefan Bruhn
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2014-05-15
Filing date: 2015-05-12
Publication date: 2018-01-22
Anticipated expiration: 2035-05-12
Also published as: EP3111624A1; RU2019132422A; IL253262A0; ES2780000T3; WO2015174911A1; RU2704747C2; NO2780522T3; US20200036614A1; US20170288999A1; PL3111624T3; US20210266246A1; US10103958B2; RU2018128779A; CN106464683B; CN110797035B; CN110797035A; CN110797036B; IL275257B; IL253262B; US10476769B2

Abstract

Un método para seleccionar un procedimiento de ocultación de pérdida de paquetes, en donde el método se lleva a cabo en un decodificador de audio y comprende: - detectar (40) un tipo de audio de una trama de audio recibida; y - determinar (44) un procedimiento de ocultación de pérdida de paquetes que se base al menos parcialmente en el tipo de audio, caracterizado por que detectar (40) un tipo de audio comprende determinar (41) una estabilidad de una envolvente espectral de señales de tramas de audio recibidas.

Description

5

10

15

20

25

30

35

40

45

DESCRIPCION

Seleccionando un procedimiento de ocultación de pérdida de paquetes Campo técnico

La descripción se refiere a decodificación de audio y más en particular a la selección de un procedimiento de ocultación de pérdida de paquetes en decodificación de audio.

Antecedentes

Las redes de comunicaciones móviles evolucionan hacia la consecución de mayores velocidades de transmisión de datos, así como de una capacidad y una cobertura mejoradas. En el organismo de estandarización del Proyecto Asociativo de Tercera Generación (3GPP, 3rd Generation Partnership Project), se han desarrollado y actualmente también se están desarrollando diversas tecnologías.

La tecnología LTE (Evolución a Largo Plazo, Long Term Evolution) es una tecnología estandarizada reciente. Utiliza una tecnología de acceso basada en OFDM (Multiplexación por División de Frecuencia Ortogonal, Orthogonal Frequency Division Multiplexing) para el enlace descendente y FDMA de Portadora Única (SC-FDMA, Single Carrier FDMA) para el enlace ascendente. La asignación de recursos a terminales inalámbricos (también conocidos como equipos de usuario, UEs) tanto en el enlace descendente como en el enlace ascendente se lleva a cabo generalmente de manera adaptativa utilizando planificación rápida, teniendo en cuenta el patrón de tráfico instantáneo y las características de propagación de radio de cada terminal inalámbrico. La asignación de recursos tanto en el enlace descendente como en el enlace ascendente se lleva a cabo en el planificador situado en la estación de base para redes móviles.

Para transmisiones de datos de audio, así como para todos los datos sobre interfaces inalámbricas, hay ocasiones en los que existe pérdida de datos, como por ejemplo debido a pérdidas de trayecto, interferencia, etc. Cuando se pierde una trama de audio, un decodificador de audio receptor puede detectar la pérdida de trama de audio y puede entonces llevar a cabo un procedimiento de ocultación de pérdida de paquetes (PLC, Packet Loss Concealment) para generar audio que reduzca de la mejor manera posible los efectos de la pérdida del paquete de audio.

Sin embargo, existen diversos procedimientos de PLC posibles y resultaría beneficioso seleccionar de manera correcta qué procedimiento PLC se debe utilizar en diferentes situaciones.

La patente europea EP 1458145 describe un método para seleccionar y aplicar de manera dinámica diferentes técnicas de ocultación de error en tiempo de ejecución en el lado del receptor.

Breve descripción de los dibujos

Se describe a continuación la invención, a modo de ejemplo, haciendo referencia a los dibujos adjuntos, en los cuales:

la Figura 1 es un diagrama esquemático que ilustra una red de comunicaciones móviles en la que pueden aplicarse realizaciones descritas en la presente memoria;

la Figura 2 es un diagrama esquemático que ilustra transmisiones de tramas de audio a un terminal inalámbrico de la Figura 1;

la Figura 3 es un gráfico esquemático que ilustra una envolvente espectral de señales de tramas de audio recibidas;

las Figuras 4A-B son diagramas de flujo que ilustran métodos llevados a cabo en un dispositivo servidor perteneciente a la Figura 1 para seleccionar un procedimiento de ocultación de pérdida de paquetes;

la Figura 5 es un diagrama esquemático que muestra algunos componentes del terminal inalámbrico de la Figura 1;

la Figura 6 es un diagrama esquemático que muestra algunos componentes del nodo de transcodificación de la Figura 1; y

la Figura 7 muestra un ejemplo de un producto de programa de ordenador que comprende un medio legible por ordenador.

Descripción detallada

Se describirá ahora la invención de manera más completa a partir de este momento haciendo referencia a los dibujos adjuntos, en los que se muestran ciertas realizaciones de la invención. Esta invención puede, sin embargo, ser realizada de muchas formas diferentes y no debería considerarse como limitada a las realizaciones establecidas en la presente memoria; antes bien, estas realizaciones se proporcionan a modo de ejemplo para que esta descripción sea concienzuda y completa, y transmita de manera completa el alcance de la invención a aquellas

5

10

15

20

25

30

35

40

45

50

55

personas expertas en la técnica. A lo largo de la descripción, números semejantes hacen referencia a elementos semejantes.

La Figura 1 es un diagrama esquemático que ilustra una red 8 de comunicaciones móviles en la que pueden aplicarse realizaciones descritas en la presente memoria. La red 8 de comunicaciones móviles comprende una red 3 de núcleo y una estación 1 de base para redes móviles o más de una, que aquí tiene la forma de Nodos B evolucionados también conocidos como eNodos B o eNBs. La estación 1 de base para redes móviles también podría tener la forma de Nodos B, BTSs (Estaciones Transceptoras de Base, Base Transceiver Stations) y/o BSSs (Subsistemas de Estación de Base, Base Station Subsystems), etc. La estación 1 de base para redes móviles proporciona conectividad de radio a una pluralidad de terminales 2 inalámbricos. El término terminal inalámbrico se conoce también como terminal de comunicaciones móviles, equipo de usuario (UE), terminal móvil, terminal de usuario, agente de usuario, dispositivo inalámbrico, dispositivo de máquina a máquina, etc., y pueden ser, por ejemplo, lo que hoy son elementos conocidos como teléfonos móviles o un ordenador portátil o tableta con conectividad inalámbrica o un terminal fijo.

La red 8 de comunicaciones móviles puede cumplir por ejemplo con una cualquiera o con una combinación de tecnologías LTE (Evolución a Largo Plazo, Long Term Evolution), W-CDMA (Acceso Múltiple por División de Código de Banda Ancha, Wideband Code Division Múltiple Access), EDGE (Evolución de Velocidades de Transmisión de Datos Mejoradas para GSM [Sistema Global para Comunicaciones Móviles], Enhanced Data RatesforGSM[Global System for Mobile communication] Evolution), GPRS (Servicio General de Radio por Paquetes, General Packet Radio Service), CDMA2000 (Acceso Múltiple por División de Código 2000, Code Division Múltiple Access 2000), o bien cualquier otra red inalámbrica actual o futura, tal como una red LTE-Avanzada, siempre que sean de aplicación los principios descritos en la presente memoria.

La comunicación mediante el enlace 4a ascendente (UL) desde el terminal 2 inalámbrico y la comunicación mediante el enlace 4b descendente (DL) hacia el terminal 2 inalámbrico entre el terminal 2 inalámbrico y la estación 1 de base para redes móviles se produce mediante una interfaz de radiocomunicaciones inalámbricas. La calidad de la interfaz de radiocomunicaciones inalámbricas a cada terminal 2 inalámbrico puede variar a lo largo del tiempo dependiendo de la posición del terminal 2 inalámbrico, debido a efectos tales como desvanecimiento, propagación mult-trayecto, interferencia, etc.

La estación 1 de base para redes móviles también está conectada a la red 3 de núcleo para la conectividad a funciones centrales y a una red 7 externa, tal como la Red Pública Telefónica Conmutada (PSTN, Public Switched Telephone Network) y/o la red Internet.

Los datos de audio pueden ser codificados y decodificados por el terminal 2 inalámbrico y/o un nodo 5 de transcodificación, que es un nodo de red dispuesto para llevar a cabo la transcodificación de audio. El nodo 5 de transcodificación puede implementarse, por ejemplo, en una MGW (Pasarela de Medios, Media Gateway), una SBG/BGF (Pasarela de Frontera de Sesión / Función de Puerta de Enlace, Session Border Gateway / Border Gateway Function), o un MRFP (Procesador de Función de Recursos de Medios, Media Resource Function Processor). Por lo tanto, tanto el terminal 2 inalámbrico como el nodo 5 de transcodificación son dispositivos servidores que comprenden un decodificador de audio respectivo.

La Figura 2 es un diagrama esquemático que ilustra transmisiones de tramas de audio a un terminal inalámbrico de la Figura 1. Cuando se recibe de audio, por ejemplo en una conversación de voz o incluso en una transferencia continua de audio, el terminal 2 inalámbrico recibe un flujo de tramas 15a-c de audio consecutivas. Cada trama de audio, con una longitud de por ejemplo entre 20 y 40 milisegundos, consttuye un conjunto de datos representado digitalmente y comprende una señal, es decir, una señal de audio, codificada en un formato apropiado.

En este ejemplo, el terminal 2 inalámbrico recibe una primera trama 15a de audio y una segunda trama 15b de audio de manera exitosa. Esto permite al terminal 2 inalámbrico y codificar la señal de audio comprendida en las tramas 15a-b de audio. Sin embargo, debido a unas condiciones de comunicación por radio pobres, la tercera trama 15c de audio no se recibe de manera exitosa. El decodificador de audio en el terminal 2 inalámbrico detecta la tercera trama de audio perdida y puede entonces llevar a cabo un procedimiento de Ocultación de Pérdida de Paquetes (PLC, Packet Loss Concealment) para generar audio que reduzca de la mejor manera posible los efectos de la pérdida del paquete de audio.

Cómo tomar una decisión entre una multitud de procedimientos PLC en el seno de un decodificador de audio de tal manera que se seleccione ese procedimiento que proporciona la mejor calidad de audio posible constituye un problema.

De manera más específica, un decodificador de audio puede implementar al menos dos procedimientos PLC diferentes, donde uno de ellos es especialmente apropiado para señales musicales mientras que un segundo procedimiento PLC es más apropiado para señales no musicales, como por ejemplo la voz. Con el fin de ser capaces de elegir el procedimiento PLC más apropiado, la señal de audio (codificada) que se ha recibido en buenas condiciones, es decir, en forma de paquetes (15a-b) libres de errores y no eliminados, es analizada y,

5

10

15

20

25

30

35

40

45

50

55

sobre la base de dicho análisis, se lleva a cabo la elección del procedimiento PLC.

Un problema particular es adaptar la decisión del procedimiento de selección de PLC de tal manera que las posibilidades individuales específicas de los procedimientos PLC disponibles se utilicen de una manera beneficiosa. Esto implica encontrar una métrica apropiada relacionada con la señal que esté asociada con el análisis de la señal de audio recibida (o con los parámetros de codificación de la misma), y encontrar un procedimiento de decisión apropiado que seleccione el procedimiento PLC sobre la base de la métrica. Para codificadores/decodificadores (códecs) de audio basados en trama, también resulta deseable que la decisión del procedimiento PLC pueda tomarse sobre una base trama a trama, es decir, que pueda tomarse una decisión en respuesta a una trama de audio buena recibida en este momento y en datos de audio recibidas con anterioridad.

Un procedimiento PLC reciente para audio es el así llamado ECU de Fase (Phase ECU). Se trata de un procedimiento que proporciona una calidad de la señal de audio restaurada particularmente alta después de una pérdida de paquetes en el caso en el que la señal sea una señal musical.

El método ECU de Fase consiste en una ocultación basada en evolución de fase senoidal. Se basa en el paradigma de análisis y síntesis senoidal llevado a cabo en el dominio DFT (Transformada Discreta de Fourier, Discrete Fourier Transform). Se asume que una señal de audio está compuesta por un número limitado de componentes senoidales individuales. En el paso de análisis, se identifican las componentes senoidales de una trama de audio sintetizada previamente. En el paso de síntesis, éstas componentes senodales evolucionan en fase hasta el instante de tiempo de la trama perdida. Se lleva a cabo un refinamiento interpolador de frecuenca senoidal para aumentar la resolución de frecuencia por encima de la de la DFT. En lugar de poner a cero o de ajustar la magnitud de los coeficientes DFT que no pertenecen a los picos espectrales, las magnitudes DFT originales son retenidas mientras que se utiliza una randomizaciónde fase adaptativa.

Otra clase de procedimientos PLC son aquéllos que incorporan un modelo de tono. Una suposición subyacente de tales procedimientos es que la señal puede contener segmentos de voz correspondientes a vez humana, en los cuales la señal es periódica con una frecuencia fundamental que corresponde a una excitación de la glotis. A través de la incorporación de un modelo de tono tal, el procedimiento PLC puede conseguir una calidad de la señal de audio restaurado particularmente buena en el caso en el que la señal corresponda a una voz vocalizada.

Es sabido que la ECU de Fase funciona muy bien para música tonal (tonos sostenidos de un solo instrumento o de múltiples instrumentos) y también para señales musicales complejas (orquesta, música pop). Por otro lado, a veces existen deficiencias en la ECU de Fase para una señal de voz y en particular para voz vocalizada.

Por otro lado, resulta notable que procedimientos PLC que incorporan un modelo de tono no tienen a menudo un rendimiento óptimo con señales musicales y señales de audio genéricas periódicas. Antes bien, se observa que señales de audio genéricas periódicas tales como música tonal (tonos sostenidos de un solo instrumento o de múltiples instrumentos) resultan menos apropiadas para procedimientos PLC que utilizan un modelo de tono.

La Figura 3 es un gráfico esquemático que ilustra una envolvente 10 espectral de señales de trama de audio recibidas. El eje horizontal representa frecuencia y el eje vertical representa amplitud, como por ejemplo potencia, etc.

Fijando la atención ahora tanto en la Figura 2 como en la Figura 3, se presentarán conceptos relativos a cómo se selecciona un procedimiento PLC en un decodificador de audio. Debe apreciarse que esto puede llevarse a cabo en un decodificador de audio del terminal inalámbrico y/o del nodo de transcodificación de laFigura 1.

Una solución para seleccionar un procedimiento PLC en un decodificador de audio que implementa al menos dos procedimientos PLC diferentes consiste en utilizar una medida de estabilidad de envolvente espectral en la selección del procedimiento PLC. Ello implica un primer paso de analizar al menos una trama de señal de audio recibida con anterioridad con respecto a su estabilidad de envolvente espectral relativa a la envolvente espectral de al menos una trama adicional de señal de audio recibida con anterioridad. El resultado de este paso de análisis es una medida de estabilidad de envolvente que se utiliza en un segundo paso. En ese segundo paso, la medida de estabilidad de envolvente se utiliza en un algoritmo de decisión que, en respuesta a al menos esa medida, selecciona uno de entre una multitud de procedimientos PLC, en el caso de que una trama de audio posterior se borre o se deteriore como consecuencia de una pérdida o de un error de transmisión de un paquete de audio.

Se asume que el decodificador de audio recibe paquetes de datos de audio codificados, que están estructurados en conjuntos tal como se muestra en la Figura 2. Cada conjunto de datos de audio codificados representa una trama 15a-c de la señal de audio codificada. Los conjuntos de datos de audio codificados son generados por un codificador de audio como resultado de la codificación de la señal de audio original. Los

5

10

15

20

25

30

35

40

45

50

55

60

conjuntos de datos de audio codificados son transmitidos en paquetes hasta el decodificador, típicamente como un conjunto o múltiples conjuntos por paquete o, en algunos casos, como conjuntos parciales por paquete.

Después de la recepción de los paquetes, el receptor de audio identifica los conjuntos de datos de audio codificados recibidos correctamente que pueden ser decodificados por el decodificador de audio. Los conjuntos que corresponden a paquetes corruptos o perdidos no están disponibles para decodificación y las tramas de señal de audio correspondientes necesitan en realidad ser restauradas por uno de los procedimientos PLC disponibles. La selección del procedimiento PLC que va a utilizarse para una trama de audio perdida dada se describe a continuación.

En primer lugar, se detecta el tipo de audio (ver paso 40 en las Figuras 4A-B) de modo que al menos una trama de audio recibida correctamente con anterioridad o sus parámetros de codificación relacionados se analizan y se almacenan en una memoria para una potencial pérdida de tramas posterior (por ejemplo, en la memoria 53 de datos de la Figura 5 o la 63 de la Figura 6). Típicamente, este análisis se lleva a cabo con la trama de audio recibida correctamente más reciente antes de la pérdida. El análisis evalúa si la señal de audio es probablemente una señal de voz o una señal musical. El resultado de este análisis puede estar constituido por una medida definida en un intervalo de valores, como por ejemplo entre 0 y 1, en donde un valor cercano a 0 representa una alta probabilidad de que la señal sea voz y un valor cercano a 1 representa una alta probabilidad de que la señal sea música, o vioeversa.

Una realización del paso de análisis consiste en utilizar la estabilidad de envolvente espectral como una medida para la probabilidad de que la trama de señal sea voz o música. El antecedente que justifica la utilización de la estabilidad de envolvente espectral como un indicador tal es la observación de que la música tiende a tener una envolvente espectral relativamente estable a lo largo del tiempo o bien que la envolvente espectral evoluciona lentamente a lo largo del tiempo, mientras que se observa lo contrario en el caso de la voz. Esta medida evalúa la variabilidad de la envolvente espectral de la señal de audio en el dominio de las energías de sub-bandas espectrales (también conocidas como factores de escala o normas). Puede apreciarse que esta medida puede utilizarse también, por ejemplo, en un códec de audio para controlar el umbral de ruido de sub-bandas espectrales.

Una manera de calcular la medida de estabilidad de envolvente espectral consiste en comparar una representación de envolvente espectral, como por ejemplo un espectro de magnitud de la trama recibida correctamente más reciente, con la representación de envolvente espectral de al menos una trama recibida anteriormente, de la cual se ha almacenado en una memoria una representación. Si tienden a producirse cambios relativamente fuertes en la envolvente, se asume que la señal es de tipo voz y, en caso contrario, se asume que representa música. Por consiguiente, el valor de la estabilidad de envolvente se fijará en valores cercanos a 0 o, respectivamente, cercanos a 1. Una idea inventiva es que para pérdidas de tramas de señales en las que el indicador de estabilidad de envolvente anterior a la pérdida indica una alta estabilidad, debería seleccionarse un procedimiento PLC más apropiado para señales musicales.

La decisión real del procedimiento PLC se lleva a cabo en un segundo paso, ver paso 44 de las Figuras 4A-B. Aquí, la medida de estabilidad de envolvente calculada en una trama buena anterior a la pérdida de trama se restaura en primer lugar desde una memoria y a continuación se compara con un umbral. Como ejemplo, el umbral podría ser 0,5. Si la medida de estabilidad de envolvente excede el umbral, se elige el procedimiento PLC para señales musicales y, en caso contrario, se elige el procedimiento PLC para señales de voz.

De acuerdo con una realización, el método de decisión basado en la estabilidad de envolvente descrito se utiliza en un nivel de un método de decisión multi-nivel. Aquí, se toma una primera decisión que se base en la medida de estabilidad envolvente sobre si se selecciona el procedimiento PLC más apropiado para música. De nuevo, si la medida de estabilidad está por encima de un cierto umbral, se elegirá el procedimiento PLC para señal musical. Sin embargo, si este no es el caso, puede estar implicado un segundo método de decisión que compara otras medidas derivadas de la última trama de audio buena con un cierto umbral. Ejemplos de otras medidas son parámetros que pueden utilizarse para discriminar voz vocalizada de voz no vocalizada, como por ejemplo una ganancia de predicción de tono (ganancia de predicción a largo plazo) o, por ejemplo, la inclinación del espectro de envolvente. Si estos valores indican que la señal de audio es probablemente voz vocalizada (por medio de valores relativamente grandes), entonces el selector elige el procedimiento PLC que es más apropiado para señales de voz y, en caso contrario, se selecciona el procedimiento PLC apropiado para música.

De acuerdo con una realización adicional, la decisión del procedimiento PLC, además de la medida de estabilidad de envolvente como un criterio de decisión, puede también implicar el cálculo de medidas adicionales y su comparación con umbrales apropiados. Tales medidas, por ejemplo, pueden ser un indicador VAD (Detector de Actividad de Voz, Voice Activity Detector), parámetros de potencia, medidas sobre la tonalidad de la señal, medidas sobre cuán armónica es la señal, medidas sobre cuán compleja es espectralmente la señal, etc. Una señal muy tonal tendría un número relativamente pequeño de picos espectrales distintos que serían relativamente estables comparados con alguna trama de audio anterior. Una

5

10

15

20

25

30

35

40

45

50

señal armónica podría tener picos espectrales distintos a una frecuencia fundamental y a múltiplos enteros de la misma. Una señal de audio espectralmente compleja (como, por ejemplo, la que corresponde a música de orquesta con muchos instrumentos contribuyendo al sonido) tendría un número relativamente grande de picos espectrales con una relación poco clara entre ellos. El método de decisión podría tener en cuenta tales medidas adicionales, además de la estabilidad de envolvente, para determinar el procedimiento PLC que será utilizado para la trama perdida.

De acuerdo con una realización, el procedimiento PLC que resulta más apropiado para ser utilizado en la detección de señales musicales, o de señales con una envolvente espectral relativamente estable, señales tonales, y/o señales espectralmente complejas es la ECU de Fase. Señales para las que debería seleccionarse en su lugar otro procedimiento PLC, con modelo de tono, son aquellas que se clasifican como voz y especialmente voz vocalizada, y señales que poseen una estructura espectral armónica y/o una inclinación espectral típica de la voz vocalizada.

Las Figuras 4A-B son diagramas de flujo que ilustran métodos llevados a cabo en un decodificador de audio de un dispositivo servidor (terminal inalámbrico y/o nodo de transcodificación de la Figura 1) para seleccionar un procedimiento de ocultación de pérdida de paquetes.

En un paso 40 de detectar tipo de audio, se detecta un tipo de audio de una trama de audio recibida. Esto puede comprender determinar si el tipo de audio es bien música o bien voz. De manera opcional, existen más tipos de audio posibles, que comprenden potencialmente un tipo de audio “desconocido”.

En una realización, el tipo de audio se determina como música cuando la envolvente espectral de señales de audio recibidas es estable. En un caso tal, el tipo de audio se determina como voz cuando la envolvente espectral de señales de audio recibidas es inestable. La estabilidad y la inestabilidad pueden definirse, por ejemplo, mediante la comparación con un valor umbral cuando la estabilidad de la envolvente espectral es un escalar.

De manera opcional, se utiliza histéresis en este paso para evitar saltar hacia atrás y hacia adelante en la detección del tipo de audio. De manera alternativa o de manera adicional, puede utilizarse una cadena de Markov para aumentar la estabilidad en la clasificación.

En un paso 44 de determinar el procedimiento PLC, se determina un procedimiento de ocultación de pérdida de paquetes que se basa en el tipo de audio.

El método puede repetirse según se van recibiendo nuevas tramas de audio, para garantizar que se determina el tipo de audio más reciente.

La Figura 4B ilustra un método para seleccionar un procedimiento de ocultación de pérdida de paquetes de acuerdo con una realización. Este método es similar al método ilustrado en la Figura 4a, y solo se describirán pasos nuevos o pasos modificados en relación a la Figura 4A.

Aquí, el paso 40 de detectar tipo de audio comprende un paso 41 de determinar la estabilidad de la envolvente espectral opcional y/o un paso 42 de determinar segunda medida opcional.

En el paso 41 de determinar la estabilidad de la envolvente espectral opcional, se determina una estabilidad de una envolvente espectral de señales de tramas de audio recibidas. Tal como se explicó anteriormente, esto puede conseguirse comparando una envolvente espectral de señales de dos (o más) tramas de audio consecutivas recibidas correctamente.

De manera opcional, una medida escalar relacionada con la envolvente espectral de señales recibidas de tramas de audio recibidas se calcula, por ejemplo, con un valor entre 0 y 1 tal como se describió anteriormente.

En el paso 42 de determinar segunda medida opcional, se determina una segunda medida de una trama de audio recibida. La segunda medida comprende un indicador seleccionado de entre un grupo que consiste en una ganancia de predicción de tono, una inclinación de la envolvente espectral, un indicador de detección de actividad de voz, parámetros de potencia, medida de una tonalidad de la señal, medida de cuán armónica es la señal, y medida de cuán compleja especialmente es la señal.

La Figura 5 es un diagrama esquemático que muestra algunos componentes del terminal 2 inalámbrico de la Figura 1. Se proporciona un procesador 50 utilizando cualquier combinación de uno o más elementos apropiados de entre el conjunto formado por una unidad central de procesamiento (CPU), un multiprocesador, un microcontrolador, un procesador digital de señal (DSP), un circuito integrado de aplicación específica, etc., capaces de ejecutar instrucciones 56 de software almacenadas en una memoria 54, que puede por lo tanto ser un producto de programa de ordenador. El procesador 50 puede configurarse para ejecutar las instrucciones 56 de software para llevar a cabo cualquiera de las realizaciones de los métodos descritos haciendo referencia a las Figuras 4A-B mostradas anteriormente, o más de una.

5

10

15

20

25

30

35

40

45

50

55

La memoria 54 puede ser cualquier combinación de memoria de lectura y escritura (RAM) y de memoria de sólo lectura (ROM). La memoria 54 también comprende almacenaje persistente, que, por ejemplo, puede estar constituido por un elemento o una combinación de elementos de entre el conjunto formado por memoria magnética, memoria óptica, memoria de estado sólido o incluso memoria montada de manera remota.

Se proporciona también una memoria 53 de datos para la lectura y/o el almacenamiento de datos durante la ejecución de las instrucciones de software en el procesador 50. La memoria 53 de datos puede estar constituida por cualquier combinación de una memoria de lectura y escritura (RAM) y una memoria de sólo lectura (ROM).

El terminal 2 inalámbrico comprende adicionalmente una interfaz 52 de I/O (de entrada/salida) para la comunicación con otras entidades externas. La interfaz 52 de I/O también incluye una interfaz de usuario que comprende un micrófono, un altavoz, un visualizador, etc. De manera opcional, puede conectarse un micrófono externo y/o un altavoz/auricular externo al terminal inalámbrico.

El terminal 2 inalámbrico también comprende un transceptor 51 o más de uno, que comprende componentes analógicos y digitales, y un número apropiado de antenas 55 para comunicación inalámbrica con terminales inalámbricos tal como se muestra en la Figura 1.

El terminal 2 inalámbrico comprende un codificador de audio y un decodificador de audio. Estos elementos pueden implementarse en las instrucciones 56 de software ejecutables por el procesador 50 o bien utilizando hardware separado (no mostrado).

Otros componentes del terminal 2 inalámbrico se omiten con el fin de no oscurecer los conceptos presentados en la presente memoria.

La Figura 6 es un diagrama esquemático que muestra algunos componentes del nodo 5 de transcodificación de la Figura 1. Se proporciona un procesador 60 utilizando cualquier combinación de uno o más elementos apropiados de entre el conjunto formado por una unidad central de procesamiento (CPU), un multiprocesador, un microcontrolador, un procesador digital de señal (DSP), un circuito integrado de aplicación específica, etc., capaces de ejecutar instrucciones 66 de software almacenadas en una memoria 64, que puede por lotanto ser un producto de programa de ordenador. El procesador 60 puede configurarse para ejecutar las instrucciones 66 de software para llevar a cabo cualquiera de las realizaciones de los métodos descritos haciendo referencia a las Figuras 4A-B mostradas anteriormente, o más de una.

La memoria 64 puede ser cualquier combinación de memoria de lectura y escritura (RAM) y de memoria de sólo lectura (ROM). La memoria 64 también comprende almacenaje persistente, que, por ejemplo, puede estar constituido por un elemento o una combinación de elementos de entre el conjunto formado por memoria magnética, memoria óptica, memoria de estado sólido o incluso memoria montada de manera remota.

Se proporciona también una memoria 63 de datos para la lectura y/o el almacenamiento de datos durante la ejecución de las instrucciones de software en el procesador 60. La memoria 63 de datos puede estar constituida por cualquier combinación de una memoria de lectura y escritura (RAM) y una memoria de sólo lectura (ROM).

El nodo 5 de transcodificación comprende adicionalmente una interfaz 62 de I/O para la comunicación con otras entidades externas tales como el terminal inalámbrico de la Figura 1 (utilizando la estación 1 de base para redes móviles).

El nodo 5 de transcodificación comprende un codificador de audio y un decodificador de audio. Estos elementos pueden implementarse en las instrucciones 66 de software ejecutables por el procesador 60 o bien utilizando hardware separado (no mostrado).

Otros componentes del nodo 5 de transcodificación se omiten con el fin de no oscurecer los conceptos presentados en la presente memoria.

La Figura 7 muestra un ejemplo de un producto 90 de programa de ordenador que comprende un medio legible por ordenador. En este medio legible por ordenador puede almacenarse un programa 91 de ordenador, programa de ordenador que puede hacer que un procesador ejecute un método de acuerdo con las realizaciones descritas en la presente memoria. En este ejemplo, el producto de programa de ordenador es un disco óptico, tal como un CD (disco compacto) o un DVD (disco versátil digital) o un disco Blu-Ray. Tal como se explicó anteriormente, el producto de programa de ordenador también podría realizarse en una memoria de un dispositivo, tal como el producto 54 de programa de ordenador de la Figura 5 o el producto 64 de programa de ordenador de la Figura 6. Mientras que el programa 91 de ordenador se representa aquí de manera esquemática como una pista en el disco óptico mostrado, el programa de ordenador puede almacenarse de cualquier forma que resulte apropiada para el producto de programa de ordenador, tal como una memoria de estado sólido retirable (por ejemplo, un lápiz de memoria deBus de Serie Universal [USB]).

5

10

15

20

25

30

35

40

45

50

55

A continuación, se ofrece un conjunto de realizaciones para describir adicionalmente los conceptos presentados en la siente memoria.

La primera realización comprende un método para seleccionar un procedimiento de ocultación de pérdida de paquetes, en donde el método se lleva a cabo en un decodificador de audio y comprende los pasos de: detectar (40) un tipo de audio de una trama de audio recibida; y determinar (44) un procedimiento de ocultación de pérdida de paquetes que se base en el tipo de audio.

La segunda realización comprende el método de acuerdo con la primera realización, en donde el paso de detectar (40) un tipo de audio comprende el paso de: determinar (41) una estabilidad de una envolvente espectral de señales de tramas de audio recibidas.

La tercera realización comprende el método de acuerdo con la segunda realización, en donde el paso de determinar (41) una estabilidad de una envolvente espectral de señales de tramas de audio recibidas comprende comparar una envolvente espectral de señales de dos (o más) tramas de audio consecutivas recibidas correctamente.

La cuarta realización comprende el método de acuerdo con la segunda o la tercera realización, en donde el paso de determinar (41) una estabilidad de una envolvente espectral de señales recibidas de tramas de audio recibidas comprende calcular una medida escalar relacionada con la envolvente espectral de señales recibidas de tramas de audio recibidas.

La quinta realización comprende el método de acuerdo con una cualquiera de las realizaciones segunda, tercera y cuarta, en donde el paso de detectar (40) un tipo de audio comprende adicionalmente el paso de: determinar (42) una segunda medida de una trama de audio recibida, donde la segunda medida comprende un indicador seleccionado de entre el grupo consistente en una ganancia de predicción de tono, una inclinación de la envolvente espectral, un indicador de detección de actividad de voz, parámetros de potencia, medida de una tonalidad de la señal, medida de cuán armónica es la señal, y medida de cuán compleja espectralmente es la señal.

La sexta realización comprende el método de acuerdo con una cualquiera de las realizaciones precedentes, en donde el paso de detectar (40) un tipo de audio comprende determinar si el tipo de audio es música o bien voz.

La séptima realización comprende el método de acuerdo con la sexta realización cuando depende de la segunda realización, en donde el paso de detectar (40) un tipo de audio comprende determinar que el tipo de audio es música cuando la envolvente espectral de señales de audio recibidas es estable, y que el tipo de audio es voz cuando la envolvente espectral de señales de audio recibidas es inestable.

La octava realización comprende un dispositivo (2, 5) servidor para seleccionar un procedimiento de ocultación de pérdida de paquetes, en donde el dispositivo servidor comprende un procesador (50, 60) y una memoria (54, 64) que almacena instrucciones (56, 66) que, cuando son ejecutadas por el procesador, hacen que el dispositivo (2, 5) servidor: detecte un tipo de audio de una trama de audio recibida; determine un procedimiento de ocultación de pérdida de paquetes que se base en el tipo de audio.

La novena realización comprende el dispositivo (2, 5) servidor de acuerdo con la octava realización, en donde las instrucciones para detectar un tipo de audio comprenden instrucciones que, cuando son ejecutadas por el procesador, hacen que el dispositivo (2, 5) servidor determine una estabilidad de una envolvente espectral de señales de tramas de audio recibidas.

La décima realización comprende el dispositivo (2, 5) servidor de acuerdo con la novena realización, en donde las instrucciones para determinar una estabilidad de una envolvente espectral de señales de tramas de audio recibidas comprenden instrucciones que, cuando son ejecutadas por el procesador, hacen que el dispositivo (2, 5) servidor compare una envolvente espectral de señales de dos (o más) tramas de audio consecutivas recibidas correctamente.

La undécima realización comprende el dispositivo (2, 5) servidor de acuerdo con la novena o la décima realización, en donde las instrucciones para determinar una estabilidad de una envolvente espectral de señales recibidas de tramas de audio recibidas comprenden instrucciones que, cuando son ejecutadas por el procesador, hacen que el dispositivo (2, 5) servidor calcule una medida escalar relacionada con la envolvente espectral de señales recibidas de tramas de audio recibidas.

La duodécima realización comprende el dispositivo (2, 5) servidor de acuerdo con una cualquiera de las realizaciones novena, décima y undécima, en donde las instrucciones para determinar el procedimiento de ocultación de pérdida de paquetes comprenden adicionalmente instrucciones que, cuando son ejecutadas por el procesador, hacen que el dispositivo (2, 5) servidor determine una segunda medida de una trama de audio recibida, donde la segunda medida comprende un indicador seleccionado de entre el grupo consistente en una ganancia de predicción de tono, una inclinación de la envolvente espectral, un indicador de detector de actividad de voz, parámetros de potencia, medida de una tonalidad de la señal, medida de cuán armónica es la

5

10

15

20

25

30

35

40

señal, y medida de cuán compleja espectral me es la señal.

La decimotercera realización comprende el dispositivo (2, 5) servidor de acuerdo con una cualquiera de las realizaciones octava a duodécima, en donde las instrucciones para detectar un tipo de audio comprenden instrucciones que, cuando son ejecutadas por el procesador, hacen que el dispositivo (2, 5) servidor determine si el tipo de audio es música o bien voz.

La decimocuarta realización comprende el dispositivo (2, 5) servidor de acuerdo con la decimotercera realización cuando depende de la novena realización, en donde las instrucciones para detectar un tipo de audio comprenden instrucciones que, cuando son ejecutadas por el procesador, hacen que el dispositivo (2, 5) servidor determine que el tipo de audio es música cuando la envolvente espectral de señales de audio recibidas es estable, y determine que el tipo de audio es voz cuando la envolvente espectral de señales de audio recibidas es inestable.

La decimoquinta realización comprende el dispositivo (2) servidor de acuerdo con una cualquiera de las realizaciones octava a decimocuarta en donde el dispositivo servidor es un terminal (2) inalámbrico.

La decimosexta realización comprende el dispositivo (5) servidor de acuerdo con una cualquiera de las realizaciones octava a decimocuarta en donde el dispositivo (5) servidor es un nodo de transcodificación dispuesto para llevar a cabo la transcodificación de audio.

La decimoséptima realización comprende un programa (66, 91) de ordenador para seleccionar un procedimiento de ocultación de pérdida de paquetes, donde el programa de ordenador comprende código de programa de ordenador que, cuando es ejecutado en un dispositivo (2, 5) servidor hace que el dispositivo (2, 5) servidor: detecte un tipo de audio de una trama de audio recibida; y determine un procedimiento de ocultación de pérdida de paquetes que se base en el tipo de audio.

La decimoctava realización comprende un producto (64, 90) de programa de ordenador que comprende un programa de ordenador de acuerdo con la decimoséptima realización y un medio legible por ordenador en el cual está almacenado el programa de ordenador.

La invención se ha descrito principalmente en los párrafos anteriores haciendo referencia a un número reducido de realizaciones. Sin embargo, como se aprecia con facilidad por parte de una persona experta en la técnica, son igualmente posibles otras realizaciones en el seno del alcance de la invención distintas de las descritas anteriormente.

Claims

5

10

15

20

25

30

35

40

45

REIVINDICACIONES

1. - Un método para seleccionar un procedimiento de ocultación de pérdida de paquetes, en donde el método se lleva a cabo en un decodificador de audio y comprende:

detectar (40) un tipo de audio de una trama de audio recibida; y

determinar (44) un procedimiento de ocultación de pérdida de paquetes que se base al menos parcialmente en el tipo de audio, caracterizado por que detectar (40) un tipo de audio comprende determinar (41) una estabilidad de una envolvente espectral de señales de tramas de audio recibidas.
2. - El método según la reivindicación 1, en donde determinar (41) una estabilidad de una envolvente espectral de señales de tramas de audio recibidas comprende comparar una envolvente espectral de señales de al menos dos tramas de audio consecutivas recibidas correctamente.
3. - El método según las reivindicaciones 1 o 2, en el que determinar (41) una estabilidad de una envolvente espectral de señales recibidas de tramas de audio recibidas comprende calcular una medida escalar relacionada con la envolvente espectral de señales recibidas de tramas de audio recibidas.
4. - El método según una cualquiera de las reivindicaciones precedentes, en el que detectar (40) un tipo de audio comprende determinar si el tipo de audio es música o es voz.
5. - El método según la reivindicación 4, en el que detectar (40) un tipo de audio comprende determinar que el tipo de audio es música cuando la envolvente espectral de señales de audio recibidas es estable, y determinar que el tipo de audio es voz cuando la envolvente espectral de señales de audio recibidas es inestable.
6. - El método según las reivindicaciones 4 o 5, en el que se selecciona un procedimiento de ocultación de pérdida de paquetes basado en evolución de fase senoidal, ECU de Fase, en el caso en el que la determinación del tipo de audio indique que el tipo de audio es música.
7. - El método según una cualquiera de las reivindicaciones precedentes, en el que determinar (44) un procedimiento de ocultación de pérdida de paquetes comprende adicionalmente determinar (42) una segunda medida de una trama de audio recibida, y comparar la segunda medida con un umbral determinado.
8. - Un dispositivo (2, 5) servidor para seleccionar un procedimiento de ocultación de pérdida de paquetes, en donde el dispositivo servidor comprende:

un procesador (50, 60); y

una memoria (54, 64) que almacena instrucciones (56, 66) que, cuando son ejecutadas por el procesador, hacen que el dispositivo (2, 5) servidor:

detecte un tipo de audio de una trama de audio recibida; y

determine un procedimiento de ocultación de pérdida de paquetes que se base al menos parcialmente en el tipo de audio, caracterizado por que detectar un tipo de audio comprende determinar una estabilidad de una envolvente espectral de señales de tramas de audio recibidas.
9. - El dispositivo (2, 5) servidor según la reivindicación 8, en el que las instrucciones para determinar una estabilidad de una envolvente espectral de señales de tramas de audio recibidas comprenden instrucciones que, cuando son ejecutadas por el procesador, hacen que el dispositivo (2, 5) servidor compare una envolvente espectral de señales de al menos dos tramas de audio consecutivas recibidas correctamente.
10. -El dispositivo (2, 5) servidor según las reivindicaciones 8 o 9, en el que las instrucciones para determinar una estabilidad de una envolvente espectral de señales recibidas de tramas de audio recibidas comprenden instrucciones que, cuando son ejecutadas por el procesador, hacen que el dispositivo (2, 5) servidor calcule una medida escalar relacionada con la envolvente espectral de señales recibidas de tramas de audio recibidas.
11. -El dispositivo (2, 5) servidor según una cualquiera de las reivindicaciones 8 a 10, en el que las instrucciones para detectar un tipo de audio comprenden instrucciones que, cuando son ejecutadas por el procesador, hacen que el dispositivo (2, 5) servidor determine si el tipo de audio es música o bien voz.
12. - El dispositivo (2) servidor según una cualquiera de las reivindicaciones 8 a 11, en el que el dispositivo servidor es un terminal (2) inalámbrico.
13. - El dispositivo (5) según una cualquiera de las reivindicaciones 8 a 11, en el que el dispositivo (5) servidor es un nodo de transcodificación dispuesto para llevar a cabo la transcodificación de audio.
14.-Un programa (66, 91) de ordenador para seleccionar un procedimiento de ocultación de pérdida de paquetes;

10

en donde el programa de ordenador comprende código de programa de ordenador que, cuando es ejecutado en un dispositivo (2, 5) servidor, hace que el dispositivo (2, 5) servidor:

detecte un tipo de audio de una trama de audio recibida; y

determine un procedimiento de ocultación de pérdida de paquetes que se base al menos parcialmente en el tipo 5 de audio, caracterizado por que detectar un tipo de audio comprende determinar una estabilidad de una

envolvente espectral de señales de tramas de audio recibidas.
15.-Un producto (64, 90) de programa de ordenador que comprende un programa de ordenador según la reivindicación 14 y un medio legible por ordenador en el cual está almacenado el programa de ordenador.