ES2839509T3 - Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación - Google Patents

Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación Download PDF

Info

Publication number
ES2839509T3
ES2839509T3 ES17168268T ES17168268T ES2839509T3 ES 2839509 T3 ES2839509 T3 ES 2839509T3 ES 17168268 T ES17168268 T ES 17168268T ES 17168268 T ES17168268 T ES 17168268T ES 2839509 T3 ES2839509 T3 ES 2839509T3
Authority
ES
Spain
Prior art keywords
error concealment
frame
parameter
encoded representation
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17168268T
Other languages
English (en)
Inventor
Jérémie Lecomte
Benjamin Schubert
Michael Schnabel
Martin Dietz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2839509T3 publication Critical patent/ES2839509T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Codificador (1) para codificar contenido de audio (2) usando al menos un esquema de codificación TCX, en donde el codificador (1) está configurado para proporcionar una representación codificada primaria (4) de una trama actual y una representación codificada (8) de al menos un parámetro de ocultación de error (6) para proporcionar una ocultación de error guiada del lado del decodificador de la trama actual, en donde la representación codificada (8) del al menos un parámetro de ocultación de error (6) se transmite en banda como parte de la carga códec, en donde el codificador (1) está configurado para combinar la representación codificada (8b) del al menos un parámetro de ocultación de error (6) de la trama actual con una representación codificada primaria (4c) de una trama futura en un paquete de transporte (9) de manera que la representación codificada (8b) del al menos un parámetro de ocultación de error (6) de la trama actual se envíe con un retraso de tiempo relacionado con la representación codificada primaria (4b) de la trama actual, en donde el codificador (1) está configurado para seleccionar el al menos un parámetro de ocultación de error (6) basándose en uno o más parámetros que representan una característica de señal del contenido de audio (2) contenido en la trama actual, en donde el codificador (1) está configurado para elegir de manera selectiva entre al menos dos modos para proporcionar una representación codificada (8) del al menos un parámetro de ocultación de error (6), en donde al menos uno de los modos para proporcionar una representación codificada (8) del al menos un parámetro de ocultación de error (6) es un modo de ocultación de dominio de tiempo de manera que la representación codificada (8) del al menos un parámetro de ocultación de error (6) comprende uno o más de un retraso TCX LTP y una información de clasificador, y en donde al menos uno de los modos para proporcionar una representación codificada (8) del al menos un parámetro de ocultación de error (6) es un modo de ocultación de dominio de frecuencia de manera que la representación codificada (8) del al menos un parámetro de ocultación de error (6) comprende uno o más de un parámetro LSF, una ganancia global TCX y una información de clasificador.

Description

DESCRIPCIÓN
Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación
La presente invención se refiere a un códec de audio, que utiliza un codificador y un decodificador, en el que las tramas de audio que están defectuosas, por ejemplo perdidas, dañadas o demoradas, son al menos parcialmente reconstruidas utilizando un mecanismo de ocultación de error. La presente invención mejora mecanismos de ocultación de error convencionales proporcionando parámetros de ayuda de ocultación de error seleccionados dentro del flujo de bits, cuyos parámetros de ayuda de ocultación de error potencian la ocultación del lado del decodificador.
Antecedentes de la invención
En sistemas VoIP, los paquetes llegan con diferentes latencias o incluso en orden cronológico intercambiado en el receptor. Como se espera que cada paquete en un punto determinado, periódico de tiempo decodifique en el decodificador de voz / audio, se necesita una así llamada memoria intermedia de fluctuación para eliminar la fluctuación de tiempo y restaurar el orden correcto entre los paquetes, si es posible.
La disponibilidad de una memoria intermedia de fluctuación permite el uso de codificación sensible al canal, donde una copia redundante parcial de una trama actual es codificada en la parte superior de una copia primaria de futura trama dentro del codificador. Si la trama actual se pierde o llega demasiado tarde en el receptor, su copia redundante parcial, que llega dentro de una trama posterior, puede utilizarse para sintetizar la trama perdida. El retraso (o número de tramas) entre una trama primaria y su copia redundante parcial, el llamado desplazamiento FEC, así como la decisión, si una copia redundante parcial de un marco en particular necesita ser transmitida en absoluto, se puede controlar de forma dinámica en el codificador, dependiendo de la demora del sistema disponible actual y la tasa de error de trama (FER), es decir las condiciones actuales del canal.
Aunque esta técnica requiere que el tamaño total de la trama primaria sea reducido para mantener la tasa de los bits constante, esto permite mejores metodologías en comparación con las metodologías basadas en redundancia/no sensible al canal en FER altas y medias.
Las redes tal como Internet se utilizan para la comunicación VoIP tal como conferencia, además de enviar datos. Por consiguiente, múltiples voces o música está codificada en datos digitales, los datos están organizados en paquetes, y los paquetes se transmiten al receptor a través de una red. VoIP requiere que este proceso suceda en tiempo real.
Una desventaja de protocolos que permiten el uso en tiempo real es que son poco fiables, en cuanto a que permiten que los paquetes se pierdan, sin recuperarlos. Cuando eso sucede, los segmentos de audio o voz que llevaban no son reconstruidos, y el receptor oye lagunas molestas en la voz o música. Estas lagunas se perciben como disminución de la calidad de servicio.
Con el fin de ocultar el hecho de que un paquete se ha perdido, se han ideado esquemas de redundancia. Los paquetes redundantes son codificados y transmitidos, los que repiten los aspectos de los datos originales. Si un paquete se pierde, sus datos son recuperados y / o reconstruidos a partir de su paquete redundante correspondiente, que con suerte no está perdido. Una memoria intermedia de fluctuación en el extremo receptor recoge los paquetes redundantes y primarios y los alimenta en el decodificador que los despliega.
El primer esquema de corrección de errores específicos de los medios definido para RTP era de codificación de redundancia de audio, especificado en RFC 2198 [1]. Este fue diseñado para teleconferencias de voz. Cada paquete contiene una trama original de datos de audio y una copia redundante de una trama precedente, en un formato más fuertemente comprimido.
El tráfico basado en paquetes puede estar sujeto a altas proporciones de pérdida de paquetes, fluctuación y reordenamiento. La corrección de errores en avance (FEC) es una técnica para abordar el problema de la pérdida de paquetes. Generalmente, FEC implica la transmisión de información redundante junto con la voz codificada. El decodificador intenta utilizar la información redundante para reconstruir paquetes perdidos. Las técnicas FEC independientes de medios añaden información redundante en base a los bits en el flujo de audio (independiente del conocimiento de mayor nivel de las características del flujo de voz). Por otro lado, las técnicas FEC dependientes de los medios añaden información redundante en base a las características del flujo de voz.
La patente US 6.757.654 [2] concedida describe una técnica FEC mejorada para codificar datos de voz. El documento US 6.757.654 da a conocer:
"[Esta técnica consiste en] un módulo de codificador codifica por método primario una señal de voz de entrada utilizando un modelo de síntesis primaria para producir datos codificados por método primario, y codifica por método redundante la señal de voz de entrada utilizando un modelo de síntesis redundante para producir datos codificados redundantes. Una empaquetadora combina los datos codificados primarios y los datos codificados redundantes en una serie de paquetes y transmite los paquetes a través de una red basada en paquetes, tal como una red de protocolo de Internet (IP). Un módulo de decodificación decodifica por método primario los paquetes utilizando el modelo de síntesis primaria, y decodifica por método redundante los paquetes utilizando el modelo de síntesis redundante. La técnica proporciona interacción entre el modelo de síntesis de primaria y el modelo de síntesis redundante durante y después de la decodificación para mejorar la calidad de la señal de voz de salida sintetizada. Esta "interacción", por ejemplo, puede tomar la forma de estados de actualización en un modelo de utiliza el otro modelo.
Además, la presente técnica aprovecha el acoplamiento escalonado FEC de tramas primarias y redundantes (es decir, el acoplamiento de los datos primarios para la trama n con datos redundantes para la trama n-1) para proporcionar el procesamiento de preanálisis en el módulo codificador y módulo decodificador. El procesamiento de preanálisis complementa la información disponible con respecto a la señal de voz, y por lo tanto mejora la calidad de la voz de salida sintetizada.
La cooperación interactiva de ambos modelos para codificar señales de voz amplía enormemente el uso de la codificación redundante hasta ahora contemplada por Sistemas convencionales".
El documento de conferencia [3] presenta un esquema de ajuste de memoria intermedia de despliegue conjunto y corrección de errores en avance (FEC) para telefonía por Internet, que incorpora el impacto de retardo de extremo a extremo en la calidad de audio percibida. El documento de conferencia [3] representa la calidad de audio percibida como una función del retardo de extremo a extremo y la distorsión de la señal de voz. Se ha desarrollado un algoritmo de control de retardo de despliegue/error/tasa conjunta que optimiza esta medida de calidad. Como se ha dicho en [3], FEC específica de medios es utilizada por la mayoría de las herramientas de conferencias de audio. El principio de FEC que procesa señales es transmitir cada segmento de audio, codificado con diferentes codificadores de calidad, en varios paquetes. Cuando se pierde un paquete, otro paquete que contiene el mismo segmento (tal vez codificado de forma diferente) puede ser capaz de cubrir la pérdida.
El documento 3GPP TS 26.445 y TS 26.447 describen el esquema de ocultación de error para el códec EVS Servicios de Voz Potenciada.
Todo el estado de la técnica se basa en una redundancia, lo que implica el envío de una versión de tasa de bits realmente baja de la trama actual con una trama posterior. Aunque la codificación de audio redundante puede proporcionar la reparación exacta (si la copia redundante es idéntica a la primaria) es más probable que se utilice una menor tasa de bits y, por tanto, se lograre una calidad inferior. En el contexto de la codificación de audio y voz anticipada la tasa de datos de audio se vuelve grande para cada trama y la transmisión de una versión de tasa de bits realmente baja de la misma conduce a una calidad relativamente baja.
De ese modo, se desea mejorar los mecanismos de ocultación de error existentes.
Sumario de la invención
Las realizaciones de la presente invención generan una solución mejorada que proporciona un codificador que tiene al menos las características de la reivindicación independiente 1, un decodificador que tiene al menos las características de la reivindicación independiente 5, un sistema de acuerdo a la reivindicación 7, un método para codificar que comprende al menos las características de la reivindicación independiente 8, un método para decodificar que comprende al menos las características de la reivindicación independiente 10, y un programa informático de acuerdo a la reivindicación 11.
Se propone proporcionar un codificador para codificar contenido similar a voz y/o contenido de audio general, en donde el codificador está configurado para incorporar, al menos en algunas tramas, parámetros en un flujo de bits, cuyos parámetros potencian una ocultación en caso de que una trama original se pierda, dañe o demore. Aunque pueden utilizarse mecanismos de ocultación estándar para una trama perdida, los parámetros que están incorporados en las tramas se utilizarán para potenciar esta ocultación. Por consiguiente, la presente invención propone no tener una copia parcial que sea sólo una versión de tasa de bits baja de la primaria, sino transmitir algunos parámetros seleccionados solamente que potenciarán una ocultación. Por ello el decodificador puede funcionar diferente de los decodificadores como se propone en el estado de la técnica.
Se descubrió que la provisión de algunos parámetros seleccionados que potencian la ocultación de error (por ejemplo que definen características de una trama perdida que de otra manera necesitaría estimarse en base a una trama previa que precede una trama defectuosa que ha estado perdida, dañada o demorada) trae consigo una buena ocultación de error (de un trama defectuosa), manteniendo una necesaria baja tasa de bits.
En otras palabras, la transmisión de los parámetros que potencian la ocultación hace posible reconstruir una trama defectuosa en base a la información acerca de tramas decodificadas previamente, en donde la mayoría de la información de la trama oculta se obtiene de una o más tramas que preceden (o siguen) la trama defectuosa, pero en donde una o más de las características más relevantes de la trama defectuosa (o uno o más de los parámetros más importantes de la ocultación de error), que normalmente necesitan ser derivadas de las tramas codificadas correctamente precedentes o siguientes, están representadas de una manera precisa comparable por los parámetros que potencian la ocultación.
Redactado todavía en forma diferente, los parámetros incorporados para potenciar la ocultación de error son preferentemente insuficientes para una reconstrucción de una trama defectuosa ya que no contienen todos los tipos de información necesarios, sino que apoyan una ocultación de error en que la mayoría de los tipos de información más importantes son proporcionados por los parámetros mientras que otros tipos de información para la ocultación deben obtenerse de tramas previamente decodificadas en el lado del decodificador.
Por consiguiente, se logra una buena solución entre la calidad de ocultación de error tasa de bits.
El codificador puede estar configurado para generar una trama primaria y una así denominada “copia parcial”, en donde la “copia parcial” no es una versión de tasa de bits baja de la trama primaria sino en donde la “copia parcial” contiene los parámetros (por ejemplo algunos de los parámetros más relevantes requeridos para ocultar si la trama en consideración es defectuosa). En otras palabras, la “copia parcial” como se utiliza en la presente memoria no es una representación de tasa de bits baja del contenido de audio (original) que está incorporado como información redundante al flujo de bits, y que puede utilizarse más tarde para sintetizar completamente la señal de salida. En vez, el concepto inventivo es incorporar algunos datos de parámetros, a saber los parámetros mencionados más arriba que potencian la ocultación en el lado del decodificador, si dichos datos de parámetros están disponibles. Al utilizar esta información, el decodificador tiene que estar en un modo de ocultación. Por consiguiente, el decodificador decodificará la “copia parcial” de una trama defectuosa, es decir perdida, dañada o demorada (posiblemente disponible debido a una demora de la memoria intermedia de fluctuación) y utilizar dichos parámetros decodificados para ayudar en la rutina de ocultación en el lado del decodificador. De ese modo, el tamaño que puede ser necesario para codificar una copia parcial, que comprende solamente uno o más parámetros, puede reducirse al compararse con el tamaño necesario para codificar una copia redundante por codificación redundante del contenido de una trama primaria completa (por ejemplo en una tasa de bits reducida), mientras que también sería generalmente posible utilizar la misma tasa de bits o tasa de bits superior para codificar una copia parcial. Sin embargo, el concepto inventivo, es decir potenciar una ocultación mediante parámetros de ayuda de ocultación de error, proporciona una mejora calidad en comparación con la decodificación convencional de una versión de tasa de bits baja de la respectiva trama primaria.
El codificador puede estar configurado para demorar los parámetros por algún tiempo y para incorporar los parámetros en un paquete que es codificado y enviado más tarde en el tiempo. En otras palabras, el codificador primero envía la trama primaria en un primer paquete. Con un cierto retraso de tiempo, el codificador entonces envía la "copia parcial" en otro paquete que se envía más tarde que el primer paquete. Por consiguiente, el codificador todavía cuantifica los parámetros pero los agrega al flujo de bits en un paquete posterior. De ese modo, aun cuando una trama primaria no está disponible o está defectuosa, por ejemplo perdida, dañada o demorada, su contenido aún puede ser reconstruido correctamente (o al menos puede aproximarse sin distorsiones graves) en el lado del decodificador por medio de una ocultación con la ayuda de los parámetros que han sido enviados más tarde y que por lo tanto pueden estar disponibles en el decodificador.
El codificador puede estar configurado para reducir una tasa de bits de trama primaria, en donde la reducción de la tasa de bits de trama primaria y un mecanismo de codificación de trama de copia parcial juntos determinan una asignación de tasa de bits entre las tramas primarias y tramas de copia parcial que deben ser incluidas dentro de una tasa de bits total constante. De ese modo, el codificador proporciona una tasa de bits total constante al enviar tramas primarias y tramas de copia parcial, mientras que al mismo tiempo proporciona buena calidad de audio con bajo impacto perceptual.
El codificador puede estar configurado para generar una trama primaria de uno del tipo de contenido similar a voz y el tipo de contenido de audio general en combinación con una copia parcial del otro del tipo de contenido similar a voz y el tipo de contenido de audio general. De ese modo, el codificador es versátil ya que puede manejar diferentes tipos de contenido de audio en forma separada o en combinación entre sí. Esto es particularmente útil ya que el codificador de ese modo se adapta para combinar, por ejemplo, una trama primaria ACELP con una copia redundante parcial TCX, o viceversa.
El codificador puede ser parte de un códec que utiliza un esquema de codificación TCX. De acuerdo a esta realización, el codificador preferentemente utiliza codificación TCX para codificar en forma eficiente el contenido de audio general, música, ruido de fondo, o similar. El codificador puede determinar con fiabilidad y transmitir parámetros específicos TCX que pueden utilizarse para la ocultación TCX en el lado del decodificador cuando la trama parcialmente redundante puede, por ejemplo, no incluir ningún valor espectral codificado y por ello puede por sí misma no ser suficiente para reconstruir la trama defectuosa.
El codificador puede estar configurado para detectar si la trama contiene una señal de audio ruidosa, o similar a un ruido o si la trama contiene un ruido de fondo con líneas espectrales nítidas que son estacionarias durante un período de tiempo y para incorporar, en base a la detección, los parámetros en una trama TCX. De ese modo, ya se puede tomar una decisión sobre la característica de señal actual en el lado del codificador de manera tal que los parámetros específicos para aquellas señales sean codificados y enviados al decodificador para potenciarla ocultación.
Los parámetros pueden comprender parámetros ISF o LSF, en particular parámetros ISF o LSF predictivamente codificados. La representación de parámetros ISF y LSF se utiliza para la cuantificación y codificación de parámetros LPC. En un esquema de codificación TCX se utiliza LPC para representar el umbral de enmascaramiento. Este es un parámetro importante y muy útil para tener disponible correctamente del lado del decodificador en caso de una pérdida de tramas. Sobre todo si las ISF/LSF se codifican predictivamente, la calidad de ocultación mejorará teniendo esta información disponible durante la ocultación, porque los estados de predicción del lado del decodificador permanecerán correctos, es decir en sincronización con el codificador, y esto dará lugar a una rápida recuperación de una trama primaria no disponible.
Los parámetros pueden comprender parámetros de clasificación de señal. La clasificación de señal se utiliza para señalizar los tipos de contenido: SIN VOZ, TRANSICIÓN SIN VOZ, TRANSICIÓN CON VOZ, CON VOZ Y DE INICIO. Típicamente este tipo de clasificación se utiliza en la codificación de voz e indica si los componentes tonales/predictivos están presentes en la señal o si los componentes tonales/predictivos están cambiando. Tener esta información disponible del lado del decodificador durante la ocultación puede ayudar a determinar la previsibilidad de la señal y de ese modo puede ayudar a ajustar la velocidad de aumento de amplitud, la velocidad de interpolación de los parámetros LPC.
Los parámetros pueden comprender una ganancia global TCX o un nivel global TCX. La ganancia global puede transmitirse para fijar fácilmente la energía de la trama oculta en el nivel correcto (determinado por codificador) en caso que esté disponible.
Los parámetros pueden comprender al menos uno de una información de ventana y una posición de pico espectral. Tener esta información ya disponible en el lado del codificador es útil para transmitir en forma selectiva aquellos parámetros al decodificador para su ocultación.
El codificador puede ser parte de un códec de conmutación, en donde el códec de conmutación consiste en al menos dos esquemas de codificación principales, en donde un primer esquema de codificación principal utiliza ACELP y un segundo esquema de codificación principal utiliza TCX. Por ejemplo, el codificador utiliza ACELP para codificar contenido de audio similar a voz y TCX para codificar contenido de audio general. De ese modo, la utilización de varios esquemas de codificación para codificar contenido de audio hace que el codificador sea versátil. Además, el codificador proporciona buenos resultados utilizando un esquema de codificación específico de la señal para cada señal.
El codificador puede estar configurado para no colocar una “copia parcial” en la parte superior de una trama TCX después de una conmutación cuando existe una primera trama TCX después de una trama ACELP. Por ejemplo, la provisión de parámetros que potencian una ocultación puede omitirse en forma selectiva en este caso. Si la primera trama TCX se pierde, no es posible ocultar en el modo TCX. De ese modo, en vez se utilizará la ocultación ACELP. En este caso, las copias parciales TCX solas no serán suficientes para sintetizar completamente la trama, el decodificador necesita estar en modo de ocultación y puede estar soportado por copias parciales. De ese modo, como la ocultación necesita una trama precedente para extrapolar el contenido de la señal, es preferente en este caso utilizar ocultación ACELP (ya que la trama previa era ACELP) que haría una copia parcial TCX menos útil. Como el codificador está configurado para detectar una conmutación y para proporcionar selectivamente, es decir dependiendo del evento de conmutación, un cierto tipo de copia parcial, la ocultación en el lado del decodificador proporcionará un buen resultado.
El codificador puede estar configurado para analizar la señal antes de la codificación y para desactivar el uso de la copia parcial (por ejemplo no proporcionar cualquier parámetro) o para proporcionar una copia parcial reducida (por ejemplo proporcionar menos parámetros que en un caso normal) en base a la señal analizada. Por ejemplo, si una señal pudiera ocultarse satisfactoriamente bien sin la ayuda de información adicional de copia parcial dentro del decodificador, pero el desempeño del canal limpio sufre debido a la trama primaria reducida, el uso de la copia parcial puede desactivarse o una copia parcial específicamente reducida puede utilizarse dentro del codificador. De ese modo, el codificador está adaptado para proporcionar selectivamente una copia parcial, es decir para proporcionar una copia parcial solamente si los parámetros de ocultación son necesarios en el lado del decodificador para reconstruir el contenido de audio de una trama primaria no disponible. Además, puede optimizarse el uso de ancho de banda de la transmisión de la trama primaria.
El codificador puede estar configurado para elegir entre múltiples modos de copia parcial que utilizan diferentes cantidades de información y/o diferentes conjuntos de parámetros, en donde la selección del modo de copia parcial se basa en los parámetros (por ejemplo parámetros que describen la señal que debe codificarse). De ese modo, el codificador puede elegir selectivamente un cierto modo de copia parcial para proporcionar una copia parcial que se adapte bien para ocultar una cierta trama primaria no disponible en el lado del decodificador. La selección entre múltiples modos de copia parcial es en base a varios parámetros, tal como las características de la señal de trama actual y/o previa, incluyendo estabilidad de tono, tono LTP, ganancia LTP, la tendencia temporal de la señal, el modo de las últimas dos tramas y una clase de trama.
Al menos uno de los múltiples modos de copia parcial puede ser un modo de ocultación de dominio de frecuencia. Este modo puede ser elegido fácilmente por el codificador para proporcionar una copia parcial que comprende ciertos parámetros que se adapten bien para proporcionar, en el lado del decodificador, un buen resultado de ocultación de una trama primaria no disponible que contiene una señal de dominio de frecuencia.
Al menos dos de los múltiples modos de copia parcial pueden ser diferentes modos de ocultación de dominio de tiempo. Por ejemplo, un primer modo de copia parcial podría seleccionarse si la respectiva señal de dominio de tiempo comprende al menos a cierta característica. De lo contrario, si la señal de dominio de tiempo no comprende esta determinada característica, o si la señal de dominio de tiempo comprende una característica de señal diferente, se elige el segundo modo de copia parcial. De ese modo, el codificador proporciona una selección específica de señal de los parámetros contenidos en una copia parcial.
Uno de los al menos dos modos de ocultación de dominio de tiempo puede seleccionarse si una trama contiene un transitorio o si una ganancia global de la trama es inferior (por ejemplo al menos en una cantidad predefinida) que una ganancia global de una trama previa. De ese modo, el codificador elige selectivamente un modo para proporcionar parámetros que se utilizan, en el lado del decodificador, para potenciar una ocultación de una trama primaria defectuosa o no disponible, incluso si estas características de señal de trama primaria defectuosa o no disponible se desvían en cierto grado de la característica de señal de la trama previa.
El codificador puede estar configurado para enviar (como un parámetro para potenciar una ocultación) un retardo LTP si los datos LTP están presentes. De ese modo, el codificador selectivamente proporciona parámetros utilizados, en el lado del decodificador, para la decodificación de Predicción de Largo Plazo.
El codificador puede estar configurado para enviar (como parámetro para potenciar una ocultación) una información de clasificador. La clasificación de señal se utiliza para señalizar los tipos de contenido: SIN VOZ, TRANSICIÓN SIN VOZ, TRANSICIÓN CON VOZ, CON VOZ Y DE INICIO. Típicamente, este tipo de clasificación se utiliza en la codificación de voz y en la indicación si los componentes tonales / predictivos están presentes en la señal o si los componentes tonales / predictivos están cambiando. Tener esta información disponible en el lado del decodificador (enviada por el codificador) durante la ocultación puede ayudar a determinar la previsibilidad de la señal y de ese modo puede ajustar la velocidad de aumento de amplitud y / o velocidad de interpolación de los parámetros LPC y puede controlar el posible uso de filtrado de paso alto o bajo de señales de excitación con voz o sin voz (por ejemplo para la eliminación de ruido).
El codificador puede estar configurado para enviar (como un parámetro para potenciar una ocultación) al menos uno de parámetros LPC, ganancia LTP, Nivel de Ruido y Posición de Pulso. De ese modo, el codificador transmite ciertos parámetros que se adaptan bien para ocultar, en el lado del decodificador, el contenido de una trama primaria defectuosa o no disponible (es decir para potenciar la ocultación).
Otro ejemplo que no forma parte de la invención proporciona un decodificador para decodificar contenido similar a voz y/o contenido de audio general, en donde el decodificador está configurado para utilizar parámetros que son enviados más tarde en el tiempo para potenciar una ocultación en caso de que una trama original se pierda, dañe o demore. Por consiguiente, en el receptor (o decodificador), los parámetros que son enviados más tarde en el tiempo pueden utilizarse para potenciar una ocultación de error en el lado del decodificador y de ese modo recrear una señal (por ejemplo una señal oculta que evita distorsiones graves) si la trama original está defectuosa, por ejemplo perdida, dañada o demorada. De ese modo, el concepto inventivo puede reconstruir con fiabilidad el contenido de audio no disponible utilizando parámetros que potencian una ocultación mientras se utiliza en forma eficiente un ancho de banda dado.
Por ejemplo, los parámetros que son enviados para potenciar la ocultación (y que son evaluados) por el decodificador de audio pueden comprender uno o más de los tipos de información más importantes que son requeridos en una ocultación de una trama defectuosa por una unidad de ocultación del decodificador. Sin embargo, los parámetros típicamente se eligen de manera tal que los parámetros solos son insuficientes para realizar una ocultación de error completa. Más bien, para realizar realmente la ocultación de error, la unidad de ocultación del decodificador normalmente obtiene tipos de información adicional, por ejemplo, en base a tramas previamente (o posteriormente) decodificadas. De ese modo, los parámetros que son enviados más tarde en el tiempo simplemente potencian la ocultación, pero no constituyen una información de ocultación completa.
Por consiguiente, el uso de los parámetros que son enviados más tarde en el tiempo permite tener una información precisa acerca de los parámetros de ocultación más importantes disponibles en el decodificador de audio con solo pequeño esfuerzo de tasa de bits, mientras que la información adicional requerida para proporcionar una trama oculta es generada por el mismo audio decodificador, por ejemplo en base a una o más tramas previamente (o posteriormente) decodificadas que utilizan extrapolación o interpolación.
El decodificador puede estar configurado para recibir una trama primaria y una “copia parcial”, en donde la “copia parcial” no es una versión de tasa de bits baja de la trama primaria sino en donde la “copia parcial” contiene los parámetros para potenciar una ocultación. Como la “copia parcial” contiene estos parámetros, el ancho de banda utilizado para la transmisión de estos parámetros es aún inferior en comparación con el ancho de banda utilizado para transmitir una versión de tasa de bits baja de la trama primaria.
Los parámetros están contenidos en una copia parcial y el decodificador está configurado para recibir desde un memoria intermedia de fluctuación la copia parcial de una trama actualmente perdida si está disponible. Una memoria intermedia de fluctuación además mejora el concepto inventivo ya que es capaz de proporcionar un retraso de fluctuación, en donde un cierto número de tramas puede ser almacenado temporalmente. De ese modo, las tramas que llegan al decodificador en un orden cronológico erróneo (es decir una primera trama que ha sido enviada en el lado del codificador previo a una segunda trama llega más tarde en el lado del decodificador que la segunda trama, aunque la primera trama se espera que llegue antes en el lado del decodificador que la segunda trama) pueden ser almacenadas temporalmente y proporcionadas en el orden cronológico correcto. Esto es particularmente útil si una trama se demora.
El decodificador puede estar configurado para recibir una trama primaria de uno del tipo de contenido similar a voz y el tipo de contenido de audio general en combinación con una copia parcial del otro del tipo de contenido similar a voz y el tipo de contenido de audio general. De ese modo, el decodificador es versátil ya que puede manipular diferentes tipos de contenido de audio en forma separada o en combinación entre sí. Esto es particularmente útil ya que el decodificador de ese modo está adaptado para extraer, por ejemplo, una copia redundante parcial TCX que ha sido transportada en la parte superior de una trama primaria ACELP, o viceversa.
El decodificador puede ser parte de un códec que utiliza un esquema de códec TCX. De acuerdo a esta realización, el decodificador preferentemente utiliza decodificación TCX para decodificar en forma eficiente contenido de audio general, música, ruido de fondo, o similar. El decodificador puede extraer con fiabilidad parámetros específicos TCX (para potenciar una ocultación) de una copia parcial para potenciar una ocultación TCX.
Los parámetros pueden comprender parámetros ISF o LSF, en particular parámetros ISF o LSF predictivamente codificados. La representación de parámetros ISF y LSF se utiliza para la cuantificación y codificación de parámetros LPC. En un esquema de codificación TCX se utiliza LPC para representar el umbral de enmascaramiento. Este es un parámetro importante y muy útil para tener disponible correctamente del lado del decodificador en caso de una pérdida de tramas. Sobre todo si las ISF/LSF se codifican predictivamente, la calidad de ocultación mejorará teniendo esta información disponible durante la ocultación, porque los estados de predicción del lado del decodificador permanecerán correctos, es decir en sincronización con el codificador, y esto dará lugar a una rápida recuperación de una trama primaria no disponible.
Los parámetros pueden comprender parámetros de clasificación de señal. La clasificación de señal se utiliza para señalizar los tipos de contenido: SIN VOZ, TRANSICIÓN SIN VOZ, TRANSICIÓN CON VOZ, CON VOZ Y DE INICIO. Típicamente este tipo de clasificación se utiliza en la codificación de voz e indica si los componentes tonales/predictivos están presentes en la señal o si los componentes tonales/predictivos están cambiando. Tener esta información disponible del lado del decodificador durante la ocultación puede ayudar a determinar la previsibilidad de la señal y de ese modo puede ayudar a ajustar la velocidad de aumento de amplitud, la velocidad de interpolación de los parámetros LPC.
Los parámetros pueden comprender una ganancia global TCX o un nivel global TCX. La ganancia global puede transmitirse para fijar fácilmente la energía de la trama oculta en el nivel correcto (determinado por codificador) en caso de que esté disponible.
Los parámetros pueden comprender al menos uno de una información de ventana y una posición de pico espectral. Tener esta información disponible en el lado del decodificador es útil para potenciar selectivamente la ocultación.
El decodificador puede ser parte de un códec de conmutación, en donde el códec de conmutación consiste en al menos dos esquemas de codificación principales, en donde un primer esquema de codificación principal utiliza ACELP y un segundo esquema de codificación principal utiliza TCX. Por ejemplo, el decodificador utiliza un esquema de decodificación ACELP para decodificar contenido de audio similar a voz y un esquema de decodificación TCX para decodificar contenido de audio general. De ese modo, la utilización de varios esquemas de decodificación para decodificar diferente contenido de audio hace que el decodificador sea versátil.
El decodificador puede estar configurado para utilizar, después de una conmutación, ocultación ACELP en el caso que una primera trama TCX después de que una trama ACELP no esté disponible para el decodificador. Si la primera trama t Cx está defectuosa, es decir perdida, dañada o demorada, no es posible ocultar en el modo TCX. De ese modo, en vez se utilizará la ocultación ACELP. En este caso, las copias parciales TCX solas no serán suficientes para sintetizar completamente la trama, el decodificador necesita estar en modo de ocultación y puede estar soportado por copias parciales. Como la ocultación necesita una trama precedente para extrapolar el contenido de señal, es preferente en este caso utilizar ocultación ACELP (ya que la trama previa era ACELP) lo que haría menos útil a una copia parcial TCX.
El decodificador puede estar configurado para elegir entre múltiples modos de copia parcial u ocultación modos que utilizan diferentes cantidades de información y/o diferentes conjuntos de parámetros entre una pluralidad de varios modos disponibles en el decodificador. En una realización, el decodificador elige el modo de ocultación si el decodificador no obtiene el respectivo modo, es decir si no puede determinar o de otra manera recuperar el mismo, de la copia parcial. De otro modo, el modo de ocultación está dictado por la copia parcial disponible, en donde el codificador es el que toma la decisión entonces. Por consiguiente, el decodificador utiliza las diferentes cantidades de información respectivamente codificadas y/o diferentes conjuntos de parámetros directamente del flujo de bits enviado en el lado del codificador. De ese modo, el decodificador puede aplicar un modo de ocultación bien adaptado en base al modo de copia parcial, en donde hay más información (es decir parámetros) de soporte (potenciación) en un modo y menos en otro modo. En otras palabras, en el modo CA, el codificador decide sobre el modo de ocultación apropiado y prepara la copia parcial por consiguiente. Si una copia parcial está disponible para el decodificador y debe utilizarse para potenciar la ocultación, el decodificador debe adherirse a la decisión tomada por el codificador, de otro modo la información dentro de la copia parcial no puede utilizarse adecuadamente. El decodificador solamente decide por sí mismo sobre el modo de ocultación, si ninguna copia parcial está disponible o si la copia parcial no es y/o no debe ser utilizada por otros motivos.
Al menos uno de los múltiples modos de copia parcial puede ser un modo de ocultación de dominio de frecuencia. Este modo puede ser elegido selectivamente por el decodificador para utilizar una copia parcial que comprende ciertos parámetros que están bien adaptados para proporcionar un buen resultado de ocultación de una trama primaria no disponible que contiene una señal de dominio de frecuencia.
Al menos dos de los múltiples modos de copia parcial pueden ser diferentes modos de ocultación de dominio de tiempo. Por ejemplo, una primera copia parcial contiene parámetros de una respectiva señal de dominio de tiempo que comprende al menos una cierta característica, mientras que una segunda copia parcial contiene parámetros de una respectiva señal de dominio de tiempo que comprende una característica de señal diferente. Uno de estos dos modos de dominio de tiempo puede ser elegido selectivamente por el decodificador para utilizar una copia parcial que comprende ciertos parámetros que están bien adaptados para proporcionar un buen resultado de ocultación de una trama primaria no disponible que contiene una señal de dominio de tiempo.
El decodificador puede estar configurado para recibir un retardo LTP si datos LTP están presentes en la correspondiente trama primaria. De ese modo, el decodificador está habilitado para reconstruir el contenido de una trama primaria no disponible por decodificación de Predicción de Largo Plazo utilizando los parámetros LTP que han sido recibidos en una copia parcial.
El decodificador puede estar configurado para recibir una información de clasificador. La clasificación de señal se utiliza para señalizar los tipos de contenido: SIN VOZ, TRANSICIÓN SIN VOZ, TRANSICIÓN CON VOZ, CON VOZ Y DE INICIO. Típicamente, este tipo de clasificación se utiliza en la codificación de voz y en la indicación si los componentes tonales / predictivos están presentes en la señal o si los componentes tonales / predictivos están cambiando. Tener esta información disponible en el lado del decodificador (enviada por el codificador) durante la ocultación puede ayudar a determinar la previsibilidad de la señal y de ese modo puede ayudar a ajustar la velocidad de aumento de amplitud, la velocidad de interpolación de los parámetros LPC y puede controlar el posible uso de filtrado de paso alto o bajo de señales de excitación con voz o sin voz (por ejemplo para la eliminación de ruido).
El decodificador puede estar configurado para recibir (como los parámetros para potenciar una ocultación) al menos uno de parámetros LPC, ganancia LTP, Nivel de Ruido y Posición de Pulso.
De ese modo, el decodificador está habilitado para reconstruir el contenido de una trama primaria no disponible utilizando al menos uno de estos parámetros que han sido recibidos en una copia parcial.
El decodificador puede estar configurado para disminuir una ganancia de tono y una ganancia de código con dos factores diferentes dependiendo de un modo de ocultación. Esto sirve para evitar tener una señal estacionaria larga siempre que la señal original era más transitoria.
Un primer factor para disminuir una ganancia de tono y una ganancia de código es 0,4 y un segundo factor es 0,7. Estos dos factores son particularmente eficientes para evitar tener una señal estacionaria larga siempre que la original era más transitoria.
El decodificador puede estar configurado para no tener en cuenta un tono decodificado de la copia parcial si la trama primaria previa está perdida, y en donde el decodificador está configurado para fijar, es decir ajustar, el tono en un tono previsto para la siguiente trama primaria perdida en vez de utilizar el tono transmitido. Por consiguiente, el tono decodificado de la copia parcial no se tendrá en cuenta su la trama previa está perdida, porque el tono enviado en el flujo de bits se computó en el lado del codificador en base a la verdad de fondo, pero si se pierde la trama previa, la síntesis de la síntesis oculta y perdida anteriormente podría ser muy diferente a la verdad de fondo del codificador. Así que es mejor, en general, no arriesgar confiar en la sincronización del codificador/decodificador en caso de pérdida de tramas múltiples y fijar el tono en el tono previsto para la siguiente trama perdida en lugar utilizar el tono transmitido.
Otro ejemplo que no forma parte de la invención genera un método para codificar contenido similar a voz y/o contenido de audio general, el método que comprende la etapa de incorporar, al menos en algunas tramas, parámetros en un flujo de bits, cuyos parámetros potencian una ocultación en caso de que una trama original se pierda, dañe o demore. Aunque los mecanismos de ocultación estándar pueden utilizarse para una trama defectuosa, es decir perdida, dañada o demorada, los parámetros que están incorporados en la tramas son utilizados por el método inventivo para potenciar esta ocultación (y los parámetros del flujo de bits pueden reemplazar los parámetros que son convencionalmente obtenidos en el lado del decodificador). Por consiguiente, la presente invención propone no tener una copia parcial que sea solo una versión de tasa de bits baja de la primaria, pero transmitir parámetros que potenciarán una ocultación (pero que típicamente no constituyen una información de ocultación de error completa). Por ello el decodificador puede estar modificado de alguna manera en comparación con el estado de la técnica.
Otro ejemplo que no forma parte de la invención genera un método para decodificar contenido similar a voz y/o contenido de audio general, donde el método comprende la etapa de utilizar parámetros que son enviados más tarde en el tiempo para potenciar una ocultación en caso de que una trama original se pierda, dañe o demore. Por consiguiente, en el receptor, los parámetros que son enviados más tarde en el tiempo pueden utilizarse para potenciar una ocultación de error en el lado del decodificador y de ese modo regenerar una señal si la trama original está defectuosa, es decir perdida, dañada o demorada. De ese modo, utilizando el método inventivo, el contenido de audio defectuoso, dañado o no disponible puede ser reconstruido con fiabilidad (al menos parcialmente) utilizando parámetros en vez de una trama codificada redundante completa.
Una primera realización de la realización de la invención genera un codificador para codificar contenido de audio, en donde el codificador está configurado para proporcionar una representación codificada primaria de una trama actual y una representación codificada de al menos un parámetro de ocultación de error para potenciar una ocultación de error del lado del decodificador de la trama actual, en donde el codificador está configurado para seleccionar al menos un parámetro de ocultación en base a (o dependiendo de) uno o más parámetros que representan una señal característica del contenido de audio contenido en la trama actual. Por ejemplo y por ello no restrictivos, los parámetros que representan una característica de señal pueden elegirse de al menos las características de señal de trama actual y previa, incluyendo la estabilidad de tono, tono LTP, ganancia LTP, la tendencia temporal de la señal, el modo de las últimas dos tramas y una clase de trama. En base a estos parámetros de característica de señal, el codificador selectivamente elige uno o más parámetros de ocultación que están bien adaptados para una ocultación de error en el lado del decodificador. Estos parámetros de ocultación de error son codificados en forma separada, es decir en forma separada de la representación codificada primaria de la señal que debe transmitirse. De ese modo, el decodificador puede reconstruir la señal a partir de estos parámetros de ocultación de error utilizando una ocultación de error, aún si la representación codificada primaria de esa señal se pierda, dañe o demore. Por consiguiente, al menos en algunas tramas (o paquetes) los parámetros de ocultación de error (también designados como parámetros de codificación redundantes) están incorporados en el flujo de bits y son transmitidos al lado del decodificador. De ese modo, no es necesario proporcionar una “copia parcial” de la señal completa, que habitualmente es codificada en una tasa de bits inferior y por ello puede comprender una calidad inferior. De ese modo, la presente invención proporciona un concepto mejorado para ocultar tramas defectuosas, por ejemplo perdidas, dañadas o demoradas por medio de parámetros de ocultación de error seleccionados que ya están seleccionados (por ejemplo en conformidad con características de señal) en el lado del codificador e incorporados en el flujo de bits. De ese modo, la invención se mantiene dentro de un ancho de banda dado preservando al mismo tiempo una buena calidad de la señal transmitida aún si una porción (por ejemplo una trama) de esta señal es reconstruida por ocultación en el lado del decodificador.
En una realización, la ocultación de error del lado del decodificador es una ocultación de error en base a extrapolación. Por consiguiente, la rutina de ocultación puede utilizar extrapolación para estimar o predecir las características de señal futura, que además puede ayudar y asistir en la ocultación de tramas primarias defectuosas.
En una realización, el codificador está configurado para combinar la representación codificada de al menos un parámetro de ocultación de error de la trama actual con una representación codificada primaria de una futura trama en un paquete de transporte de manera tal que la representación codificada de al menos un parámetro de ocultación de error de la trama actual sea enviada con un retraso de tiempo con respecto a la representación codificada primaria de la trama actual. En otras palabras, el codificador primero envía una trama primaria (es decir la representación codificada primaria de una trama) en un primer paquete.
Con un cierto retraso de tiempo, el codificador entonces envía la “copia parcial” (es decir la representación codificada de al menos un parámetro de ocultación de error) en otro paquete que es enviado más tarde que el primer paquete. Por consiguiente, el codificador todavía cuantifica los parámetros pero los agrega al flujo de bits en un paquete posterior. De ese modo, la invención es particularmente útil en redes basadas en paquetes, tal como Voz sobre IP (VoIP), Voz sobre LTE (VoLTE) o similar. Si bien la representación codificada primaria de una trama ya puede haber sido transmitida al lado del decodificador, sus correspondientes parámetros de ocultación de error serán enviados con uno de los siguientes paquetes de transporte. De ese modo si el paquete que contiene la representación codificada primaria se pierde, daña o demora, el paquete que contiene la ocultación de error parámetros puede, sin embargo, llegar en forma correcta en el lado del decodificador, ya que ha sido enviado más tarde en el tiempo. Además, mediante la combinación en un paquete estos parámetros de ocultación de error con una representación codificada primaria de otra trama, el ancho de banda puede utilizarse en forma eficiente.
En una realización, el codificador está configurado para elegir selectivamente entre al menos dos modos para proporcionar una representación codificada de parámetros de ocultación de error. De ese modo, el codificador es versátil ya que proporciona diferentes modos para manipular diferentes señales que pueden tener características de señal diferentes, en donde diferentes conjuntos de parámetros de ocultación de error puede proporcionarse en diferentes modos. Como estos dos modos son utilizados para proporcionar una representación codificada de al menos un parámetro de ocultación de error, estos al menos dos modos también son referidos como modos de copia parcial.
En una realización, la selección del codificador de un modo para proporcionar una representación codificada de al menos un parámetro de ocultación de error puede ser en base a uno o más parámetros que comprenden al menos uno de una clase de trama, un tono LTP, una ganancia LTP y un modo para proporcionar una representación codificada de al menos un parámetro de ocultación de error de una o más tramas precedentes. Estos parámetros están bien adaptados para decidir acerca de un modo para una ocultación de error en el lado del decodificador.
En una realización, al menos uno de los modos para proporcionar una representación codificada de al menos un parámetro de ocultación de error es un modo de ocultación de dominio de tiempo de manera tal que la representación codificada de al menos un parámetro de ocultación de error comprende uno o más de un retraso TCX LTP y una información de clasificador. Por ejemplo, un primer modo que es un modo de ocultación de dominio de tiempo podría seleccionarse si una señal de dominio de tiempo está presente comprendiendo al menos una cierta característica. De otra manera, si la señal de dominio de tiempo no comprende esta cierta característica, o si la señal de dominio de tiempo comprende una característica de señal diferente, se elige un segundo modo. De ese modo, el codificador proporciona una selección específica de la señal de los parámetros de ocultación de error.
En una realización, al menos uno de los modos para proporcionar una representación codificada de al menos un parámetro de ocultación de error puede ser un modo de ocultación de dominio de tiempo que se selecciona si el contenido de audio contenido en la trama actual contiene un transitorio o si la ganancia global del contenido de audio contenido en la trama actual es inferior que la ganancia global de la trama precedente. De ese modo, el codificador selectivamente elige un modo para proporcionar parámetros de ocultación de error que son utilizados, en el lado del decodificador, para ocultar una representación codificada primaria no disponible, aún si estas características de señal de trama primaria no disponible se desvían en cierto grado de la característica de señal de trama precedente.
En una realización, al menos uno de los modos para proporcionar una representación codificada de al menos un parámetro de ocultación de error es un modo de ocultación de dominio de frecuencia de manera tal que la representación codificada de al menos un parámetro de ocultación de error comprende uno o más de un parámetro LSF, una ganancia global TCX y una información de clasificador. Este modo puede ser elegido selectivamente por el codificador para proporcionar una representación codificada de al menos un parámetro de ocultación de error cuyo parámetro está bien adaptado para proporcionar, en el lado del decodificador, un buen resultado de ocultación de una representación codificada primaria no disponible que contiene una señal de dominio de frecuencia.
En una realización, el codificador usa al menos un esquema de codificación TCX. De acuerdo a esta realización, el codificador preferentemente utiliza codificación TCX para codificar en forma eficiente el contenido de audio general, música, ruido de fondo, o similar. De ese modo, el codificador puede determinar con fiabilidad y transmitir parámetros específicos TCX que pueden utilizarse para ocultación TCX en el lado del decodificador. Una realización genera un decodificador para decodificar contenido de audio, en donde el decodificador está configurado para recibir una representación codificada primaria de una trama actual y/o una representación codificada de al menos un parámetro de ocultación de error para potenciar una ocultación de error del lado del decodificador de la trama actual, en donde el decodificador está configurado para utilizar la ocultación de error para reconstruir al menos parcialmente el contenido de audio de la trama actual utilizando al menos un parámetro de ocultación de error en el caso que la representación codificada primaria de la trama actual se pierda, dañe o demore. En general, el decodificador s capaz de recibir un flujo de bits que podría ser una trama primaria simple (es decir representación codificada primaria de una trama actual) sin ningún datos secundario (es decir al menos un parámetro de ocultación de error) si el codificador decidió no enviar ningún dato secundario para una trama pasada específica, o una trama primaria (es decir representación codificada primaria de una trama actual) y al menos uno o más parámetros de ocultación de error. De ese modo, el decodificador puede al menos parcialmente reconstruir una señal que utiliza estos uno o más parámetros de ocultación de error utilizando una ocultación de error, aún si la representación codificada primaria de esa señal está defectuosa, por ejemplo perdida, dañada o demorada. Por consiguiente, al menos en algunas tramas los parámetros de ocultación de error (parámetros de codificación redundante) son incorporados en el flujo de bits y transmitidos al lado del decodificador. De ese modo, no es necesario proporcionar una copia parcial de la señal completa, que es habitualmente codificada en una tasa de bits inferior y por ello puede comprender una calidad inferior. De ese modo, la presente invención proporciona un concepto mejorado para ocultar tramas defectuosas, por ejemplo perdidas, dañadas o demoradas utilizando parámetros de ocultación de error seleccionados que ya están seleccionados en el lado del codificador, incorporados en el flujo de bits y transmitidos al lado del decodificador, cuando una ocultación que utiliza información obtenida en base a una o más tramas previamente codificadas es “guiada” (por ejemplo potenciada o mejorada) utilizando los parámetros de ocultación de error recibidos. De ese modo, el concepto de la invención se mantiene dentro de un ancho de banda dado (utilizando una ocultación de error en base a extrapolación que no requiere que toda la información de ocultación de error sea transmitida desde un codificador a un decodificador) preservando al mismo tiempo una buena calidad de la señal decodificada (potenciando la ocultación de error que utiliza los parámetros de ocultación de error) aún si la señal es reconstruida por ocultación en el lado del decodificador.
En una realización, la ocultación de error del lado del decodificador es una ocultación de error en base a extrapolación. Por consiguiente, la rutina de ocultación proporcionada en el lado del decodificador puede utilizar extrapolación para estimar o predecir las futuras características de señal, que además pueden ayudar y asistir en la ocultación de tramas primarias defectuosas.
En una realización, el decodificador está configurado para extraer el parámetro de ocultación de error de una trama actual de un paquete que está separado de un paquete en el que la representación codificada primaria de la trama actual está contenida. De ese modo, teniendo dos paquetes separados disponibles, el decodificador puede utilizar el parámetro de ocultación de error contenido en uno de estos paquetes separados en caso de que el paquete que contiene la representación codificada primaria de la trama actual se pierda, dañe o demore.
En una realización, el decodificador está configurado para elegir selectivamente entre al menos dos modos de ocultación de error que utilizan diferentes representaciones codificadas de uno o más parámetros de ocultación de error para reconstruir al menos parcialmente el contenido de audio que utiliza la ocultación de error en base a extrapolación. El decodificador elige uno de los al menos dos modos de ocultación de error si el decodificador no obtiene el respectivo modo, es decir si el decodificador no puede determinar o de otra recuperar el respectivo modo, de la copia parcial (es decir de la representación codificada de al menos un parámetro de ocultación de error). De otro modo, el modo de ocultación está dictado por la copia parcial disponible, es decir por la representación codificada de al menos un parámetro de ocultación de error. En este caso, el codificador ya hizo la elección, mientras el decodificador utiliza el seleccionado de al menos dos modos. En otras palabras, en el modo CA, el codificador decide sobre el modo de ocultación apropiado y prepara la copia parcial por consiguiente. Si una copia parcial está disponible para el decodificador y debe utilizarse para potenciar la ocultación, el decodificador debe adherirse a la decisión tomada por el codificador, de otro modo la información dentro de la copia parcial no puede utilizarse adecuadamente. El decodificador solamente decide por sí mismo sobre el modo de ocultación, si ninguna copia parcial está disponible o si la copia parcial no es y/o no debe ser utilizada por otros motivos. Por consiguiente, el decodificador proporciona una decodificación específica de la señal de uno o más parámetros de ocultación de error y una ocultación de error potenciada.
En una realización, al menos uno de los modos de ocultación de error que utiliza diferentes representaciones codificadas de uno o más parámetros de ocultación de error es un modo de ocultación de dominio de tiempo en donde la representación codificada de al menos un parámetro de ocultación de error comprende al menos uno de un retraso TCX LTP y una información de clasificador. Por ejemplo, un primer modo que es un modo de ocultación de dominio de tiempo, podría seleccionarse si una señal de dominio de tiempo está presente que comprende al menos una cierta característica. De otra manera, si la señal de dominio de tiempo no comprende esta cierta característica, o si la señal de dominio de tiempo comprende una característica de señal diferente, se elige un segundo modo. De ese modo, el codificador puede proporcionar una selección específica de la señal de los parámetros de ocultación de error, cuando el decodificador puede seguir esta selección del codificador.
En una realización, al menos uno de los al menos dos modos de ocultación de error que utiliza diferentes representaciones codificadas de uno o más parámetros de ocultación de error es un modo de ocultación de dominio de frecuencia en donde la representación codificada de al menos un parámetro de ocultación de error comprende uno o más de un parámetro LSF, una ganancia global TCX y una información de clasificador. Este modo puede ser elegido selectivamente por el decodificador para proporcionar un buen resultado de ocultación de una representación codificada primaria no disponible que contiene una señal de dominio de frecuencia.
En una realización, el decodificador usa al menos un esquema de codificación TCX. De acuerdo a esta realización, el decodificador preferentemente utiliza decodificación t Cx para decodificar en forma eficiente contenido de audio general, música, ruido de fondo, o similar. De ese modo, el decodificador puede utilizar parámetros de ocultación de error específicos TCX para reconstruir una señal TCX en caso que la representación codificada primaria haya sido perdida, dañada o demorada.
No forma parte de la invención un aparato para la ocultación de error, estando el aparato configurado para llevar a cabo un mecanismo de ocultación estándar para una trama perdida y para utilizar parámetros capaces de ser transmitidos para potenciar la ocultación. De ese modo, la presente invención mejora un mecanismo de ocultación estándar utilizando ciertos parámetros.
No forma parte de la invención un aparato para la ocultación de error, estando el aparato configurado para no tener una copia parcial que sea solo una versión de tasa de bits baja de la primaria, pero para tener una copia parcial que consiste en múltiples parámetros claves para potenciar la ocultación. De ese modo, la capacidad del ancho de banda puede utilizarse en forma eficiente.
No forma parte de la invención un aparato para ocultación de error que tiene un receptor que comprende una memoria intermedia de fluctuación para proporcionar una copia redundante parcial de una trama perdida actual si está disponible en cualquiera de las futuras tramas, en donde el aparato está configurado para leer un flujo de bits de información redundante parcial y para actualizar los correspondientes parámetros. De ese modo, si una trama actual se pierde, daña o demora, el aparato inventivo puede utilizar la copia redundante parcial que ha sido enviada más tarde en el tiempo, es decir con una futura trama, para reconstruir la trama.
No forma parte de la invención un codificador de conmutación o decodificador, en el que hay dos o más esquemas de codificación principales, mientras que por ejemplo uno utiliza ACELP para codificar contenido similar a voz y el segundo utiliza TCX para codificar contenido de audio general en donde las tramas ACELP son procesadas utilizando una codificación de copia redundante parcial y las tramas TCX son procesadas utilizando una metodología diferente, en donde en las tramas que están cerca de una conmutación del codificador principal, se pueden producir dos casos especiales, a saber: trama primaria ACELP con copia parcial generada a partir de trama TCX futura en la parte superior, o trama primaria t Cx con copia parcial generada de la trama ACELP futura en la parte superior, en donde, para estos casos, ambos codificadores centrales son configurables para crear tramas primarias en combinación con copias parciales del otro tipo de codificador, sin infringir el tamaño total requerido de una trama, para asegurar una tasa de bits constante, o en donde: una primera trama TCX después de una trama ACELP, donde, si esta trama se pierde y de ese modo no está disponible para el decodificador, la técnica propuesta ocultará por TCX la trama que utiliza información de copia parcial que ha sido transportada en la parte superior de otra trama, en donde la ocultación necesita una trama precedente para extrapolar el contenido de la señal, se utiliza ocultación ACELP (ya que la trama previa era ACELP) y en donde ya se decide en el codificador, no colocar una copia parcial en la parte superior de una trama TCX después de una conmutación, o donde existe una selección de copia parcial adaptativa de la señal, donde una señal es analizada antes de la codificación para determinar si el uso de copia parcial es favorable, en donde si la señal podría ocultarse satisfactoriamente bien sin la ayuda de información adicional de la copia parcial en el decodificador, pero el rendimiento del canal limpio sufre debido a la trama primaria reducida, el uso de copia parcial se desactiva o una copia parcial específicamente reducida se utiliza en el codificador. De ese modo, el codificador o decodificador de la invención es versátil ya que proporciona una combinación de esquemas de codificación diferentes.
No forma parte de la invención es un Codificador de Dominio de Transformada o decodificador, en donde se utiliza un esquema de codificación/decodificación, donde al menos en algunas tramas los parámetros de codificación redundantes son incorporados en el flujo de bits y transmitidos al lado del decodificador o en donde una información redundante se demora por algún tiempo y es incorporada en un paquete que es codificado y enviado más tarde en el tiempo de manera tal que la información pueden utilizarse en el caso del decodificador que ya tiene la trama futura disponible, y la trama original se pierde, daña o demora aún más. De ese modo, proporcionando parámetros de codificación redundantes en el flujo de bits, un ancho de banda dado puede utilizarse en forma eficiente.
El codificador de dominio de transformada o decodificador como antes pueden utilizar información redundante que comprende parámetros ISF/LSF: La representación de parámetros ISF/LSF se utiliza para la cuantificación y codificación de los parámetros LPC. En TCX se utiliza LPC para representar el umbral de enmascaramiento. Este es un parámetro esencial y muy útil para tener disponible correctamente del lado del decodificador en el caso de una pérdida de trama. Especialmente si los ISF/LSF son codificados predictivamente la calidad de ocultación mejorará significativamente teniendo esta información disponible durante la ocultación, porque los estados del predictor en el lado del codificador seguirán siendo correctos (en sincronización con el codificador) y esto llevará a una recuperación muy rápida después de la pérdida; clasificación de señal: La clasificación de señal se utiliza para señalizar los tipos de contenido: SIN VOZ, TRANSICIÓN SIN VOZ, TRANSICIÓN CON VOZ, CON VOZ Y DE INICIO. Típicamente este tipo de clasificación se utiliza en la codificación de voz e indica si los componentes tonales/predictivos están presentes en la señal o si los componentes tonales/predictivos están cambiando. Tener esta información disponible del lado del decodificador durante la ocultación puede ayudar a determinar la previsibilidad de la señal y de ese modo puede ayudar a ajustar la velocidad de aumento de amplitud, la velocidad de interpolación de los parámetros LPC; ganancia/nivel global TCX: La ganancia global puede transmitirse para fijar fácilmente la energía de la trama oculta en el nivel correcto (determinado por el codificador) en caso de que la misma esté disponible; Información de ventana como longitud de superposición; o posiciones de pico espectral para ayudar a la ocultación tonal.
Los términos "redundante", "copia redundante", "copia redundante parcial" y otras combinaciones de expresiones que contienen el término "redundante" se pueden utilizar en el sentido de proporcionar una información "parcial". Una información parcial no contiene una representación redundante, y posiblemente de tasa de bits baja, de una trama codificada por método primario, es decir de una señal de audio codificada. En cambio, una información parcial puede contener o comprender parámetros, en particular parámetros de ayuda de ocultación que potencian un mecanismo de ocultación que está disponible en el lado del decodificador, con el fin de ocultar la correspondiente trama primaria, es decir los datos de audio codificados por método primario, en caso de que esta trama codificada en método primario esté defectuosa, por ejemplo perdida, dañada o demorada. En otras palabras, los términos "redundantes" y "parciales" y derivados de los mismos, tal como por ejemplo "copia redundante" y " copia parcial ", se pueden utilizar indistintamente en este documento, ya que ambos términos representan una información que puede contener o comprender los parámetros antes mencionados.
La invención se define por las reivindicaciones adjuntas.
Descripción detallada de las realizaciones
Las realizaciones de la presente invención se detallarán posteriormente con referencia a los dibujos adjuntos, en los que:
La figura 1 muestra una representación esquemática del codificador inventivo,
La figura 2 muestra una representación esquemática de una realización de un codificador inventivo,
La figura 3 muestra una representación esquemática de una realización de un codificador inventivo,
La figura 4 muestra una representación esquemática de una realización de un codificador inventivo,
La figura 5 muestra una representación esquemática de una realización de un decodificador inventivo,
La figura 6 muestra una representación esquemática de una realización que muestra un concepto de redundancia parcial en modo sensible al canal,
La figura 7 muestra una representación esquemática de una realización que muestra un concepto de redundancia parcial en modo sensible al canal,
La figura 8 muestra una representación esquemática de una realización que muestra un marco de codificador sensible al canal,
La figura 9 muestra una representación esquemática de una realización que muestra un marco de decodificador sensible al canal,
La figura 10 muestra un diagrama que representa resultados de ensayo de Banda ancha ITU-T P.800 ACR MOS, y La figura 11 muestra un diagrama que representa resultados de ensayo de Super banda ancha ITU-T P.800 DCR MOS.
La figura 1 muestra un codificador inventivo 1. El codificador 1 está configurado para codificar contenido de audio 2. En particular, el codificador 1 está configurado para codificar contenido similar a voz y/o contenido de audio general. El respectivo contenido de audio codificado 3 es incorporado, en al menos una trama 4, en un flujo de bits 5.
El codificador 1 además está configurado para incorporar, al menos en algunas tramas 7, parámetros 6 en el flujo de bits 5. Estos parámetros 6 se utilizan para potenciar una ocultación en caso de que una trama original 4 se pierda, dañe o demore.
El flujo de bits 5 es enviado a un receptor que comprende un decodificador.
Como se muestra en la figura 2, el codificador 1 está configurado para crear una trama primaria 4b y una copia parcial 8b. Sin embargo, la copia parcial 8b no es solo una versión de tasa de bits baja de la trama primaria 4b. En vez, la copia parcial 8b contiene los parámetros 6 que potencian la ocultación en el lado del decodificador, pero, por otro lado, no incluye información completa para reconstruir un contenido de audio de una trama primaria defectuosa, por ejemplo perdida, dañada o demorada. En otras palabras, la copia parcial incluye uno o más parámetros para potenciar una ocultación de error del lado del decodificador, pero no toda la información necesaria para la ocultación de error.
El codificador 1 está configurado para demorar los parámetros 6 por algún tiempo y para incorporar los parámetros 6 en un paquete 9 que es codificado y enviado más tarde en el tiempo que un paquete que comprende la trama primaria 4b.
El codificador 1 puede generar una o más tramas primarias 4b, 4c y una o más copias parciales 8a, 8b. Por ejemplo, al menos una cierta parte del contenido de audio 2 es codificada e incorporada en una trama primaria 4b. La misma parte del contenido de audio 2 es analizada por el codificador 1 en cuanto a ciertas características de la señal. En base a ello, el codificador 1 determina una selección de uno o más parámetros 6 que potencian una ocultación en el lado del decodificador. Estos parámetros 6 son incorporados en una correspondiente “copia parcial” 8b.
En otras palabras, la trama primaria 4b contiene una representación codificada de al menos una parte del contenido de audio 2. La correspondiente copia parcial 8b contiene uno o más parámetros 6 que son utilizados por una ocultación de error en el lado del decodificador para reconstruir la representación codificada del contenido de audio 2 en caso de que la trama primaria 4b se pierda, dañe o demore.
La copia primaria 4b es empaquetada en el paquete de transporte 9 junto con una copia parcial 8a, en donde la copia parcial 8a es la copia parcial de un contenido de audio que ha sido codificado en una trama primaria 4a que ya ha sido enviada antes en el tiempo. Por consiguiente, el codificador 1 demoró los parámetros 6 por algún tiempo. Tal como puede observarse además en la figura 2, la copia parcial 8b (que pertenece a la trama primaria 4b) que sigue la copia parcial 8a será empaquetada junto con la trama primaria 4c en un paquete de transporte posterior. También puede haber una o más tramas primarias adicionales entre las tramas primarias 4c y 4b.
Es una característica importante que el concepto descrito en la presente memoria utilice un esquema de codificación/decodificación donde al menos en algunas tramas 8a, 8b los parámetros de codificación redundantes 6 son incorporados en el flujo de bits 5 y transmitidos al lado del decodificador. La información redundante (parámetros 6) se demora por algún tiempo y se incorpora en un paquete 9 que es codificado y enviado más tarde en el tiempo de manera tal que la información puede utilizarse en el caso que el decodificador ya tenga la trama futura 4b, 8a disponible, pero la trama original 4a se pierda, dañe o demore aún más.
El flujo de bits 5, por ejemplo, puede comprender una tasa de bits total constante. El codificador 1 puede estar configurado para reducir una tasa de bits de trama primaria, es decir una tasa de bits que es necesaria para codificar una trama primaria 4b, 4c cuando se compara con la tasa de bits total constante. La reducción de la tasa de bits para las tramas primarias 4b, 4c y un mecanismo de codificación de trama redundante parcial juntos determinan una asignación de tasa de bits entre las tramas primaria y redundante (copias parciales) 4b, 4c, 8a, 8b que deben ser incluidas dentro de la tasa de bits total constante del flujo de bits 5. De ese modo, el codificador 1 está configurado para proporcionar un paquete 9 que contiene una trama primaria 4b y una copia parcial 8a, en donde el tamaño, es decir la tasa de bits del paquete 9 está en o debajo de la tasa de bits total constante.
En otras palabras, la reducción de la tasa de bits de la trama primaria y los mecanismos de codificación de trama redundante parcial juntos determinan la asignación de la tasa de bits entre las tramas primaria y redundante 4b, 4c, 8a, 8b que deben ser incluidas dentro de la tasa de bits total constante. La tasa de bits general de una trama 4b que tiene parámetros de copia parcial 8a (además de las tramas primarias) no se incrementa.
Esquema de codificación TCX
De acuerdo a una realización, el codificador 1 es parte de un códec que utiliza un esquema de codificación TCX. El codificador inventivo 1 utiliza TCX preferentemente para codificar contenido de audio general. En caso de TCX, la copia parcial 8a, 8b es utilizada para potenciar un algoritmo de pérdida de trama de una ocultación de error en el lado del decodificador trasmitiendo algunos parámetros de ayuda 6.
Al utilizar un códec de dominio de transformada, la incorporación de información redundante 8a, 8b a las tramas TCX 4b, 4c puede elegirse si:
• La trama contiene una señal de audio muy ruidosa. Esto puede estar indicado por una medición de correlación automática baja o por la salida del clasificador de tramas que es SIN VOZ o TRANSICIÓN SIN VOZ. La clasificación SIN v Oz o TRANSICIÓN SIN VOZ indica una baja ganancia de predicción.
• La trama contiene un ruido de fondo con líneas espectrales nítidas que son estacionarias durante un período de tiempo más largo. Esto puede ser detectado por un algoritmo de detección de pico que está buscando máximos locales en el espectro TCX (espectro de potencia o espectro real) y comparando el resultado con el resultado de la detección del pico de la trama previa. En caso de que los picos no se movieron es probable que haya tonos estacionarios que pueden ser fácilmente ocultados después de tener oculto el espectro de ruido por el procesamiento posterior del espectro con un extrapolador de fase llamado ocultación tonal.
• En el caso de que la información LTP esté presente y el retraso es estable en la ocultación tonal de trama pasada y actual debe aplicarse el punto [6] en el decodificador.
La información redundante (parámetros 6) puede ser:
Parámetros ISF/ LSF:
La representación de parámetros ISF/LSF se utiliza para la cuantificación y codificación de los parámetros LPC. En TCX se utiliza LPC para representar el umbral de enmascaramiento. Este es un parámetro importante y muy útil para tener disponible correctamente del lado del decodificador en caso de una pérdida de tramas. Especialmente si los ISF/LSF son codificados predictivamente la calidad de ocultación mejorará significativamente teniendo esta información disponible durante la ocultación, porque los estados del predictor en el lado del codificador seguirán siendo correctos (en sincronización con el codificador) y esto llevará a una recuperación muy rápida después de la pérdida.
• Clasificación de señal:
La clasificación de señal se utiliza para señalizar los tipos de contenido: SIN VOZ, TRANSICIÓN SIN VOZ, TRANSICIÓN CON VOZ, CON VOZ Y DE INICIO. Típicamente este tipo de clasificación se utiliza en la codificación de voz y en la indicación de si los componentes tonales/ predictivos están presentes en la señal o si los componentes tonales/predictivos están cambiando. Tener esta información disponible del lado del decodificador durante la ocultación puede ayudar a determinar la previsibilidad de la señal y de ese modo puede ayudar a ajustar la velocidad de aumento de amplitud, la velocidad de interpolación de los parámetros LPC.
• Ganancia/nivel global TCX:
La ganancia global puede transmitirse para fijar fácilmente la energía de la trama oculta en el nivel correcto (determinado por codificador) en caso de que esté disponible.
• Información de ventana como longitud de superposición.
• Posiciones de pico espectral para ayudar en la ocultación tonal
Hay un caso especial en el que, en el codificador 1 para copia parcial de dominio de frecuencia, se comprueba si la señal 2 contiene un inicio. Si la ganancia (podría ser cuantificada) de la trama actual 4c es más que un cierto tiempo de factor (por ejemplo 1.6) la ganancia de la trama previa 4b y la correlación entre la trama actual 4c y la trama previa 4b es baja, sólo una ganancia limitada (recortada) es transmitida. Esto evita conseguir distorsiones pre eco en el caso de ocultación. En caso de inicio la trama previa 4b realmente no está correlacionada con la trama actual 4c. De ese modo, no se puede confiar en la ganancia computada sobre una trama actual 4c si la ocultación se hace en base a los compartimentos espectrales de la trama previa 4b.
Esquema de códec de conmutación (TCX - ACELP)
En una realización adicional, el codificador 1 es parte de un códec de conmutación, en donde el códec de conmutación consiste en al menos dos esquemas de codificación principales. Un primer esquema de codificación principal utiliza ACELP y un segundo esquema de codificación principal utiliza TCX. Con referencia a la figura 3, el codificador 1 comprende un codificador principal 10 que puede conmutar entre los esquemas de codificación principales ACELP y TCX.
El codificador además comprende un procesador ACELP 11 para procesar contenido codificado ACELP 13, y un procesador TCX 12 para procesar el contenido codificado TCX 14. El procesador ACELP 11 es un procesador conocido comúnmente que utiliza una metodología convencional de copia parcial, en donde las tramas primarias 15 son codificadas por método primario y las tramas redundantes 16 son codificadas por método redundante. Las tramas redundantes 16 son una versión de baja tasa de bits de sus correspondientes tramas primarias 15.
El procesador TCX 12 procesa las tramas que han sido codificadas de acuerdo al concepto inventivo. En una primera ramificación 17, el contenido codificado 3 se proporciona en la forma de tramas primarias 4b, 4c. En una segunda ramificación 18, los parámetros 6 que potencian la ocultación se proporcionan en forma de "copias parciales" 8a, 8b, tal como se muestra en la figura 2. El contenido ACELP 15, 16 y el contenido TCX 17, 18 se empaquetan en una secuencia de paquetes de transporte 9, tal como se describe más arriba, y son enviados en el flujo de bits 5 al lado del decodificador.
Aún con referencia a la figura 3, pero manifestado con palabras diferentes, el uso del concepto inventivo se describe en combinación con una metodología en base a copia redundante parcial del estado de la técnica en un sistema de codificación de conmutación. Dicho sistema consiste en dos (o más) esquemas de codificación principales, mientras que uno utiliza ACELP para codificar contenido similar a voz y el segundo utiliza TCX para codificar contenido de audio general.
Suponiendo que las tramas ACELP 15, 16 son procesadas utilizando codificación de copia redundante parcial tradicional y las tramas TCX 4b, 4c, 8a, 8b son procesadas utilizando la metodología inventiva, se producirán dos casos principales, donde ninguna acción especial es necesaria y la tramas 4b, 4c, 8a, 8b, 15, 16 pueden procesarse utilizando la metodología de copia parcial del codificador principal 10 subyacente:
• Trama primaria ACELP 15 con copia parcial 16 generada de futura trama ACELP en la parte superior
• T rama primaria TCX 4c con copia parcial 8b generada de futura trama TCX 4b en la parte superior
Sin embargo, en las tramas que están cerca de una conmutación de codificador principal, pueden producirse dos casos especiales, a saber
• Trama primaria ACELP 15 con copia parcial 8 generada de futura trama TCX en la parte superior
• Trama primaria TCX 4 con copia parcial 16 generada de futura trama ACELP en la parte superior
Para estos casos, ambos codificadores principales necesitan ser configurables para crear tramas primarias 4, 15 en combinación con copias parciales 8, 16 del otro tipo de codificador, sin infringir el tamaño total requerido de una trama, para asegurar una tasa de bits constante.
Por consiguiente, el codificador 1 está configurado para crear una trama primaria 4, 15 de uno del tipo de contenido similar a voz (ACELP) y el tipo de contenido de audio general (TCX) en combinación con una copia parcial 8, 16 del otro del tipo de contenido similar a voz y el tipo de contenido de audio general.
Sin embargo, existen casos más específicos, donde una selección más sofisticada de copias parciales 8, 16 es apropiada, por ejemplo:
Primera trama TCX 4 después de una trama ACELP 15:
Si esta trama 4 se pierde y de ese modo no está disponible para el decodificador, la técnica inventiva ocultará por TCX la trama 4 que utiliza información de copia parcial (parámetros 6) que ha sido transportada en la parte superior de otra trama (con suerte no perdida). Pero como la ocultación necesita una trama precedente para extrapolar el contenido de la señal, es preferente en este caso utilizar ocultación ACELP (ya que la trama previa era ACELP) lo que haría innecesaria una copia parcial TCX. De ese modo ya se decide en el codificador 1, no colocar una copia parcial 8 en la parte superior de una trama TCX 4 después de una conmutación.
Por consiguiente, el codificador 1 está configurado para no colocar una copia parcial 8 en la parte superior de una trama TCX 4 después de una conmutación cuando existe una primera trama TCX 4 después de una trama ACELP 15.
Selección de copia parcial adaptada a la señal:
La señal (contenido de audio) 2 puede analizarse antes de la codificación para determinar si el uso de la copia parcial inventiva (que utiliza parámetros 6) es favorable. Por ejemplo, si la señal 2 podría ser ocultada satisfactoriamente bien sin la ayuda de información adicional de copia parcial, es decir parámetros 6, dentro del decodificador, pero el rendimiento de canal limpio sufre debido a la trama primaria reducida 4, el uso de la copia parcial inventiva (es decir incorporación de parámetros 6 en el flujo de bits 5) por ejemplo puede desactivarse o una copia parcial específicamente reducida 8 puede utilizarse dentro del codificador 1.
Por consiguiente, el codificador 1 está configurado para analizar la señal 2 antes de la codificación y para desactivar el uso de la copia parcial o para proporcionar una copia parcial reducida en base a la señal analizada 2.
En general, el codificador 1 está configurado para proporcionar copias redundantes parciales 8 que están construidas en un modo de copia parcial. En una realización, el codificador 1 está configurado para elegir entre múltiples modos de copia parcial que utilizan diferentes cantidades de información y/o diferentes conjuntos de parámetros, en donde la selección del modo de copia parcial es en base a varios parámetros.
Construcción de la trama redundante parcial para la trama TCX
En caso del tipo de trama redundante parcial TCX, una copia parcial 8 que consiste en algunos parámetros de ayuda 6 se utiliza para potenciar el algoritmo de ocultación de pérdida de trama. En una realización, hay tres diferentes modos de copia parcial disponibles, que son RF_TCXFD, RF_TCXTD1 y RF_TCX_TD2. Similar a la decisión del modo PLC en el lado del decodificador, la selección del modo de copia parcial para TCX es en base a varios parámetros tal como el modo de las últimas dos tramas, la clase de trama, tono LTP y ganancia. Los parámetros utilizados para la selección del modo pueden ser iguales a o diferentes de los parámetros para potenciar la ocultación que están incluidos en la “copia parcial”.
a) Tipo de trama redundante parcial de ocultación de dominio de frecuencia (RF TCXFD )
De acuerdo a una realización, al menos uno de los múltiples modos de copia parcial es un modo de ocultación de dominio de frecuencia (“FD”), cuyo ejemplo se describe a continuación.
29 bits se utilizan para el modo de copia parcial RF_TCXFD.
• 13 bits se utilizan para el cuantificador LSF (por ejemplo para codificar parámetros LPC) que es lo mismo que se utiliza para la codificación TCX de baja tasa regular.
• La ganancia global TCX se cuantifica utilizando 7 bits.
• La información del clasificador (por ejemplo CON VOZ, SIN VOZ, etc.) es codificada en 2 bits.
b) Tipo de trama redundante parcial de ocultación de dominio de tiempo (RF TCXTD1 y RF TCXTD2)
De acuerdo a una realización, al menos dos de los múltiples modos de copia parcial son diferentes modos de ocultación de dominio de tiempo (“TD”), cuyo ejemplo se describe a continuación. Un primer modo de ocultación de dominio de tiempo, a saber el modo de copia parcial RF_TCXTD1 se selecciona si una trama 4c contiene un transitorio o so la ganancia global de la trama 4c es (mucho más) inferior que la ganancia global de la trama previa 4b. De otro modo, se elige el segundo modo de ocultación de dominio de tiempo, a saber RF_TCXTD2.
Se utilizan 18bits totales de datos secundarios para ambos modos.
• 9bits se utilizan para señalizar el retraso TCX LTP (Predicción de Largo Plazo)
• 2 bits para señalizar la información del clasificador (por ejemplo CON VOZ, SIN VOZ, etc.)
Ocultación de dominio de tiempo
Dependiendo de la implementación, el códec podría ser un códec de dominio de transformada solamente o un códec de conmutación (transformada/dominio de tiempo) que utiliza la ocultación de dominio de tiempo que se describe en los puntos [4] o [5]. Similar a la decisión de modo de ocultación perdida de paquete que se describen en los mismos del lado del decodificador, la selección del modo de copia parcial de acuerdo a la presente invención es en base a varios parámetros, como se menciona más arriba, por ejemplo el modo de las últimas dos tramas, la clase de trama, tono LTP y ganancia.
En el caso de que se elija el modo de dominio de tiempo, los siguientes parámetros 6 pueden transmitirse:
• En el caso de que estén presentes datos LTP, el retraso LTP es transmitido,
• Una información del clasificador es señalizada (SIN VOZ, TRANSICIÓN SIN VOZ, CON VOZ, TRANSICIÓN CON VOZ, INICIO...): La clasificación de señal se utiliza para señalizar los tipos de contenido: SIN VOZ, TRANSICIÓN SIN VOZ, TRANSICIÓN CON VOZ, CON VOZ Y DE INICIO. Típicamente este tipo de clasificación se utiliza en la codificación de voz e indica si los componentes tonales/predictivos están presentes en la señal o si los componentes tonales/predictivos están cambiando. Tener esta información disponible del lado del decodificador durante la ocultación puede ayudar a determinar la previsibilidad de la señal y de ese modo puede ayudar a ajustar la velocidad de aumento de amplitud, la velocidad de interpolación de los parámetros l Pc y puede controlar el posible uso de filtrado de paso alto o bajo de señales de excitación con voz o sin voz (por ejemplo para la eliminación de ruido).
Opcionalmente, también al menos uno de los siguientes parámetros 6 puede transmitirse:
• Parámetros LPC que describen el intervalo espectral completo en caso de que se utilice la extensión del ancho de banda para la codificación regular,
• Ganancia LTP,
• Nivel de ruido, y
• Posición de pulso
La mayoría de los parámetros 6 enviados, se derivan directamente de la trama real de 4 codificada en el dominio de transformada, por lo que no hay una complejidad adicional causada. Pero si la complejidad no es un problema, entonces la simulación de ocultación en el codificador 1 se puede agregar para redefinir la variable 6 que se puede enviar.
Como se mencionó más arriba, también pueden utilizarse múltiples modos para la provisión de la copia parcial 8. Esto permite enviar diferentes cantidades de información o diferentes conjuntos de parámetros. Por ejemplo, hay dos modos para el dominio de tiempo (TD). El modo de copia parcial TD1 podría seleccionarse si la trama 4c contiene un transitorio o si la ganancia global de la trama 4c es mucho más baja que la ganancia global de la trama previa 4b. De otro modo se elige TD2. Entonces en el decodificador, la ganancia de tono y la ganancia de código se reducirán con dos factores diferentes (0,4 y 0,7 por consiguiente) para evitar tener una señal estacionaria larga siempre que la señal original 2 fue más transitoria.
Pérdida de múltiples tramas
Hay un caso especial adicional, a saber el caso de pérdida de múltiples tramas. El tono decodificado desde la copia parcial 8b no se tendrá en cuenta si se pierde la trama previa 4a, porque el tono enviado en el flujo de bits 5 se calculó en el lado del codificador en base a una verdad de fondo, pero si la trama previa 4a se pierde, la síntesis de la síntesis oculta y perdida anteriormente podría ser muy diferente a la verdad de fondo del codificador. Así que es mejor, en general, no arriesgar confiar en la sincronización del codificador/decodificador en caso de pérdida de tramas múltiples y fijar el tono en el tono previsto para la siguiente trama perdida en lugar utilizar el tono transmitido.
El concepto inventivo del codificador 1 se resumirá a continuación con referencia a una realización como se muestra en la figura 4.
El codificador 1 recibe una señal de entada que contiene contenido de audio 2. El contenido de audio 2 puede ser contenido similar a voz y/o contenido de audio general tal como música, ruido de fondo o similar.
El codificador 1 comprende un codificador principal 10. El codificador principal 10 puede utilizar un esquema de codificación principal para codificar contenido similar a voz, tal como ACELP, o un esquema de codificación principal para codificar contenido de audio general, tal como TCX. El codificador principal 10 también puede formar parte de un códec de conmutación, es decir el codificador principal 10 puede conmutar entre el contenido similar a voz esquema de codificación principal y el contenido de audio general esquema de codificación principal. En particular, el codificador principal 10 puede conmutar entre ACELP y TCX.
Como se indica en la ramificación 20, el codificador principal 10 genera tramas primarias 4 que comprenden una representación codificada del contenido de audio 2.
El codificador 1 además puede comprender un proveedor de trama redundante parcial 21. Como se indica en la ramificación 30, el codificador principal 10 puede proporcionar uno o más parámetros 6 al proveedor de trama redundante parcial 21. Estos parámetros 6 son parámetros que potencian una ocultación en el lado del decodificador.
Adicionalmente o alternativamente, el codificador 1 puede comprender una unidad de extracción de parámetro de ocultación 22. La unidad de extracción de parámetro de ocultación 22 extrae los parámetros de ocultación 6 directamente de la señal de audio, es decir del contenido 2, como se indica en la ramificación 40. La unidad de extracción de parámetro de ocultación 22 proporciona los parámetros extraídos 6 al proveedor de trama redundante parcial 21.
El codificador 1 además comprende un selector de modo 23. El selector de modo 23 selectivamente elige un modo de ocultación, que también se llama modo de copia redundante parcial. Dependiendo del modo de copia redundante parcial, el selector de modo 23 determina cales parámetros 6 son apropiados para una ocultación de error en el lado del decodificador.
Por ello, el codificador principal 10 analiza la señal, es decir el contenido de audio 2 y determina, en base a las características de la señal analizada, ciertos parámetros 24 que son proporcionados al selector de modo 23. Estos parámetros 24 también son referidos como parámetros de selección de modo 24. Por ejemplo, los parámetros de selección de modo pueden ser al menos uno de una clase de trama, el modo de las últimas dos tramas, tono LTP y ganancia LTP. El codificador principal 10 proporciona estos parámetros de selección de modo 24 al selector de modo 23.
En base a los parámetros de selección de modo 24, el selector de modo 23 selecciona un modo de copia redundante parcial. El selector de modo 23 puede elegir selectivamente entre tres modos de copia redundante parcial diferentes. En particular, el selector de modo 23 puede elegir selectivamente entre un modo de copia redundante parcial de dominio de frecuencia y dos modo diferentes de copia redundante parcial de dominio de tiempo, por ejemplo TD1 y TD2, por ejemplo como se describe más arriba.
Como se indica en la ramificación 50, la información de selección de modo 25, es decir la información con respecto al modo de copia redundante parcial seleccionado, es proporcionada al proveedor de trama redundante parcial 21. En base a la información de selección de modo 25, el proveedor de trama redundante parcial 21 selectivamente elige parámetros 6 que se utilizarán, en el lado del decodificador, para la ocultación de error. Por ello, el proveedor de trama redundante parcial 21 genera y proporciona tramas redundantes parciales 8 que contienen una representación codificada de dichos parámetros de ocultación de error 6.
Dicho de otra manera, el proveedor de trama redundante parcial 21 proporciona copias redundantes parciales específicas de la señal. Estas copias redundantes parciales se proporcionan en tramas redundantes parciales 8, en donde cada trama redundante parcial 8 contiene al menos un parámetro de ocultación de error 6.
Como se indica en las ramificaciones 20 y 60, el codificador 1 combinas las tramas primarias 4 y las tramas redundantes parciales 8 en el flujo de bits saliente 5. En el caso de una red basada en paquetes, las tramas primarias 4 y tramas redundantes parciales 8 se empaquetan juntas en un paquete de transporte, que es enviado en el flujo de bits al lado del decodificador. Sin embargo, debe observarse que la trama primaria 4c de una trama de audio actual es empaquetada en un paquete 9 junto con una trama redundante parcial 8b (que contiene solamente los parámetros 6 para potenciar una ocultación) de una trama previa (es decir una trama que ya ha sido enviada antes en el tiempo).
El flujo de bits 5 comprende una tasa de bits total constante. Para asegurar que el flujo de bits 5 está en o debajo de la tasa de bits total constante, el codificador 1 controla la tasa de bits del paquete de transporte que contiene la combinación de la trama primaria y la trama redundante parcial 8. Adicionalmente o alternativamente, el codificador 1 puede comprender un controlador de tasa de bits 26 que se hace cargo de esta funcionalidad.
En otras palabras, el codificador 1 está configurado para combinar una representación codificada 8 de al menos un parámetro de ocultación 6 de una trama actual con una representación codificada primaria 4 de una futura trama (es decir una trama que será enviada más tarde en el tiempo que la trama actual). De ese modo, la representación codificada 8 de al menos un parámetro de ocultación de error 6 de una trama actual es enviado con un retraso de tiempo con respecto a la representación codificada primaria 4 de esta trama actual.
Dicho de otra manera, y aún con referencia a la figura 4, en un primer paso, el contenido 2a es codificado y proporcionado como una trama primaria 4a. Su correspondiente uno o más parámetros de ocultación de error 6a se seleccionan y se proporcionan como una trama redundante parcial 8a. Entonces, en un segundo paso, un contenido posterior 2b es codificado y proporcionado como una trama primaria (posterior) 4b y su uno o más parámetros de ocultación de error 6b se seleccionan y proporcionan como una trama redundante parcial (posterior) 8b. Ahora, el codificador 1 combina la trama redundante parcial 8a (del contenido actual) con la trama primaria 4b (del contenido posterior) en un paquete de transporte común 9b. Por consiguiente, si el paquete precedente 9a que contiene la trama primaria 4a se pierde, daña o demora, su trama redundante parcial 8a, que es enviada más tarde en el tiempo dentro del paquete de transporte posterior 9b mencionado más arriba (que contiene trama redundante parcial 8a y trama primaria 4b), puede utilizarse en el lado del decodificador para la ocultación del contenido de audio que estaba originalmente contenido en una representación codificada en la trama primaria (defectuosa) 4a.
Descripción del decodificador
De acuerdo a una realización, la invención utiliza redes de conmutación por paquetes, o en base a paquetes. En este caso, las tramas son enviadas en paquetes de transporte 9a, 9b, como se muestra en la figura 5. El paquete de transporte 9a contiene una trama primaria 4b y una copia parcial 8a. El paquete de transporte 9b contiene una trama primaria 4c y una copia parcial 8b.
Dicho de otra manera, una copia parcial 8a es una representación codificada de al menos un parámetro de ocultación de error 6 de una trama actual. Al menos un parámetro de ocultación de error 6 ha sido elegido selectivamente por el codificador 1, como se describe antes con referencia a la Figuras 1 a 4. Al menos un parámetro de ocultación de error 6 potencia una ocultación at el decodificador 31, como se describirá en mayor detalle más abajo.
En el decodificador 31, puede haber dos diferentes casos con respecto a las tramas transmitidas 4, 8 o paquetes de transporte 9a, 9b, respectivamente.
Decodificación estándar de representaciones codificadas primarias
En un primer caso, indicado por la ramificación 70, los paquetes de transporte transmitidos 9a, 9b se reciben en el orden correcto, es decir en el mismo orden en que han sido enviados al lado del codificador.
El decodificador 31 comprende una unidad de decodificación 34 para decodificar el contenido de audio codificado transmitido 2 contenido en las tramas. En particular, la unidad de decodificación 34 está configurada para decodificar las representaciones codificadas primarias transmitidas 4b, 4c de ciertas tramas. Dependiendo del esquema de codificación de la respectiva trama, el decodificador 31 puede utilizar el mismo esquema para decodificar, es decir un esquema de decodificación TCX para el contenido de audio general o un esquema de decodificación ACELP para el contenido similar a voz. De ese modo, el decodificador 31 produce un contenido de audio respectivamente decodificado 35.
Ocultación de error potenciada que utiliza representaciones codificadas de al menos un parámetro de ocultación de error
Puede suceder un segundo caso si una representación codificada primaria 4 de una trama está defectuosa, es decir si una representación codificada primaria 4 se pierde, daña o demora (por ejemplo debido a que el paquete de transporte 9a se pierde, daña o demora más que una longitud de buffer del decodificador), tal como está indicado por la ramificación 80. El contenido de audio entonces tendrá que ser al menos parcialmente reconstruido por ocultación de error.
Por ello, el decodificador 31 comprende una unidad de ocultación 36. La unidad de ocultación 36 puede utilizar un mecanismo de ocultación que se basa en un mecanismo de ocultación convencional, en donde, sin embargo, la ocultación es potenciada (o soportada) por uno o más parámetros de ocultación de error 6 recibidos del codificador 1. De acuerdo a una realización de la invención, la unidad de ocultación 36 utiliza un mecanismo de ocultación basado en la extrapolación, tal como que se describe en las solicitudes de patente [4] y [5].
Dicha ocultación de error en base al mecanismo de extrapolación se utiliza para reconstruir el contenido de audio que estaba disponible en una representación codificada primaria 4 de una trama, en el caso que esta representación codificada primaria 4 esté defectuosa, es decir perdida, dañada o demorada. El concepto inventivo utiliza al menos un parámetro de ocultación de error 6 para potenciar estos mecanismos de ocultación de error convencionales.
Esto se explicará en mayor detalle con referencia a la realización que se muestra en la figura 5. El decodificador 31 normalmente recibe un paquete de transporte 9a y un paquete de transporte 9b. El paquete de transporte 9a contiene una representación codificada primaria 4b de una trama actual y una representación codificada 8a de al menos un parámetro de ocultación de error 6 de una trama precedente (no mostrada). El paquete de transporte 9b contiene una representación codificada 8b de al menos un parámetro de ocultación de error 6 de la trama actual para potenciar una ocultación de error de lado del decodificador en base a la extrapolación de la trama actual. El paquete de transporte 9b además contiene una representación codificada primaria 4c de una trama posterior, es decir una trama que sigue (directamente o con una o más tramas en el medio) a la trama actual.
Dicho de otra manera, la representación codificada 8b de al menos un parámetro de ocultación de error 6 para reconstruir el contenido de audio defectuoso de la trama actual está contenido en el paquete de transporte 9b, mientras que la representación codificada primaria 4b de esta trama actual está contenida en el paquete de transporte 9a.
Si a misma está defectuosa por el decodificador 31 que, por ejemplo, la representación codificada primaria 4b de la trama actual está defectuosa, es decir perdida, dañada o demorada, el contenido de audio defectuoso es reconstruido utilizando el mecanismo de ocultación de error disponible mencionado más arriba. De acuerdo a la presente invención, este mecanismo de ocultación de error disponible se potencia utilizando al menos un parámetro de ocultación de error 6 durante la ocultación de error.
Por este motivo, el decodificador 31 extrae al menos un parámetro de ocultación de error 6 de la representación codificada 8b contenido en el paquete de transporte 9b. En base a al menos un parámetro 6 que ha sido extraído, el decodificador 31 selectivamente elige entre al menos dos modos de ocultación para reconstruir al menos parcialmente el contenido de audio defectuoso (en el sentido que se proporciona un contenido de audio oculto que se espera que sea algo similar al contenido de audio de la representación codificada primaria perdida). En particular, el decodificador 31 puede elegir entre un modo de ocultación de dominio de frecuencia y al menos un modo de ocultación de dominio de tiempo.
Tipo de trama redundante parcial de ocultación de dominio de frecuencia (RF TCXFD )
En el caso de un modo de ocultación de dominio de frecuencia, la representación codificada 8b de al menos un parámetro de ocultación de error 6 comprende uno o más de un parámetro ISF/ LSF, una ganancia global TCX, un nivel global TCX, una información de clasificador de señal, una información de ventana como longitud de superposición y posiciones de pico espectral para ayudar a la ocultación tonal.
Los respectivos uno o más parámetros extraídos 6 son alimentados a la unidad de ocultación de error 36 que utiliza al menos un parámetro 6 para potenciar la ocultación de error en base a extrapolación para reconstruir al menos parcialmente el contenido de audio defectuoso. Como resultado, el decodificador 31 produce el contenido de audio oculto 35.
Una realización de la presente invención, que utiliza un ejemplo de una ocultación de dominio de frecuencia, se describe más abajo, en donde
29 bits se utilizan para el modo de copia parcial RF_TCXFD (es decir 29 bits está incluidos en la representación codificada de parámetros de ocultación de error 6 y son utilizados por la unidad de ocultación 36).
• 13 bits son utilizados para el cuantificador LSF que es lo mismo que se utiliza para la codificación TCX de baja tasa regular.
• La ganancia global TCX se cuantifica utilizando 7 bits.
• La información del clasificador se codifica en 2 bits.
Tipo de trama redundante parcial de ocultación de dominio de tiempo (RF TCXTD1 y RF TCXTD2)
En el caso de un modo de ocultación de dominio de tiempo, el decodificador 31 puede elegir selectivamente entre al menos dos diferentes modos de ocultación de dominio de tiempo para reconstruir al menos parcialmente el contenido de audio defectuoso.
Por ejemplo, un primer modo RF_TCXTD1 se selecciona si la trama contiene un transitorio o si la ganancia global de la trama es mucho más inferior que la ganancia global de la trama previa. De lo contrario, se elige un segundo modo RF_TCXTD2.
En el caso de un modo de ocultación de dominio de tiempo, la representación codificada 8b de al menos un parámetro de ocultación de error 6 comprende uno o más de un parámetro LSF, un retraso TCX LTP, una información de clasificador, parámetros LPC, ganancia LTP, Nivel de Ruido y Posición de Pulso. Los respectivos uno o más parámetros extraídos 6 se alimentan a la unidad de ocultación de error 36 que utiliza al menos un parámetro 6 para potenciar la ocultación de error en base a extrapolación para reconstruir al menos parcialmente (o aproximado) el contenido de audio defectuoso. Como resultado, el decodificador 31 produce el contenido de audio oculto 35.
Una realización de la presente invención, que utiliza un ejemplo de una ocultación de dominio de tiempo, se describe más abajo, en donde
Se utilizan 18 bits totales de datos secundarios (es decir de parámetros 6) para ambos modos.
• 9 bits se utilizan para señalizar el retraso TCX LTP
• 2 bits para la señalización de la información del clasificador
El decodificador 31 puede ser parte de un códec que utiliza un esquema de decodificación TCX para decodificar y/o ocultar tramas TCX, como se describe más arriba. El decodificador 31 también puede ser parte de un códec que utiliza un esquema de codificación ACELP para decodificar y/o ocultar tramas ACELP. En el caso del esquema de codificación ACELP, la representación codificada 8b de al menos un parámetro de ocultación de error 6 puede comprender uno o más de parámetros del libro de código adaptativo y parámetro del libro de código fijo.
De acuerdo a la invención, en el decodificador 31 el tipo de la representación codificada de al menos un parámetro de ocultación de error 6 de una trama actual 4b es identificada y la decodificación y ocultación de error se lleva a cabo en base a si solamente uno o más parámetros del libro de código adaptativo (por ejemplo ACELP), solamente uno o más parámetros del libro de código fijo (por ejemplo ACELP), o uno o más parámetros del libro de código adaptativo y uno o más parámetros del libro de código fijo, parámetros de ocultación de error TCX 6, o Parámetros de predicción lineal excitados por ruido son codificados. Si la trama actual 4b o una trama previa 4a se oculta utilizando una representación codificada de al menos un parámetro de ocultación de error 6 de la respectiva trama, al menos un parámetro de ocultación de error 6 de la trama actual 4b, tal como parámetros LSP, la ganancia del libro de códigos adaptivo, libro de códigos fijo o la ganancia BWE, primero se obtiene y después se procesa en combinación con la parámetros de decodificación, información de clasificación o inclinación espectral de tramas previas de la trama actual 4b, o de futuras tramas de la trama actual 4b, con el fin de reconstruir la señal de salida 35, como se describe más arriba. Finalmente, la trama es reconstruida en base al esquema ocultación (por ejemplo ocultación de dominio de tiempo u ocultación de dominio de frecuencia). La información parcial TCX se decodifica, pero en contraste con un modo de copia parcial ACELP, el decodificador 31 se ejecuta en modo de ocultación. La diferencia con lo que se describe más arriba, la ocultación basada en la extrapolación convencional es aquella que al menos un parámetro de ocultación de error 6 que está disponible a partir del flujo de bits 5 se utiliza directamente y no se deriva de dicha ocultación convencional.
Primera realización de EVS
Los siguientes pasajes de descripción proporcionan un resumen del concepto inventivo con respecto a la interacción sinérgica entre el codificador 1 y el decodificador 31 utilizando un códec llamado EVS (Servicios de Voz Potenciada).
Introducción de la realización de EVS
EVS (Servicios de Voz Potenciada) ofrece un modo sensible al canal robusto de error basado en redundancia parcial en 13,2 kbps tanto para anchos de banda de audio de banda ancha y súper banda ancha. Dependiendo de la criticidad de la trama, la redundancia parcial es habilitada o es deshabilitada de forma dinámica para una trama en particular, mientras se mantiene un presupuesto de bits fijo de 13,2 kbps.
Principios de codificación sensible al canal
En un sistema VoIP, los paquetes llegan al decodificador con fluctuaciones aleatorias en su hora de llegada. Los paquetes también pueden llegar fuera de orden en el decodificador. Debido a que el decodificador espera que se alimente un paquete de voz cada 20 milisegundos para producir muestras de voz en bloques periódicos, una memoria intermedia de fluctuación [6] es requerida para absorber la fluctuación en el tiempo de llegada del paquete. Cuanto mayor es el tamaño de la memoria intermedia de fluctuación, mejor es su capacidad para absorber la fluctuación en el tiempo de llegada y en consecuencia, se descartan menos paquetes que llegan tarde. Las comunicaciones de voz es también un sistema crítico de retraso y, por tanto, es esencial mantener el retardo de extremo a extremo lo más bajo posible de modo que una conversación de dos direcciones puede ser sostenida.
El diseño de una memoria intermedia de fluctuación adaptativa refleja la compensación antes mencionada. Al intentar minimizar las pérdidas de paquetes, el algoritmo de gestión de memoria intermedia de fluctuación en el decodificador también realiza un seguimiento de la demora en la entrega de paquetes, como resultado de la memoria intermedia. El algoritmo de gestión de memoria intermedia de fluctuación se ajusta adecuadamente a la profundidad de la memoria intermedia de fluctuación con el fin de lograr la compensación entre el retardo y pérdidas tardías.
Con referencia a la figura 6, el modo sensible al canal EVS utiliza copias redundantes parciales 8a de tramas actuales 4a junto con una trama futura 4b para la ocultación de error. La tecnología de redundancia parcial transmite copias parciales 8a de la trama actual 4a junto con una trama futura 4b con la esperanza de que en el caso de la pérdida de la trama actual 4a (debido a la pérdida de red o llegada tardía) la copia parcial 8a de la trama futura 4b pueda recuperarse de la memoria intermedia de fluctuación para mejorar la recuperación a partir de la pérdida.
La diferencia en unidades de tiempo entre el tiempo de transmisión de la copia primaria 4a de una trama y el tiempo de transmisión de la copia redundante 8a de la trama (cargada en una trama futura 4b) se llama desplazamiento FEC. Si la profundidad de la memoria intermedia de fluctuación en un momento dado es al menos igual al desplazamiento FEC, entonces es muy probable que la futura trama esté disponible en la memoria intermedia de fluctuación en el instante de tiempo actual. El desplazamiento FEC es un parámetro configurable en el codificador que puede ajustarse en forma cinámica dependiendo de las condiciones de red.
El concepto de redundancia parcial en EVS con desplazamiento FEC igual a [7] se muestra en la figura 6.
La copia redundante 8a sólo es una parcial copia que incluye sólo un subconjunto de parámetros que son más críticos para decodificar o detener la propagación de errores.
El modo sensible al canal EVS transmite redundancia dentro de banda como parte de la carga útil de códec en oposición a la transmisión de redundancia en la capa de transporte (por ejemplo, mediante la inclusión de múltiples paquetes en una única carga útil de RTP). Incluir la redundancia dentro de banda permite que la transmisión de la redundancia sea controlada por canales (por ejemplo, para combatir la congestión de red) o controlada por fuente. En este último caso, el codificador puede utilizar las propiedades de la señal de fuente de entrada para determinar qué tramas son más críticas para la reconstrucción de alta calidad en el decodificador y selectivamente transmitir redundancia para aquellas tramas solamente. Otra ventaja de la redundancia dentro de banda es que el control o fuente puede utilizarse para determinar qué tramas de entrada pueden ser mejor codificadas a una tasa de trama reducida con el fin de acomodar la unión de redundancia sin alterar el tamaño total del paquete. De esta manera, el modo sensible al canal incluye redundancia en un canal de tasa de bits constante (13,2 kbps).
Asignación de tasa de bits para codificación de trama parcial redundante y primaria
Reducción de tasa de bits de trama primaria
Una medida de la capacidad de compresión de la trama primaria se utiliza para determinar qué tramas puede ser mejor codificadas a una tasa reducida. Para trama TCX se aplica la configuración de 9,6 kbps para WB así como para SWB. Para ACELP se aplica lo siguiente. La decisión del modo de codificación procedente del algoritmo de clasificación de señal se comprueba primero. Las tramas de voz clasificadas para Codificación sin voz (UC) o Codificación con voz (VC) son adecuadas para la compresión. Para el modo de Codificación genérica (GC), la correlación (en retardo de tono) entre subtramas adyacentes dentro de la trama se utiliza para determinar la compresibilidad. La codificación de trama primaria de la señal de banda superior (es decir, de 6,4 a 14,4 kHz en SWB y 6,4 a 8 kHz en BM) en modo sensible al canal utiliza extensión de ancho de banda de dominio de tiempo (TBE). Para SWB TBE en modo sensible al canal, se utiliza una versión reducida del marco de modo no sensible al canal para obtener una reducción de bits utilizados para la trama primaria. La cuantificación LSF se realiza utilizando una cuantificación vectorial de 8 bits en modo sensible al canal mientras que un enfoque basado en cuantificación escalar de 21 bits se utiliza en modo no sensible al canal. Los parámetros de ganancia de trama primaria SWB TBE en modo sensible al canal se codifican igual a aquel del modo no sensible al canal en 13,2 kbps, es decir, 8 bits para los parámetros de ganancia. WB TBE en modo sensible al canal utiliza codificación similar que la utilizada en 9,6 kbps WB TBE de modo no sensible al canal, es decir, 2 bits para LSF y 4 bits para parámetros de ganancia.
Codificación de trama redundante parcial
El tamaño de la trama redundante parcial es variable y depende de las características de la señal de entrada. También la medición de criticidad es un indicador importante. Una trama es considerada como fundamental para proteger cuando la pérdida de la trama podría causar un impacto significativo en la calidad de voz en el receptor. La criticidad también depende de si las tramas previas se perdieron o no. Por ejemplo, una trama puede pasar de ser no crítica a crítica si también se perdieron las tramas previas. Los parámetros computados de la codificación de copia primaria tal como información de clasificación del tipo de codificador, retardo de tono de subtrama, el factor M etc., se utilizan para medir la criticidad de una trama. El umbral, para determinar si una trama particular es crítica o no, es un parámetro configurable en el codificador que puede ajustarse en forma dinámica dependiendo de las condiciones de red. Por ejemplo, en condiciones de alta FER puede ser deseable ajustar el umbral para clasificar más tramas como críticas. La codificación de trama parcial de señal de banda superior se apoya en la codificación gruesa de los parámetros de e interpolación / extrapolación de parámetros LSF de trama primaria. Los parámetros de ganancia TBE estimados durante la codificación de trama primaria de la trama (n - desplazamiento FEC)-th se vuelve a transmitir durante la trama n-th como información de copia parcial. Dependiendo del modo de codificación de tramas parcial, es decir, o GENÉRICO O CON VOZ O SIN VOZ, la retransmisión de la trama de ganancia, utiliza diferente resolución de cuantificación y suavizado de ganancia.
Las siguientes secciones describen los diferentes tipos de trama redundante parcial y su composición.
Construcción de trama redundante parcial para modos de codificación genérico y con voz
En la codificación de la versión redundante de la trama, un factor M se determina en base de la energía de libro de códigos fijo y adaptativo.
Af _ (E(ACB) E(FCB)/E(ACB) - E(FCB))+1
En esta ecuación, E(ACB) denota la energía del libro de códigos adaptativo y E (FCB) denota la energía del libro de códigos fijo. Un valor bajo de M indica que la mayoría de la información en la trama actual es llevada por la contribución del libro de códigos fijo. En tales casos, se construye la copia redundante parcial (RF_NOPRED) utilizando uno o más parámetros del libro de código fijo solamente (pulsos y ganancia FCB). Un alto valor de M indica que la mayor parte de la información en la trama actual es llevada por la contribución del libro de códigos adaptativo. En tales casos, la copia redundante parcial (RF_ALLPRED) se construye utilizando uno o más parámetros del libro de código adaptativo solamente (retardo y ganancia de tono). Si M toma valores medios entonces se selecciona un modo de codificación mixto donde uno o más parámetros del libro de código adaptativo y uno o más parámetros del libro de código fijo son codificados (RF_GENPRED). En modos de codificación con vos y genérico, los valores de trama de ganancia TBE son generalmente bajos y demuestran menos variación. Por lo tanto se utiliza una gruesa cuantificación de trama de ganancia TBE con suavización de ganancia.
Construcción de trama redundante parcial para el modo de codificación sin voz
El esquema de codificación de predicción lineal excitada por ruido de baja tasa de bits se utiliza para construir una copia redundante parcial para un tipo de trama sin voz (RF_NELP). En el modo de codificación sin voz, la trama de ganancia TBE tiene un rango dinámico más amplio. Para preservar esta gama dinámica, la cuantificación de la trama de ganancia TBE en modo de codificación sin voz utiliza una gama de cuantificación similar a la utilizada en la trama primaria.
Construcción de la trama redundante parcial para la trama TCX
En el caso del tipo de trama redundante parcial TCX, una copia parcial que consiste en algunos parámetros de ayuda se utiliza para potenciar el algoritmo de ocultación de pérdida de trama. Existen tres modos diferentes de copia parcial disponibles, que son RF_TCXFD, RF_TCXTD1 y RF_TCX_TD2. Similar a la decisión del modo PLC en el lado del decodificador, la selección del modo de copia parcial para TCX es en base a varios parámetros tal como el modo de las últimas dos tramas, la clase de trama, tono LTP y ganancia.
Tipo de trama redundante parcial de ocultación de dominio de frecuencia (RF TCXFD)
29 bits se utilizan para el modo de copia parcial RF_TCXFD.
• 13 bits se utilizan para el cuantificador LSF que es el mismo que se utiliza para la codificación TCX de baja tasa regular.
• La ganancia global TCX se cuantifica utilizando 7 bits.
• La información del clasificador se codifica en 2 bits.
Tipo de trama redundante parcial de ocultación de dominio de tiempo (RF TCXTD1 y RF TCXTD2)
El modo de copia parcial RF_TCXTD1 se selecciona si la trama contiene un transitorio o si la ganancia global de la trama es mucho menor que la ganancia global de la trama previa. De otro modo se elige RF_TCXTD2.
Se utilizan 18bits totales de datos secundarios para ambos modos.
• 9 bits se utilizan para señalizar el retraso TCX LTP
• 2 bits para señalizar la información del clasificador
Tipo de trama redundante parcial RF NO DATA
Esto se utiliza para señalizar una configuración en la que no se envía la copia redundante parcial y todos los bits se utilizan para la codificación de trama primaria.
La reducción de tasa de bits de trama primaria y mecanismos de codificación de trama redundante parcial juntos determinan la asignación de la tasa de bits entre las tramas primaria y redundante que deben ser incluidas dentro de una carga útil de 13,2 kbps.
Decodificación
En el receptor, la memoria intermedia de fluctuación proporciona una copia redundante parcial de la trama perdida actual si está disponible en cualquiera de las tramas futuras. Si está presente, la información redundante parcial se utiliza para sintetizar la trama perdida. En la decodificación, el tipo de trama redundante parcial es identificado y la decodificación se realiza en base a si solamente uno o más parámetros del libro de código adaptativo, solamente uno o más parámetros del libro de código fijo, o uno o más parámetros del libro de código adaptativo y uno o más parámetros del libro de código fijo, parámetros de ayuda de ocultación de pérdida de trama TCX, o parámetros de predicción lineal excitados por ruido son codificados. Si la trama actual o trama previa es una trama redundante parcial, el parámetro de decodificación de la trama actual tal como parámetros LSP, la ganancia del libro de códigos adaptativo, libro de códigos fijo o la ganancia BWE, primero se obtiene y después se post-procesa de acuerdo a parámetros de decodificación, información de clasificación o inclinación espectral de tramas previas de la trama actual, o futuras tramas de la trama actual. Los parámetros post-procesados se utilizan para reconstruir la señal de salida. Finalmente, la trama es reconstruida en base al esquema de codificación. La información parcial TCX es decodificada, pero en oposición al modo de copia parcial ACELP, el decodificador se hace funcionar en modo de ocultación. La diferencia con la ocultación regular es sólo que los parámetros disponibles del flujo de bits se utilizan directamente y no se obtienen por ocultación.
Parámetros confiaurables por codificador de modo sensible al canal
El codificador de modo sensible al canal puede utilizar los siguientes parámetros configurables ara adaptar su operación para rastrear las características de canal vistas en el receptor. Estos parámetros pueden ser computados en el receptor y comunicados al codificador a través de un mecanismo de retroalimentación activado por el receptor.
El desplazamiento parcial de redundancia óptima (°): La diferencia en unidades de tiempo entre el tiempo de transmisión de la copia primaria de una trama (n) y el tiempo de transmisión de la copia redundante de esa trama que es llevado en una trama futura (n X) se llama desplazamiento FEC X. El desplazamiento FEC X óptimo es un valor que maximiza la probabilidad de disponibilidad de una copia redundante parcial cuando hay una pérdida de tramas en el receptor.
El indicador de tasa de borrado de trama (p) que tiene los siguientes valores: LO (bajo) para las tasas FER <5% o HI (alto) para FER> 5%. Este parámetro controla el umbral utilizado para determinar si una trama particular es crítica o no. Tal ajuste del umbral de criticidad se utiliza para controlar la frecuencia de la transmisión de copia parcial. El ajuste HI ajusta el umbral de criticidad para clasificar más tramas como críticos para transmitir en comparación con el ajuste LO.
Cabe señalar que estos parámetros configurables del codificador son opcionales con el conjunto predeterminado de p=HI y °=3.
Segunda realización EVS
Los pasajes de la siguiente descripción describen un ejemplo de realización del concepto inventivo que se utiliza en las redes de conmutación de paquetes, tal como voz sobre IP (VoIP), Voz sobre LTE (VoLTE) o voz sobre WiFi (VoWiFi).
Se describe modo de error altamente resiliente del códec de voz 3GPP EVS recientemente estandarizado. En comparación con el códec AMR-WB y otros códec conversacionales, el modo sensible al canal EVS ofrece resiliencia de error significativamente mejorada en comunicación de voz a través de redes de conmutación de paquetes tal como voz sobre IP (VoIP) y voz sobre LTE (VoLTE). La resiliencia de error se logra utilizando una forma de corrección de errores en avance en la banda. Las técnicas de codificación controlada por fuente se utilizan para identificar tramas de voz candidatos para la reducción de tasa de bits, dejando bits de reserva para la transmisión de copias parciales de tramas anteriores de manera tal que se mantenga una tasa de bits constante. Las copias parciales autocontenidas se utilizan para mejorar la robustez de error en caso de que la trama primaria original se pierda o sea descartada debido a la llegada tardía. Los resultados de las evaluaciones subjetivas de las pruebas de Puntaje de Opinión Media (MOS) UIT-T P.800 se proporcionan, mostrando una mejora en la calidad en degradaciones del canal así como impacto insignificante en el rendimiento de canal limpio.
Introducción
En las redes de conmutación de paquetes, los paquetes pueden ser sometidos a condiciones variables de enrutamiento y programación, lo que resulta en retardo de extremo a extremo variable en el tiempo. La fluctuación de retardo no es susceptible a la mayoría de los decodificadores de voz convencionales y algoritmos de post­ procesamiento de voz que por lo general esperan que los paquetes sean recibidos en intervalos de tiempo fijos. En consecuencia, una memoria intermedia de fluctuación (también referida como gestión de memoria intermedia de fluctuación (JBM) [8], [13]) se utiliza típicamente en el terminal de recepción para eliminar la fluctuación y entregar paquetes al decodificador en el orden secuencial correcto.
Cuanto mayor es la memoria intermedia de fluctuación, mejor será su capacidad para eliminar la fluctuación y mayor será la probabilidad de que la fluctuación pueda ser tolerada sin descartar paquetes debido a la llegada tardía (o, flujo bajo de la memoria intermedia). Sin embargo, el retraso de extremo a extremo es un determinante clave de la calidad de llamada en redes de voz de conversación, y la capacidad de JBM para absorber la fluctuación sin añadir retardo de memoria intermedia excesivo es un requisito importante. De ese modo, existe una compensación entre el retardo JBM y la pérdida de paquetes inducida por la fluctuación en el receptor. Los diseños JBM han evolucionado para ofrecer mayores niveles de rendimiento, manteniendo retraso medio mínimo [8]. Aparte de la fluctuación de retardo, la otra característica principal de las redes de conmutación de paquetes es la presencia de pérdidas de múltiples paquetes consecutivos (ráfagas de errores), que se observan con mayor frecuencia en las redes de conmutación de circuitos. Estas ráfagas pueden ser el resultado de la agrupación de paquetes en diferentes capas de la red, comportamiento del programador, cobertura de radiofrecuencia pobre, o incluso un JBM de adaptación lenta. Sin embargo, la memoria intermedia de fluctuación-un componente esencial para VoIP se puede aprovechar para una mejora en la prevención del bajo flujo y más sofisticada ocultación de pérdida de paquetes [8]. Una de estas técnicas es el uso de corrección de errores hacia adelante mediante la transmisión de información codificada redundante para su uso cuando la información original se pierde en el receptor.
Modo sensible al canal en el códec EVS
El modo sensible al canal EVS introduce una nueva técnica para la transmisión de redundancia en banda como parte de la carga útil del códec en una tasa de flujo de bits constante, y se implementa para banda ancha (BM) y súper banda ancha (SWB) a 13,2 kbps. Esta técnica está en contraste con los códec anteriores, para los que la redundancia se añade típicamente como una ocurrencia tardía mediante la definición de mecanismos para transmitir la redundancia en la capa de transporte. Por ejemplo, el formato de carga útil de AMR-WB RTP permite la agrupación de múltiples tramas de voz para incluir la redundancia en una sola carga útil de RTP [9]. Alternativamente, los paquetes RTP que contienen tramas de voz simples pueden ser retransmitidos simplemente en un momento posterior.
La figura 7 representa el concepto de redundancia parcial en el modo sensible al canal EVS. La idea es codificar y transmitir la copia redundante parcial 8a asociada a la trama N-th, junto con la codificación primaria 4b de la trama (N K)-th. El parámetro de desplazamiento, K, que determina la separación entre las tramas primarias 4 y parciales 8 también se transmite junto con la copia parcial 8. En la red de conmutación de paquetes, si se pierde el paquete de trama N-th 4a, a continuación, la memoria intermedia de fluctuación 71 es inspeccionada en cuanto a la disponibilidad de paquetes futuros. Si está disponible, entonces el parámetro de desplazamiento transmitido se utiliza para identificar el paquete futuro apropiado para la extracción de copia parcial y síntesis de la trama perdida. Un desplazamiento de 3 se utiliza como ejemplo para mostrar el proceso en la figura 7. El parámetro de desplazamiento puede ser un valor fijo o se puede configurar en el codificador en base a una las condiciones de red. Incluir la redundancia dentro de banda en el Modo sensible al canal EVS permite que la transmisión de la redundancia sea controlada por canales (por ejemplo, para combatir la congestión de red) o controlada por fuente. En este último caso, el codificador puede utilizar las propiedades de la señal de fuente de entrada para determinar qué tramas son más críticas para la reconstrucción de alta calidad y selectivamente transmitir redundancia para aquellas tramas solamente. Además, el codificador también puede identificar las tramas que pueden ser mejor codificadas en una tasa de bits reducida con el fin de acomodar la unión de la redundancia mientras se mantiene el flujo de bits a una velocidad constante de 13,2 kbps. Estas nuevas técnicas significativamente mejoran el rendimiento en condiciones de canal degradadas mientras se mantiene la calidad del canal limpio.
Codificación sensible al canal
La figura 8 muestra una descripción de alto nivel del codificador sensible al canal 1. El audio de entrada 2 que se toma como muestra en 16 kHz (BM) o 32 kHz (SWB) se segmenta en tramas de 20 ms. Una etapa de "pre-procesamiento" 81 se utiliza para volver a tomar muestras de la trama de entrada a 12,8 kHz y realizar los pasos tal como detección de actividad de voz (VAD) y clasificación de señal [16]. En base a ciertos parámetros de análisis (por ejemplo, correlación normalizada, VAD, tipo de trama y retardo de tono), el módulo de "configuración de trama redundante (RF) " 82 determina:
1. la compresibilidad de la trama actual 4b, es decir, si la trama actual 4b puede permitir la reducción de la tasa de bits, con un impacto perceptual mínimo, para permitir la inclusión de una copia parcial 8a asociada con una trama previa 4a, y
2. la clasificación del tipo de trama RF que controla el número de bits necesarios para reconstruir fielmente la trama actual 4b a través de la copia parcial 8b que se transmite en una trama futura 4c. En la figura 8, la copia parcial 8b se transmite junto con una copia primaria futura 4c en un desplazamiento de ocultación de borrado de trama (FEC) de 2 tramas.
Las tramas fuertemente con voz y sin voz son adecuadas para llevar copias parciales de una trama previa con un impacto perceptual insignificante para la calidad de trama primaria. Si se permite que la trama actual lleve la copia parcial, la misma se señaliza mediante el establecimiento de RfFIag en el flujo de bits en 1, o 0 de otro modo. Si RfFIag se establece en 1, entonces el número de bits, Bprimary, disponible para codificar la trama primaria actual se determina mediante la compensación de la cantidad de bits, BRF, ya utilizados por la copia parcial que se acompaña, es decir, Bprimary = 264-BRF a tasa de bits total constante de 13,2 kbps. El número de bits, BRF, puede variar de 5 a 72 bits dependiendo de la criticidad de la trama y tipo de trama RF (Sección 3.2).
Codificación de trama primaria
El módulo de “codificación de trama primaria” 83 que se muestra en la Figura 8, utiliza la tecnología de codificación ACELP [21], [23] para codificar el núcleo de banda baja hasta 6,4 kHz, mientras que la banda superior que está más allá de 6,4 kHz y hasta la frecuencia de Nyquist se codifica utilizando la tecnología de extensión de ancho de banda de dominio de tiempo (TBE) [17]. La banda superior se parametriza en LSP y parámetros de ganancia para captar tanto la evolución temporal por trama así como en una trama completa [17]. El módulo de "codificación de trama primaria" 83 también utiliza las tecnologías de codificación de Excitación Codificada de Transformada en base a MDCT (TCX) y Llenado de Espacio inteligente (IGF) [11], [18] para codificar las tramas de ruido de fondo y contenido de/ música/ mixto en forma más eficiente. Un clasificador de bucle abierto basado en SNR [22] se utiliza para decidir si elegir la tecnología ACELP / TBE o la tecnología IGF / TCX para codificar la trama primaria.
Dietz et al., [16] da una visión general de los diversos avances de los modos primarios EVS que mejoran aún más la eficacia de la codificación de la tecnología ACELP más allá de la eficiencia de codificación 3GPP Am R-WB [21]. El modo sensible al canal EVS aprovecha estos avances fundamentales ACELP y TCX para la codificación de trama primaria. Además, como la copia parcial utiliza variables número de bits a través de las tramas, la codificación de trama primaria también tiene que acomodarse correspondientemente para una asignación de bits adaptativa.
Codificación de trama redundante
El módulo de codificación de "trama redundante (RF) " 84 realiza re-codificación compacta de sólo los parámetros que son críticos para proteger. El conjunto de parámetros críticos están identificados en base a las características de la señal de trama y se vuelven a codificar en un tasa de bits mucho menor (por ejemplo, menos de 3,6 kbps). El módulo "empaquetador de bits" 85 organiza el flujo de bits de trama primaria 86 y la copia parcial 87 junto con ciertos parámetros RF tal como tipo de trama RF y desplazamiento FEC (ver Tabla I) en ubicaciones fijas en el flujo de bits.
Una trama es considerada como fundamental para proteger cuando la pérdida de esa trama podría causar un impacto significativo en la calidad de la voz en el receptor. El umbral para determinar si una trama particular es crítica o no es un parámetro configurable en el codificador, que puede ajustarse en forma dinámica dependiendo de las condiciones de red. Por ejemplo, en condiciones de alta FER puede ser deseable ajustar el umbral para clasificar más tramas como críticas. La criticidad también puede depender de la capacidad de recuperarse rápidamente de la pérdida de una trama previa. Por ejemplo, si la trama actual depende en gran medida de la síntesis de la trama previa, la trama actual puede ser reclasificada de no crítica a crítica para detener la propagación de error en caso de que la trama previa estuviera perdida en el decodificador.
a) Codificación de trama parcial ACELP
Para tramas ACELP, la codificación de copia parcial utiliza uno de los cuatro tipos de trama RF, RF_NOPRED, RF_ALLPRED, RF_GENPRED, Y RF_NELP dependiendo de las características de señal de la trama. Los parámetros calculados a partir de la codificación de trama primaria tal como tipo de trama, retardo de tono, y factor t se utilizan para determinar el tipo de trama RF y criticidad, donde
TABLA I
ASIGNACIÓN DE BITS PARA CODIFICACIÓN SENSIBLE AL CANAL A 13,2 KBPS
Codificador principal ACELP TCX/IGF Ancho de banda WB SWB
Información de emisión de señales (ancho de banda, tipo 5
de codificador, RfFiag)
___ ,___, Principal 181-248 169-236 232-254 Tiama primaria 1 BE 6 18
Principal 0-22
T irama parcial TBE
r Desplazamiento de FEC
Figure imgf000027_0001
Tipo de trama RF 3
E
5 ACB - F
r = 0,2 FCB
V k'ACH E fcB
Figure imgf000027_0002
Eacb indica la energía del libro de códigos adaptativo (ACB) y Efcb indica la energía del libro de códigos fijo (FCB). Un bajo valor de t (por ejemplo, 0,15 y más bajo) indica que la mayor parte de la información en la trama actual es llevada por la contribución FCB. En tales casos, la codificación de copia parcial RF_NOPRED utiliza uno o más parámetros FCB (por ejemplo, pulsos y ganancia FCB) solamente. Por otro lado, un alto valor de t (por ejemplo, 0,35 y más arriba) indica que la mayor parte de la información de la trama actual es llevada por la contribución ACB. En tales casos, la codificación de copia parcial RF_ALLPRED utiliza uno o más parámetros ACB (por ejemplo, retardo de tono y ganancia) solamente. Si t está en el rango de [0,15, 0,35], entonces un modo de codificación mixto RF_GENPRED utiliza ambos Parámetros ACB y FCB para la codificación de copia parcial. Para las tramas SIN VOZ, se utiliza predicción lineal excitada por ruido de baja tasa de bits (NELP) [16] para codificar la copia parcial RF_NELP. La codificación de copia parcial de banda superior se apoya en codificación gruesa de parámetros de ganancia y extrapolación de los parámetros LSF de la trama previa [11].
b) Codificación de trama parcial TCX
Con el fin de obtener una copia parcial útil TCX, muchos bits tendrían que gastarse para codificar los datos del espectro MDCT, lo que reduce el número de bits disponibles para la trama primaria significativamente y por lo tanto se degrada la calidad del canal limpio. Por este motivo, el número de bits para tramas primarias TCX se mantiene lo más grande posible, mientras que la copia parcial lleva un conjunto de parámetros de control, lo que permite una ocultación TCX altamente guiada.
La codificación de copia parcial TCX utiliza uno de los tres tipos de trama RF, RF_TCXFD, RF_TCXTD1, y RF_TCXTD2. Mientras RF_TCXFD lleva parámetros de control para potenciar la ocultación de dominio de frecuencia, RF_TCXTD1 y RF_TCXTD2 se utilizan en la ocultación de dominio de tiempo [20]. La selección del tipo de trama TCX RF es en base a características de señal de trama actual y previa, entre ellas, la estabilidad de tono, ganancia LTP y tendencia temporal de la señal. Ciertos parámetros críticos tal como la clasificación de señal, LSP, ganancia TCX y retraso de tono se codifican en la copia parcial TCX.
En ruido de fondo o en tramas de voz inactivas, una ocultación de borrado de trama no guiado es suficiente para minimizar las distorsiones perceptivas debido a tramas perdidas. Un RF_NO_DATA se señala indicando la ausencia de una copia parcial en el flujo de bits en el ruido de fondo. Además, la primera trama TCX después de una conmutación de trama ACELP, también utiliza un RF_NODATA debido a la falta de datos de extrapolación en un escenario de cambio del tipo de codificación.
Decodificación sensible al canal
La figura 9 representa una representación de alto nivel del decodificador sensible al canal 31. En el receptor 90, si la trama actual 91 no está perdida, la JBM 95 proporciona el paquete para la “decodificación de trama primaria” 96 y desestima cualquier información RF (trama redundante) presente en el paquete. En el caso que la trama actual esté perdida, y una trama futura 94 esté disponible en la memoria intermedia de fluctuación, entonces la JBM 95 proporciona el paquete para la “decodificación de trama parcial” 97. Si una trama futura 93 no está disponible en la memoria intermedia de fluctuación, entonces se realiza una ocultación de borrado no guiado [20].
Interfaz con JBM
Como se describió antes, si la trama N-th no está disponible (perdida o demorada) en el tiempo de despliegue, el JBM se verifica en cuanto a la disponibilidad de una trama futura (N+K)-th que contiene la redundancia parcial de la trama actual donde K □ {2, 3, 5, 7}. La copia parcial de una trama generalmente llega después de la trama primaria. Los mecanismos de adaptación de retardo JBM se utilizan para aumentar la probabilidad de disponibilidad de copias parciales en la trama futuras, especialmente para los mayores desplazamientos de FEC de 5 y 7. El EVS JBM se ajusta a los requisitos de retardo de fluctuación especificados por el 3GPP TS 26.114 [10] para todos los modos EVS incluido el modo sensible al canal.
Además de la funcionalidad que se describe más arriba, el EVS JBM [13] calcula la tasa de error de canal y un desplazamiento FEC óptimo, K, que maximiza la disponibilidad de la copia redundante parcial en base de las estadísticas de un canal. El desplazamiento FEC óptimo computarizado y la tasa de error de canal se puede transmitir de nuevo al codificador a través de un mecanismo de retroalimentación del receptor (por ejemplo, a través de una solicitud de modo de códec (CMR) [9]) para adaptar el desplazamiento FEC y la tasa a la que la redundancia parcial se transmite a mejorar la experiencia del usuario final.
Decodificación de trama parcial ACELP y TCX
El módulo de “analizador de flujo de bits" 98 en la figura 9 extrae la información de tipo de trama RF y pasa a la información de copia parcial al módulo de "decodificación de trama parcial" 97. Dependiendo del tipo de trama RF, si la trama actual corresponde a una copia parcial ACELP , entonces los parámetros RF (por ejemplo, ganancias LSP, ACB y / o FCB, y ganancia de banda superior) se descodifican para la síntesis ACELP. La copia parcial de síntesis ACELP sigue pasos similares a aquellos de la decodificación de trama primaria 96, excepto que los parámetros que faltan (por ejemplo, ciertas ganancias y retrasos de tono se transmiten sólo en subtramas suplentes) son extrapolados.
Además, si la trama previa utilizó una copia parcial para la síntesis, entonces un post-procesamiento se realiza en la trama actual para una evolución más suave de LSP y ganancias temporales. El post-procesado se controla en base al tipo de trama (por ejemplo, CON VOZ o SIN VOZ) e inclinación espectral estimada en la trama previa. Si la trama actual corresponde a una copia parcial TCX, a continuación, los parámetros de RF se utilizan para realizar una ocultación altamente guiada.
Pruebas de calidad subjetiva
Numerosas pruebas del modo sensible al canal EVS se han realizado a través pruebas de Puntaje de Opinión Media (MOS) UIT-T P.800 subjetiva realizadas en un laboratorio de pruebas independiente con 32 oyentes inexpertos. Las pruebas se realizaron para WB y SWB, utilizando metodologías de prueba de clasificación de categoría absoluta (ACR) y clasificación de categoría de degradación (DCR) [24], respectivamente. Debido a que el modo sensible al canal está diseñado específicamente para mejorar el rendimiento de las redes VoLTE, evaluar el desempeño en este tipo de redes es fundamental para establecer los beneficios potenciales. Por lo tanto, la prueba se llevó a cabo utilizando salidas de códec a partir de simulaciones en las que patrones similares a VoLTE de retrasos y pérdidas de paquetes se aplicaron a los paquetes RTP recibidos antes de la inserción en la memoria intermedia de fluctuación. Cuatro de estos patrones - o, perfiles de retardo-pérdida - se obtuvieron de los registros de llamadas reales de tiempos de llegada de paquetes RTP recogidos en las redes VoLTE en Corea del Sur y Estados Unidos.
Los perfiles resultantes imitan de cerca características de la red VoLTE en diferentes condiciones de error del canal. Al obtener los perfiles, se consideraron las características tal como fluctuación, evolución temporal de fluctuación, y explosividad de errores. Estos cuatro perfiles se identifican en la figura 10 como perfiles 7, 8, 9 y 10, y corresponden a tasas de borrado de tramas (FER) en el decodificador de aproximadamente 3%, 6%, 8%, y 10%, respectivamente. Estos mismos cuatro perfiles también se han seleccionado por 3GPP para el uso de ese cuerpo para su propia prueba de caracterización del modo sensible al canal EVS en degradaciones del canal.
Además de los perfiles VoLTE, todos los códec considerados aquí se probaron en condiciones libres de errores y también para un perfil HSPA incluido en la especificación 3GPP MTSI [10] que produce aproximadamente 6% de tasa de borrado de trama en el decodificador. En todos los experimentos, las condiciones de EVS utilizaron la memoria intermedia de fluctuación de referencia de EVS [13]. Las condiciones de AMR-WB utilizaron una memoria intermedia de retardo fija para convertir perfiles de retardo -pérdida en perfiles de pérdida de paquetes, de manera que tales paquetes que experimentan un retraso mayor que un umbral fijo se descarten como se describe en la especificación de los requisitos de rendimiento EVS [14].
Los puntuación de ACR para el caso WB se muestran en la figura 10. Para cada perfil, empezando por el perfil ("Limpio") sin errores, el gráfico compara (de izquierda a derecha) el modo AMR-WB, EVS AMR-WB IO, EVS basal WB, y EVS WB sensible al canal ("RF"). Las condiciones de AMR-WB y EVS AMR-WB IO utilizaron una tasa de bits mayor de 15,85 kbps, mientras que ambas condiciones de EVS utilizaron la misma tasa de 13,2 kbps. Estos resultados muestran que el modo sensible al canal proporciona una mejoría estadísticamente significativa en comparación con el modo no sensible al canal en todas las condiciones de borrado de trama, incluso mientras se mantiene la calidad equivalente en condiciones libres de errores. Cabe destacar que la calidad del modo sensible al canal degrada mucho más graciosamente, incluso a los 10% FER de perfil 10. En comparación con las condiciones de AMR-WB y AMR-WB-IO, el beneficio de la calidad es aún más dramático en estas Tasas FER y tiene el potencial de restaurar la inteligibilidad en períodos de alta pérdida como se podría encontrar durante una transferencia, condiciones de radio pobres, borde de los escenarios de células, o incluso en redes de mejor esfuerzo [8].
La ventaja de rendimiento del modo sensible al canal es igualmente convincente en el modo de súper banda ancha, cuyos resultados se muestran en la figura 11. Como ocurre con BM, el modo sensible al canal no degrada el rendimiento en condiciones libres de errores, pero tiene un beneficio de rendimiento estadísticamente significativo en cada uno de los perfiles con pérdida, aumentando el grado de mejora a medida que aumenta la tasa de error. La figura 11 también muestra la mejora sustancial del modo sensible al canal EVS SWB en 13,2 kb / s en comparación con AMR-WB-IO en su tasa máxima de 23,85 kb / s.
Conclusiones
El modo de codificación sensible al canal del nuevo códec 3GPP EVS ofrece a los usuarios y operadores de red un modo de codificación de error altamente resiliente para VoLTE en un punto operativo de capacidad similar a las tasas de bits más ampliamente utilizadas de servicios implementados existentes en base a AMR y AMR-WB. El modo da al códec la capacidad de mantener el servicio de voz conversacional SWB y WB de alta calidad, incluso en presencia de alta FER que pueda ocurrir durante la congestión de red, cobertura de radiofrecuencia pobre, transferencias, o en los canales de mejor esfuerzo. A pesar de su degradación progresiva de calidad bajo alta pérdida, el impacto de la calidad es insignificante en condiciones de baja pérdida o incluso ninguna pérdida. Esta robustez de error ofrecida por el modo sensible al canal permite además relajar ciertos aspectos de nivel del sistema tal como frecuencia de retransmisiones y la reducción de los retrasos del planificador. Esto a su vez tiene beneficios potenciales tal como el aumento de tal capacidad de red, reducción de sobrecarga de señalización y ahorros de energía en los teléfonos móviles. El uso del modo sensible al canal, por lo tanto, puede ser beneficioso en la mayoría de las redes sin impacto de capacidad para asegurar comunicaciones de alta calidad.
Resumiendo, la presente invención utiliza el hecho de que el codificador conoce la calidad del canal, para mejorar la calidad de voz / audio en condiciones erróneas. En contraste con la codificación sensible al canal del estado de técnica, la idea es no tener una copia parcial que es sólo una versión de tasa de bits baja de la trama codificada por método primario, pero la copia parcial consiste en múltiples parámetros claves que potencian drásticamente la ocultación. Por lo tanto el decodificador necesita distinguir entre el modo de ocultación regular donde todos los parámetros están ocultos y el modo de pérdida de trama donde los parámetros de copia parcial están disponibles. Deben tenerse cuidado especial para la pérdida de tramas de ráfaga para los casos en que la ocultación necesita a cambiar entre ocultación parcial y completa.
Si bien la presente invención se ha descrito en términos de varias formas de realización, hay alteraciones, permutaciones y equivalentes que caen dentro del alcance de la presente Invención. También hay que señalar que hay muchas formas alternativas de implementar los métodos y composiciones de la presente invención. Por tanto, se pretende que las siguientes reivindicaciones adjuntas sean interpretadas como incluyendo todas dichas alteraciones, permutaciones y equivalentes que caigan dentro del verdadero alcance y espíritu de la presente invención.
Aunque algunos aspectos se han descrito en el contexto de un aparato, está claro que estos aspectos también representan una descripción del método correspondiente, donde un dispositivo o bloque corresponde a un paso de método o característica de un del paso de método. Análogamente, los aspectos que se describen en el contexto de un paso de método también representan una descripción de un elemento o bloque o característica correspondiente de un aparato correspondiente. Algunos o todos los pasos de método pueden ser ejecutados por (o utilizando) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, algunos uno o más de los pasos de método más importantes pueden ser ejecutados por dicho aparato.
La señal de audio codificada según la invención puede ser almacenada en un medio de almacenamiento digital o puede ser transmitida en un medio de transmisión tal como un medio de transmisión inalámbrica o un medio de transmisión por cable tal como Internet.
Dependiendo de ciertos requerimientos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede ejecutarse utilizando un medio de almacenamiento digital, por ejemplo un disquete, un DVD, un Blu-Ray, un CD, una ROM, una PROM, una EPROM, una memoria EEPRo M o FLASH, que tiene señales de control legibles electrónicamente almacenadas en las mismas, que cooperan (o son capaces de cooperar) con un sistema informático programable de manera que tal se ejecute el respectivo método. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
Algunas realizaciones de acuerdo a la invención comprenden una portadora de datos que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema informático programable, de manera tal que se ejecute uno de los métodos que se describen en la presente memoria.
En general, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, donde el código de programa es operativo para ejecutar uno de los métodos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede por ejemplo almacenarse en una portadora legible por máquina.
Otras realizaciones comprenden el programa informático para ejecutar uno de los métodos que se describen en la presente memoria, almacenado en una portadora legible por máquina.
En otras palabras, una realización del método inventivo es, por ello, un programa informático que tiene un código de programa para ejecutar uno de los métodos que se describen en la presente memoria, cuando el programa informático se ejecuta en un ordenador.
Una realización adicional de los métodos inventivos es, por ello, una portadora de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para ejecutar uno de los métodos que se describen en la presente memoria. La portadora de datos, el medio de almacenamiento digital o el medio grabado son típicamente tangibles y/o no transitorios.
Una realización adicional del método inventivo es, por ello, un flujo de datos o una secuencia de señales que representan el programa informático para ejecutar uno de los métodos que se describen en la presente memoria. El flujo de datos o la secuencia de señales por ejemplo pueden configurarse para ser transferidos a través de una conexión de comunicación de datos, por ejemplo a través de Internet.
Una realización adicional comprende un medio de procesamiento, por ejemplo un ordenador, o un dispositivo lógico programable, configurado para o adaptado para realizar uno de los métodos que se describen en la presente memoria.
Una realización adicional comprende un ordenador que tiene instalado en la misma el programa informático para ejecutar uno de los métodos que se describen en la presente memoria.
Una realización adicional de acuerdo a la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, electrónica u ópticamente) un programa informático para ejecutar uno de los métodos que se describen en la presente memoria a un receptor. El receptor puede, por ejemplo, ser un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir el programa informático al receptor.
En algunas realizaciones, un dispositivo lógico programable (por ejemplo un arreglo de puerta programable de campo) se puede usar para realizar algunas o todas las funcionalidades de los métodos que se describen en la presente memoria. En algunas realizaciones, un arreglo de puerta programable de campo puede cooperar con un microprocesador para realizar uno de los métodos que se describen en la presente memoria. Generalmente, los métodos son preferentemente realizados por cualquier aparato de hardware.
El aparato que se describe en la presente memoria puede implementarse utilizando un aparato de hardware, o utilizando un ordenador, o utilizando una combinación de un aparato de hardware y un ordenador.
Los métodos que se describen en la presente memoria pueden ejecutarse utilizando un aparato de hardware, o utilizando un ordenador, o q utilizando una combinación de un aparato de hardware y un ordenador.
Las realizaciones que se describen más arriba son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles que se describen en la presente memoria serán evidentes para otros expertos en la técnica. Es la intención, por lo tanto, estar limitado sólo por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en la presente memoria.
Referencias
[1] RTP Payload for Redundant Audio Data", Internet Engineering Task Force, RFC 2198, septiembre de 1997
[2] US 6,757,654 - "Forward error correction in speech coding", Westerlund, M. and al., 29 de junio de 2004.
[3] "Adaptive joint playout buffer and FEC adjustment for Internet telephony" C. Boutremans, J.-Y. Le Boudec, INFOCOM 2003. Twenty-Second Annual Joint Conference of the IEEE Computer and Communications. IEEE Societies; 04/2003
[4] Solicitud de patente: AUDIO DECODER AND METHOD FOR PROVIDING A DECODED AUDIO INFORMATION USING AN ERROR CONCEALMENT BASED ON A TIME DOMAIN EXCITATION SIGNAL
[5] Solicitud de patente: AUDIO DECODER AND METHOD FOR PROVIDING A DECODED AUDIO INFORMATION USING AN ERROR CONCEALMENT MODIFYING A TIME DOMAIN EXCITATION SIGNAL
[6] 3GPP TS 26.448: "Codec for Enhanced Voice Services (EVS); Jitter Buffer Management".
[7] 3GPP TS 26.442: "Codec for Enhanced Voice Services (EVS); ANSI C code (fixed-point)".
[8] D. J. Sinder, I. Varga, V. Krishnan, V. Rajendran and S. Villette, “Recent Speech Coding Technologies and Standards,” in Speech and Audio Processing for Coding, Enhancement and Recognition, T. Ogunfunmi, R. Togneri, M. Narasimha, Eds., Springer, 2014.
[9] J. Sjoberg, M. Westerlund, A. Lakaniemi and Q. Xie, “RTP Payload Format and File Storage Format for the Adaptive Multi-Rate (AMR) and Adaptive Multi-Rate Wideband (AMR-WB) Audio Codecs,” abril de 2007. [En línea]. Disponible: http://tools.ietf.org/html/rfc4867.
[10] 3GPP TS 26.114, “Multimedia Telephony Service for IMS,” V12.7.0, septiembre de 2014.
[11] 3GPP TS 26.445: “EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12),” 2014.
[12] 3GPP, TS 26.447, “Codec for Enhanced Voice Services (EVS); Error Concealment of Lost Packets (Release 12),” 2014.
[13] 3GPP TS 26.448: “EVS Codec Jitter Buffer Management (Release 12),” 2014.
[14] 3GPP Tdoc S4-130522, “EVS Permanent Document (EVS-3): EVS performance requirements,” Versión 1.4.
[15] S. Bruhn, et al., “Standardizaron of the new EVS Codec,” submitted to IEEE ICASSP, Brisbane, Australia, abril de 2015.
[16] M. Dietz, et al., “OverView of the EVS codec architecture,” submitted to IEEE ICASSP, Brisbane, Australia, abril de 2015.
[17] V. Atti, et al., “Super-wideband bandwidth extension for speech in the 3GPP EVS codec,” submitted to IEEE ICASSP, Brisbane, Australia, abril de 2015.
[18] G. Fuchs, et al., “Low delay LPC and MDCT-based Audio Coding in EVS,” submitted to IEEE ICASSP, Brisbane, Australia, abril de 2015.
[19] S. Disch et al., “Temporal tile shaping for spectral gap filling within TCX in EVS Codec,” submitted to IEEE ICASSP, Brisbane, Australia, abril de 2015.
[20] J. Lecomte et al., “Packet Loss Concealment Technology Advances in EVS,” submitted to IEEE ICASSP, Brisbane, Australia, abril de 2015.
[21] B. Bessette, et al, “The adaptive multi-rate wideband speech codec (AMR-WB),” IEEE Trans. on Speech and Audio Processing, vol. 10, no. 8, pp. 620-636, noviembre de 2002.
[22] E. Ravelli, et al., “Open loop switching decision based on evaluation of coding distortions for audio codecs,” submitted to IEEE ICASSP, Brisbane, Australia, abril de 2015.
[23] M. Jelínek, T. Vaillancourt, and Jon Gibbs, “G.718: A New Embedded Speech and Audio Coding Standard with High Resilience to Error-Prone Transmission Channels,” IEEE Communications Magazine, vol. 47, no. 10, pp. 117­ 123, octubre de 2009.
[24] ITU-T P.800, “Methods for Subjective Determination of Transmission Quality,” International Telecommunication Union (ITU), Series P., agosto de 1996.

Claims (10)

  1. REIVINDICACIONES
    i . Codificador (1) para codificar contenido de audio (2) usando al menos un esquema de codificación TCX, en donde el codificador (1) está configurado para
    proporcionar una representación codificada primaria (4) de una trama actual y una representación codificada (8) de al menos un parámetro de ocultación de error (6) para proporcionar una ocultación de error guiada del lado del decodificador de la trama actual, en donde la representación codificada (8) del al menos un parámetro de ocultación de error (6) se transmite en banda como parte de la carga códec,
    en donde el codificador (1) está configurado para combinar la representación codificada (8b) del al menos un parámetro de ocultación de error (6) de la trama actual con una representación codificada primaria (4c) de una trama futura en un paquete de transporte (9) de manera que la representación codificada (8b) del al menos un parámetro de ocultación de error (6) de la trama actual se envíe con un retraso de tiempo relacionado con la representación codificada primaria (4b) de la trama actual,
    en donde el codificador (1) está configurado para seleccionar el al menos un parámetro de ocultación de error (6) basándose en uno o más parámetros que representan una característica de señal del contenido de audio (2) contenido en la trama actual,
    en donde el codificador (1) está configurado para elegir de manera selectiva entre al menos dos modos para proporcionar una representación codificada (8) del al menos un parámetro de ocultación de error (6),
    en donde al menos uno de los modos para proporcionar una representación codificada (8) del al menos un parámetro de ocultación de error (6) es un modo de ocultación de dominio de tiempo de manera que la representación codificada (8) del al menos un parámetro de ocultación de error (6) comprende uno o más de un retraso TCX LTP y una información de clasificador,
    y en donde al menos uno de los modos para proporcionar una representación codificada (8) del al menos un parámetro de ocultación de error (6) es un modo de ocultación de dominio de frecuencia de manera que la representación codificada (8) del al menos un parámetro de ocultación de error (6) comprende uno o más de un parámetro LSF, una ganancia global TCX y una información de clasificador.
  2. 2. Codificador (1) de la reivindicación 1, en donde el modo de ocultación de dominio de tiempo se selecciona si el contenido de audio (2) contenido en la trama actual contiene un transitorio o si la ganancia global del contenido de audio (2) contenida en la trama actual es inferior a la ganancia global de la trama anterior.
  3. 3. Codificador (1) de acuerdo con una de las reivindicaciones 1 a 2, en donde la ocultación de error guiada del lado del decodificador es una ocultación de error basada en extrapolación.
  4. 4. Codificador de acuerdo con una de las reivindicaciones 1 a 3, en donde la selección de un modo para proporcionar una representación codificada (8) del al menos un parámetro de ocultación de error (6) se basa en parámetros que comprenden al menos una de una clase de trama, un tono LTP, una ganancia LTP y un modo para proporcionar una representación codificada (8) del al menos un parámetro de ocultación de error (6) de una o más tramas anteriores.
  5. 5. Decodificador (31) para decodificar contenido de audio (2) usando al menos un esquema de codificación TCX, en donde el decodificador (31) está configurado para
    recibir una representación codificada primaria (4) de una trama actual y/o una representación codificada (8) de al menos un parámetro de ocultación de error (6) para proporcionar una ocultación de error guiada del lado del decodificador de la trama actual, en donde la representación codificada (8) del al menos un parámetro de ocultación de error (6) se transmite en banda como parte de la carga códec,
    en donde el decodificador (31) está configurado para extraer el parámetro de ocultación de error (6) de una trama actual de un paquete (9b) que está separado de un paquete (9a) en el que está contenida la representación codificada primaria (4) de la trama actual,
    en donde el decodificador (31) está configurado para usar la ocultación de error guiada para reconstruir al menos parcialmente el contenido de audio (2) de la trama actual usando el al menos un parámetro de ocultación de error (6) en el caso de que la representación codificada primaria (4) de la trama actual se pierda, se dañe o se demore,
    en donde el decodificador (31) está configurado para elegir de manera selectiva entre al menos dos modos de ocultación de error que usan diferentes representaciones codificadas (8) de uno o más parámetros de ocultación de error (6) para reconstruir al menos parcialmente el contenido de audio (2) usando la ocultación de error guiada,
    en donde al menos uno de los al menos dos modos de ocultación de error que usan diferentes representaciones codificadas (8) de uno o más parámetros de ocultación de error (6) es un modo de ocultación de dominio de tiempo en donde la representación codificada (8) del al menos un parámetro de ocultación de error (6) comprende al menos uno de un retraso TCX LTP y una información de clasificador,
    y en donde al menos uno de los al menos dos modos de ocultación de error que usan diferentes representaciones codificadas (8) de uno o más parámetros de ocultación de error (6) es un modo de ocultación de dominio de frecuencia en donde la representación codificada (8) del al menos un parámetro de ocultación de error (6) comprende uno o más de un parámetro LSF, una ganancia global TCX y una información de clasificador.
  6. 6. Decodificador (31) de acuerdo con la reivindicación 5, en donde la ocultación de error guiada del lado del decodificador es una ocultación de error basada en extrapolación.
  7. 7. Sistema que comprende el codificador de las reivindicaciones 1 a 4 y el decodificador de las reivindicaciones 5 a 6.
  8. 8. Método para codificar contenido de audio (2) usando al menos un esquema de codificación TCX, comprendiendo el método las etapas de:
    proporcionar una representación codificada primaria (4) de una trama actual y una representación codificada (8) de al menos un parámetro de ocultación de error (6) para proporcionar una ocultación de error guiada del lado del decodificador de la trama actual, y transmitir la representación codificada (8) del al menos un parámetro de ocultación de error (6) en banda como parte de la carga códec,
    combinar la representación codificada (8b) del al menos un parámetro de ocultación de error (6) de la trama actual con una representación codificada primaria (4c) de una trama futura en un paquete de transporte (9) de manera que la representación codificada (8b) del al menos un parámetro de ocultación de error (6) de la trama actual se envíe con un retraso de tiempo relacionado con la representación codificada primaria (4b) de la trama actual,
    seleccionar el al menos un parámetro de ocultación de error (6) basándose en uno o más parámetros que representan una característica de señal del contenido de audio (2) contenido en la trama actual,
    y elegir de manera selectiva entre al menos dos modos para proporcionar una representación codificada (8) del al menos un parámetro de ocultación de error (6),
    en donde al menos uno de los modos para proporcionar una representación codificada (8) del al menos un parámetro de ocultación de error (6) es un modo de ocultación de dominio de tiempo de manera que la representación codificada (8) del al menos un parámetro de ocultación de error (6) comprende uno o más de un retraso TCX LTP y una información de clasificador,
    y en donde al menos uno de los modos para proporcionar una representación codificada (8) del al menos un parámetro de ocultación de error (6) es un modo de ocultación de dominio de frecuencia de manera que la representación codificada (8) del al menos un parámetro de ocultación de error (6) comprende uno o más de un parámetro LSF, una ganancia global TCX y una información de clasificador.
  9. 9. Método de la reivindicación 8, en donde el modo de ocultación de dominio de tiempo se selecciona si el contenido de audio (2) contenido en la trama actual contiene un transitorio o si la ganancia global del contenido de audio (2) contenido en la trama actual es inferior a la ganancia global de la trama anterior.
  10. 10. Método para decodificar contenido de audio (2) usando al menos un esquema de codificación TCX, comprendiendo el método las etapas de:
    recibir una representación codificada primaria (4) de una trama actual y/o una representación codificada (8) de al menos un parámetro de ocultación de error (6) para proporcionar una ocultación de error guiada del lado del decodificador de la trama actual, en donde la representación codificada (8) del al menos un parámetro de ocultación de error (6) se transmite en banda como parte de la carga códec,
    extraer el al menos un parámetro de ocultación de error (6) de una trama actual de un paquete (9b) que está separado de un paquete (9a) en el que está contenida la representación codificada primaria (4) de la trama actual,
    usar, en el lado del decodificador, la ocultación de error guiada para reconstruir al menos parcialmente el contenido de audio (2) de la trama actual usando el al menos un parámetro de ocultación de error (6) en el caso de que la representación codificada primaria (4) de la trama actual se pierda, se dañe o se demore, y elegir de manera selectiva entre al menos dos modos de ocultación de error que usan diferentes representaciones codificadas (8) de uno o más parámetros de ocultación de error (6) para reconstruir al menos parcialmente el contenido de audio (2) usando la ocultación de error guiada,
    en donde al menos uno de los al menos dos modos de ocultación de error que usan diferentes representaciones codificadas (8) de uno o más parámetros de ocultación de error (6) es un modo de ocultación de dominio de tiempo en donde la representación codificada (8) del al menos un parámetro de ocultación de error (6) comprende al menos uno de un retraso TCX LTP y una información de clasificador, y en donde al menos uno de los al menos dos modos de ocultación de error que usa diferentes representaciones codificadas (8) de uno o más parámetros de ocultación de error (6) es un modo de ocultación de dominio de frecuencia en donde la representación codificada (8) del al menos un parámetro de ocultación de error (6) comprende uno o más de un parámetro LSF, una ganancia global TCX y una información de clasificador.
    Programa informático para implementar el método de una de las reivindicaciones 8, 9 o 10 cuando se ejecuta en un ordenador o procesador de señales.
ES17168268T 2014-08-27 2015-08-24 Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación Active ES2839509T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP14182553 2014-08-27
EP15164126 2015-04-17

Publications (1)

Publication Number Publication Date
ES2839509T3 true ES2839509T3 (es) 2021-07-05

Family

ID=53887141

Family Applications (3)

Application Number Title Priority Date Filing Date
ES19202304T Active ES2924351T3 (es) 2014-08-27 2015-08-24 Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación
ES15753061T Active ES2826374T3 (es) 2014-08-27 2015-08-24 Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación
ES17168268T Active ES2839509T3 (es) 2014-08-27 2015-08-24 Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES19202304T Active ES2924351T3 (es) 2014-08-27 2015-08-24 Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación
ES15753061T Active ES2826374T3 (es) 2014-08-27 2015-08-24 Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación

Country Status (18)

Country Link
US (3) US10878830B2 (es)
EP (3) EP3220389B1 (es)
JP (3) JP6533285B2 (es)
KR (1) KR102016542B1 (es)
CN (2) CN112786060B (es)
AU (1) AU2015308980B2 (es)
BR (1) BR112017003887B1 (es)
CA (3) CA3051511C (es)
ES (3) ES2924351T3 (es)
HK (1) HK1244349A1 (es)
MX (1) MX2017002427A (es)
MY (1) MY192253A (es)
PL (2) PL3220389T3 (es)
RU (1) RU2701707C2 (es)
SG (1) SG11201701517XA (es)
TW (1) TWI602172B (es)
WO (1) WO2016030327A2 (es)
ZA (1) ZA201701930B (es)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9620138B2 (en) * 2014-05-08 2017-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Audio signal discriminator and coder
ES2838006T3 (es) * 2014-07-28 2021-07-01 Nippon Telegraph & Telephone Codificación de señal de sonido
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
US20170187635A1 (en) * 2015-12-28 2017-06-29 Qualcomm Incorporated System and method of jitter buffer management
BR112018067944B1 (pt) 2016-03-07 2024-03-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Unidade de ocultação de erro, método de ocultação de erro,decodificador de áudio, codificador de áudio, método para fornecer uma representação de áudio codificada e sistema
US10517021B2 (en) 2016-06-30 2019-12-24 Evolve Cellular Inc. Long term evolution-primary WiFi (LTE-PW)
US9967306B1 (en) * 2016-09-08 2018-05-08 Sprint Spectrum L.P. Prioritized transmission of redundancy data for packetized voice communication
US10439641B2 (en) * 2017-06-02 2019-10-08 Nxp B.V. Error estimation in signal communications
KR102051891B1 (ko) * 2017-08-10 2019-12-04 한양대학교 산학협력단 대립쌍 구조 기반의 생성모델을 이용한 패킷손실은닉 방법 및 장치
FR3071997A1 (fr) * 2017-10-02 2019-04-05 Orange Signalisation d’une requete d’adaptation d’une session de communication en voixsur ip
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
US10365885B1 (en) 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
US10652121B2 (en) * 2018-02-26 2020-05-12 Genband Us Llc Toggling enhanced mode for a codec
US10475456B1 (en) * 2018-06-04 2019-11-12 Qualcomm Incorporated Smart coding mode switching in audio rate adaptation
US10990812B2 (en) * 2018-06-20 2021-04-27 Agora Lab, Inc. Video tagging for video communications
CN109599124B (zh) * 2018-11-23 2023-01-10 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
MX2021007109A (es) * 2018-12-20 2021-08-11 Ericsson Telefon Ab L M Metodo y aparato para controlar el ocultamiento de perdida de tramas de audio multicanal.
US10784988B2 (en) * 2018-12-21 2020-09-22 Microsoft Technology Licensing, Llc Conditional forward error correction for network data
US10803876B2 (en) 2018-12-21 2020-10-13 Microsoft Technology Licensing, Llc Combined forward and backward extrapolation of lost network data
KR102664768B1 (ko) * 2019-01-13 2024-05-17 후아웨이 테크놀러지 컴퍼니 리미티드 고해상도 오디오 코딩
WO2020164753A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
CN110275828B (zh) * 2019-06-06 2022-11-22 江西理工大学 一种计算机软件优化测试数据有效载荷的方法
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
CN110266625B (zh) * 2019-06-25 2022-01-04 西安空间无线电技术研究所 一种基于帧同步码隐含于信息码的qpsk调制的动态门限判决的解调方法及系统
US11501787B2 (en) * 2019-08-22 2022-11-15 Google Llc Self-supervised audio representation learning for mobile devices
WO2021200151A1 (ja) * 2020-03-30 2021-10-07 ソニーグループ株式会社 送信装置、送信方法、受信装置、及び受信方法
CN111554322A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质
CN111554309A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质
CN112634868B (zh) * 2020-12-21 2024-04-05 北京声智科技有限公司 一种语音信号处理方法、装置、介质和设备
CN113035208B (zh) * 2021-03-04 2023-03-28 北京百瑞互联技术有限公司 一种音频解码器的分级错误隐藏方法、装置及存储介质
CN112802485B (zh) * 2021-04-12 2021-07-02 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
KR20230023306A (ko) * 2021-08-10 2023-02-17 삼성전자주식회사 컨텐츠 데이터를 기록하는 전자 장치 및 그 방법

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5091945A (en) * 1989-09-28 1992-02-25 At&T Bell Laboratories Source dependent channel coding with error protection
ATE294441T1 (de) * 1991-06-11 2005-05-15 Qualcomm Inc Vocoder mit veränderlicher bitrate
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US7209900B2 (en) * 1999-08-27 2007-04-24 Charles Eric Hunter Music distribution systems
GB2358558B (en) * 2000-01-18 2003-10-15 Mitel Corp Packet loss compensation method using injection of spectrally shaped noise
US6757654B1 (en) 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US7013267B1 (en) * 2001-07-30 2006-03-14 Cisco Technology, Inc. Method and apparatus for reconstructing voice information
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
KR100617165B1 (ko) * 2004-11-19 2006-08-31 엘지전자 주식회사 워터마크 삽입/검출 기능을 갖는 오디오 부호화/복호화장치 및 방법
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US20070174054A1 (en) * 2006-01-25 2007-07-26 Mediatek Inc. Communication apparatus with signal mode and voice mode
CN101046964B (zh) * 2007-04-13 2011-09-14 清华大学 基于重叠变换压缩编码的错误隐藏帧重建方法
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN101437009B (zh) * 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其系统
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
CA2777073C (en) * 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
TWI430263B (zh) * 2009-10-20 2014-03-11 Fraunhofer Ges Forschung 音訊信號編碼器、音訊信號解碼器、使用混疊抵消來將音訊信號編碼或解碼之方法
KR101761629B1 (ko) * 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8560330B2 (en) * 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
JP5749462B2 (ja) * 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
EP2676270B1 (en) * 2011-02-14 2017-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coding a portion of an audio signal using a transient detection and a quality result
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
TWI610296B (zh) * 2011-10-21 2018-01-01 三星電子股份有限公司 訊框錯誤修補裝置及音訊解碼裝置
US9047863B2 (en) * 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding
JP6088644B2 (ja) * 2012-06-08 2017-03-01 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
TWI553628B (zh) 2012-09-24 2016-10-11 三星電子股份有限公司 訊框錯誤隱藏方法
EP2944055A4 (en) * 2013-01-11 2016-08-17 Db Networks Inc SYSTEMS AND METHOD FOR DETECTING AND WEAKING DOWN THREATS FOR A STRUCTURED DATA STORAGE SYSTEM
CN111179954B (zh) * 2013-03-04 2024-03-12 声代Evs有限公司 用于降低时域解码器中的量化噪声的装置和方法
BR112016004299B1 (pt) * 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
US10614816B2 (en) * 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法

Also Published As

Publication number Publication date
US20170169833A1 (en) 2017-06-15
CA3051511A1 (en) 2016-03-03
ES2924351T3 (es) 2022-10-06
PL3220389T3 (pl) 2021-04-06
EP3220389B1 (en) 2020-09-30
US20240005935A1 (en) 2024-01-04
EP3618066A1 (en) 2020-03-04
CA3008321C (en) 2020-06-30
PL3618066T3 (pl) 2022-10-31
US10878830B2 (en) 2020-12-29
WO2016030327A2 (en) 2016-03-03
CA2958932A1 (en) 2016-03-03
RU2017109774A3 (es) 2018-09-27
RU2701707C2 (ru) 2019-09-30
TW201610985A (zh) 2016-03-16
CN107077851B (zh) 2021-02-02
KR20170047297A (ko) 2017-05-04
JP6533285B2 (ja) 2019-06-19
BR112017003887A2 (pt) 2018-01-23
CN112786060A (zh) 2021-05-11
JP7245856B2 (ja) 2023-03-24
CN107077851A (zh) 2017-08-18
CA3051511C (en) 2022-07-12
CA2958932C (en) 2020-03-10
ZA201701930B (en) 2018-05-30
MY192253A (en) 2022-08-11
BR112017003887B1 (pt) 2023-11-28
EP3186806A2 (en) 2017-07-05
EP3618066B1 (en) 2022-06-22
AU2015308980A1 (en) 2017-03-16
MX2017002427A (es) 2017-05-15
WO2016030327A3 (en) 2016-05-12
SG11201701517XA (en) 2017-03-30
JP2019049743A (ja) 2019-03-28
CN112786060B (zh) 2023-11-03
AU2015308980B2 (en) 2017-12-14
JP6827997B2 (ja) 2021-02-10
RU2017109774A (ru) 2018-09-27
CA3008321A1 (en) 2016-03-03
ES2826374T3 (es) 2021-05-18
HK1244349A1 (zh) 2018-08-03
TWI602172B (zh) 2017-10-11
KR102016542B1 (ko) 2019-10-21
EP3186806B1 (en) 2020-08-12
US11735196B2 (en) 2023-08-22
EP3220389A1 (en) 2017-09-20
JP2021101235A (ja) 2021-07-08
US20210104251A1 (en) 2021-04-08
JP2017529565A (ja) 2017-10-05

Similar Documents

Publication Publication Date Title
ES2839509T3 (es) Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación
US10424306B2 (en) Frame erasure concealment for a multi-rate speech and audio codec
KR102229487B1 (ko) 리던던트 프레임 정보를 통신하는 시스템들 및 방법들
Atti et al. Improved error resilience for VOLTE and VOIP with 3GPP EVS channel aware coding
BR112014017120B1 (pt) Sistemas, métodos aparelho, e mídia legível por computador para controle de limite de criticalidade