ES2651988T3 - Transición desde una codificación/decodificación por transformada hacia una codificación/decodificación predictiva - Google Patents
Transición desde una codificación/decodificación por transformada hacia una codificación/decodificación predictiva Download PDFInfo
- Publication number
- ES2651988T3 ES2651988T3 ES14821711.0T ES14821711T ES2651988T3 ES 2651988 T3 ES2651988 T3 ES 2651988T3 ES 14821711 T ES14821711 T ES 14821711T ES 2651988 T3 ES2651988 T3 ES 2651988T3
- Authority
- ES
- Spain
- Prior art keywords
- decoding
- frame
- coefficients
- predictive
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007704 transition Effects 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000002441 reversible effect Effects 0.000 claims abstract description 24
- 230000003044 adaptive effect Effects 0.000 claims abstract description 23
- 230000005236 sound signal Effects 0.000 claims abstract description 13
- 230000015654 memory Effects 0.000 claims description 58
- 238000005070 sampling Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 238000003786 synthesis reaction Methods 0.000 claims description 14
- 230000007774 longterm Effects 0.000 claims description 9
- 238000011002 quantification Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 239000011692 calcium ascorbate Substances 0.000 claims description 3
- 239000000541 tocopherol-rich extract Substances 0.000 claims description 3
- 239000002478 γ-tocopherol Substances 0.000 claims description 3
- 230000005284 excitation Effects 0.000 description 17
- 230000009466 transformation Effects 0.000 description 14
- 239000000523 sample Substances 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 5
- 239000004261 Ascorbyl stearate Substances 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000003292 diminished effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 1
- 239000004099 Chlortetracycline Substances 0.000 description 1
- 239000004104 Oleandomycin Substances 0.000 description 1
- 239000004100 Oxytetracycline Substances 0.000 description 1
- 239000004105 Penicillin G potassium Substances 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 239000004098 Tetracycline Substances 0.000 description 1
- 239000000728 ammonium alginate Substances 0.000 description 1
- 235000010407 ammonium alginate Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000648 calcium alginate Substances 0.000 description 1
- 235000010410 calcium alginate Nutrition 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000542 fatty acid esters of ascorbic acid Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000000737 potassium alginate Substances 0.000 description 1
- 235000010408 potassium alginate Nutrition 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000000770 propane-1,2-diol alginate Substances 0.000 description 1
- 235000010409 propane-1,2-diol alginate Nutrition 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000000661 sodium alginate Substances 0.000 description 1
- 235000010413 sodium alginate Nutrition 0.000 description 1
- PPASLZSBLFJQEF-RKJRWTFHSA-M sodium ascorbate Substances [Na+].OC[C@@H](O)[C@H]1OC(=O)C(O)=C1[O-] PPASLZSBLFJQEF-RKJRWTFHSA-M 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000002076 α-tocopherol Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Método de decodificación de una señal de audio digital, que comprende las etapas de: - decodificación (E602) según una decodificación por transformada inversa de una trama precedente de muestras de la señal digital recibida y codificada según una codificación por transformada; - decodificación (E608), según una decodificación predictiva de una trama en curso de muestras de la señal digital recibida y codificada según una codificación predictiva, estando el método caracterizado por cuanto que la decodificación predictiva de la trama en curso es una decodificación predictiva de transición que no utiliza un diccionario adaptativo procedente de la trama precedente y que incluye, además: - una etapa de reinicialización (E606) de al menos un estado de decodificación predictiva a un valor por defecto predeterminado; - una etapa de adición-solapamiento (E609) que combina un segmento de señal sintetizado mediante decodificación predictiva de la trama en curso y un segmento de señal sintetizado por decodificación por transformada inversa, que corresponde a un segmento memorizado de la decodificación de la trama precedente
Description
5
10
15
20
25
30
35
40
45
50
55
DESCRIPCION
Transicion desde una codificacion/decodificacion por transformada hacia una codificacion/decodificacion predictiva CAMPO TECNICO
La presente invencion se refiere al dominio de la codificacion de las senales digitales.
La codificacion segun la invencion esta adaptada, en particular, para la transmision y/o el almacenamiento de senales de audio digitales tales como senales de audiofrecuencias (palabra, musica u otras).
La invencion se aplica ventajosamente a la codificacion unificada de las senales de palabra, musica y contenido mixto, por intermedio de tecnicas multimodales que alternan al menos dos modos de codificacion y cuyo retardo algoritmico esta adaptado a las aplicaciones conversacionales (normalmente <40 ms).
Para codificar eficazmente los sonidos vocales, las tecnicas de tipo CELP (“Code Excited Linear Prediction”) o su variante ACELP (por “Algebraic Code Excited Linear Prediction”) son preconizadas, siendo igualmente propuestas mas recientemente alternativas a la codificacion CELP tales como los codificadores BV16, BV32, iLBC o SILK. Para codificar eficazmente los sonidos musicales, se preconiza mas bien las tecnicas de codificacion por transformada.
Los codificadores por prediccion lineal, y mas en particular, los del tipo CELP, son codificadores predictivos. Tienen por objeto modelizar la produccion de la palabra a partir de al menos una parte de los elementos siguientes: una prediccion lineal a corto plazo para modelizar el conducto vocal, una prediccion a largo plazo para modelizar la vibracion de las cuerdas vocales en periodo sonoro, y una excitacion derivada de un diccionario de cuantificacion vectorial en general calificado de diccionario fijo (ruido blanco, excitacion algebraica) para representar la “innovacion” que no ha podido ser modelizada mediante prediccion.
Los codificadores por transformada mas utilizados (codificador MPEG AAC o ITU-T G.722.1 Anexo C a modo de ejemplo) utilizan transformadas de muestreo critico de tipo MDCT (por “Modified Discrete Transform”) con el fin de compactar la senal en el dominio transformado. Se denomina “transformada de muestreo critico”, una transformada para la cual el numero de coeficientes en el dominio transformado es igual al numero de muestras temporales analizadas.
Una solucion para codificar eficazmente una senal que contiene estos dos tipos de contenido consiste en seleccionar en el curso del tiempo (trama por trama) la mejor tecnica. Esta solucion ha sido preconizada, en particular, por el organismo de normalizacion 3GPP (“3rd Generation Partnership Project”) mediante una tecnica denominada AMR WB+ (o Enhanced AMR-WB) y mas recientemente, por el codec MPEG-H USAC (por “Unified Speech Audio Coding” en ingles). Las aplicaciones consideradas por AMR-WB+ y USAC no son conversacionales, sino que corresponden a servicios de difusion y almacenamiento, sin limitaciones fuertes sobre el retardo algoritmico.
La norma USAC esta publicada en el documento ISO/IEC 23003-3:2012, Tecnologia de la informacion --Tecnologias de audio MPEG --Parte 3: Codificacion unificada de la voz y audio.
A titulo ilustrativo, la version inicial del codec, USAC, denominada RM0 (Modelo de Referencia 0), se describe en el articulo de M. Neuendorf et al, titulado: Un sistema nuevo para la codificacion unificada de la voz y audio de baja tasa binaria - MPEG RM0, 7-10 mayo 2009, 126th AES Convention. Este codec (codificador-decodificador) alterna entre al menos dos modos de codificacion:
- Para las senales de tipo palabra: modos LPD (por “Linear Predictive Domain”) que utiliza una tecnica ACELP.
- Para las senales de tipo musica: modo FD (por “Frequency Domain”) que utiliza una tecnica MDCT (por “Transformada Discreta Modificada”).
Se recuerda, a continuation, los principios de las codificaciones ACELP y MDCT.
De un lado, la codificacion CELP - y su variante ACELP - es una codificacion predictiva fundada en el modelo de fuente- filtro. El filtro corresponde, en general, a un filtro de todos polos de funcion de transferencia 1/ A(z) obtenido por
prediccion lineal (LPC por Linear Predictive Coding). En la practica, la sintesis utiliza la version cuantificada, 1/ A(z),
del filtro 1 / A(z). La fuente - es decir, la excitacion del filtro lineal predictivo 1 / A(z) - es, en general, la combination de una excitacion obtenida por prediccion a largo plazo que modeliza la vibracion de las cuerdas vocales, y de una
5
10
15
20
25
30
35
40
45
50
55
60
excitacion estocastica (o innovation) descrita bajo la forma de codigos algebraicos (ACELP), de diccionarios de ruido, etc. La busqueda de la excitacion (optima) se realiza mediante la minimization de un criterio de error cuadratico en el dominio de la senal ponderada mediante un filtro de funcion de transferencia W(z) en general derivada del filtro de prediction lineal A(z), de la forma W(z)= A(z/fl)/A(z/y2). Se hace constar que numerosas variantes del modelo CELP han sido propuestas y se considerara aqui el ejemplo de la codification CELP de la norma UIT-T G.718 en donde dos filtros LPC son cuantificados por trama y la excitacion LPC se codifica en funcion de una clasificacion, con vocalizados modos adaptados a los sonidos, no vocalizados, transitorios, etc. Ademas, se han propuesto, asimismo, alternativas a la codificacion CELP, tales como los codificadores BV16, BV32, iLBC o SILK que permanecen sobre la base de la prediccion lineal. En general, la codificacion predictiva, tal como la codificacion CELP, funciona a frecuencias de muestra limitadas (<16 kHz) por razones historicas y otras (limites de la prediccion lineal en banda ancha, complejidad algoritmica para frecuencias elevadas, etc.). De este modo para funcionar con frecuencias de normalmente 16 a 48 kHz se utilizan igualmente operaciones de re-muestreo (mediante un filtro FIR, bancos de filtro o filtro IIR) y ocasionalmente, una codificacion separada de la banda alta que puede ser una extension de banda parametrica - estas operaciones de re- muestreo y de codificacion de banda alta no son aqui objeto de revision.
De otro lado, la codificacion por transformation MDCT se divide entre tres etapas para el codificador:
1. Ponderacion de la senal mediante una ventana aqui denominada “ventana MDCT” en una longitud correspondiente a 2 bloques.
2. Repliegue temporal (o “time-domain aliasing” en ingles) para formar un bloque reducido (de longitud dividida por 2).
3. Transformacion DCT-IV (“Discrete cosine Transform”) del bloque reducido.
Se hace constar que variantes de calculo de tipo de transformacion TDAC pueden utilizar, a modo de ejemplo, una transformada de Fourier (FFT) en lugar de una transformada DCT.
La ventana MDCT se divide, en general, en 4 partes adyacentes de longitudes iguales denominadas “cuartos”.
La senal se multiplica por la ventana de analisis y luego se realizan los repliegues: el primer cuarto (en ventana) es replegado (es decir, invertido en el tiempo y puesto en solapamiento) sobre el segundo y el cuarto de los cuartos se repliega sobre el tercero.
Mas concretamente, el repliegue de un cuarto sobre otro se realiza de la forma siguiente: la primera muestra del primer cuarto es objeto de adicion (o sustraccion) a la ultima muestra del segundo cuarto, la segunda muestra del primer cuarto se anade (o sustrae) a la antepenultima muestra del segundo cuarto y asi sucesivamente, hasta la ultima muestra del primer cuarto que es objeto de adicion (o sustraccion) a la primera muestra del segundo cuarto.
Se obtiene, por lo tanto, a partir de 4 cuartos, 2 cuartos replegados en donde cada muestra es el resultado de una combination lineal de 2 muestras de la senal a codificar. Esta combination lineal se denomina repliegue temporal. Se hace constar que el repliegue temporal (tambien denominado “temporal aliasing” en ingles) corresponde a mezclar dos segmentos temporales y el nivel relativo de dos segmentos temporales en cada “cuarto replegado” en funcion de las ventanas de analisis/smtesis.
Estos 2 cuartos replegados se codifican, a continuation, conjuntamente despues de la transformacion DCT. Para la trama siguiente se desplaza en una mitad de ventana (o sea, un 50% de solapamiento), el tercer y cuarto de los cuartos de la trama precedente se convierten en el primer y segundo cuartos de la trama en curso. Despues del repliegue, se envia una segunda combinacion lineal de los mismos pares de muestras como en la trama precedente, pero con pesos distintos.
En el decodificador, despues de la transformacion DCT inversa, se obtiene, por lo tanto, la version decodificada de estas senales replegadas. Dos tramas consecutivas contienen el resultado de 2 repliegues distintos de los mismos 2 cuartos, es decir, para cada par de muestras se tiene el resultado de 2 combinaciones lineales con pesos diferentes pero conocidos: un sistema de ecuaciones se resuelve, por lo tanto, para obtener la version decodificada de la senal de entrada, el repliegue temporal puede ser asi suprimido utilizando 2 tramas decodificadas sucesivas.
La resolution de los sistemas de ecuaciones mencionados se realiza, en general, mediante un despliegue, la multiplication por una ventana de sintesis adecuadamente elegida y luego la adicion-solapamiento de las partes comunes. Esta adicion-solapamiento asegura al mismo tiempo la transition suave (sin discontinuidad debida a los errores de cuantificacion) entre 2 tramas decodificadas consecutivas; en efecto, esta operation se comporta como un fundido encadenado. Cuando la ventana para el primer cuarto o el cuarto de los cuartos se pone a cero para cada
5
10
15
20
25
30
35
40
45
50
55
60
muestra, se denomina una transformacion MDCT sin despliegue temporal en esta parte de la ventana. En este caso, la transition suave no esta asegurada por la transformacion MDCT, debiendo efectuarse por otros medios como, a modo de ejemplo, una fundicion encadenada exterior.
La codification por transformada (tal como la codification de tipo MDCT) puede, en teoria, adaptarse facilmente a diferentes frecuencias de muestreo de entrada y de salida, tal como se ilustra en la puesta en practica combinada en el Anexo C de G.722.1 que incluye la codificacion G.722.1; sin embargo, se puede utilizar tambien la codificacion por transformada con operaciones de pre/post-procesamiento con el re-muestreo (mediante un filtro FIR, bancos de filtro o filtro IIR), con ocasionalmente una codificacion separada de la banda alta que puede ser una extension de banda parametrica. Estas operaciones de re-muestreo y de codificacion de banda alta no son aqui objeto de revision, pero el codificador 3GPP e-AAC+ proporciona un ejemplo de realization de una tal combination (re-muestreo, codificacion por transformada en banda baja y extension de banda).
Conviene senalar que la banda acustica codificada por los diferentes modos (LPD temporal con base de prediction lineal, FD frecuencial con base de transformada) puede variar segun el modo seleccionado y la magnitud del flujo. Por otro lado, la decision de modo es posible que se realice en bucle abierto (u “open-loop” en ingles) para cada trama, es decir, que la decision se toma a priori en funcion de los datos y de las observaciones disponibles o en bucle cerrado como en la codificacion AMR-WB+.
En los codecs que utilizan al menos dos modos de codificaciones, las transiciones entre los modos LPD y FD son importantes para asegurar una calidad suficiente sin defecto de conmutacion, sabiendo que los modos FD y LPD son de naturaleza diferente - uno se basa en una codificacion por transformada en el dominio frecuencial de la senal mientras que el otro utiliza una codificacion lineal predictiva (temporal) con memorias de filtros que son actualizadas en cada trama. Un ejemplo de gestion de conmutaciones intermodos que corresponde al codec USAC RM0, se detalla en el articulo de J. Lecomte et al, titulado: “Ventanas de desvanecimiento cruzado eficiente para transiciones entre codificacion de audio basada en LPC y no basada en LPC”, 7-10 mayo 2009, 126th AES Convention. Segun se explica en este articulo, la dificultad principal reside en las transiciones entre modos LDP hacia FD y viceversa.
Para tratar el problema de transicion entre un nucleo de tipo FD a un nucleo de tipo LPD, la solicitud de patente publicada bajo el numero WO2013/016262 (ilustrada en la Figura 1) propone actualizar las memorias de los filtros del codec de tipo LPD (130) que codifica la trama m+1 utilizando la sintesis del codificador y del decodificador de tipo FD (140) que codifica la trama m. La actualization de las memorias resulta necesaria solamente durante la codificacion de las tramas de tipo FD. Esta tecnica permite, de este modo, en el momento de la selection en 110 del modo de codificacion y de la conmutacion (en 150) de la codificacion de tipo FD hacia la de tipo LPD, hacer esta operation sin defecto de transicion (artefactos operativos) puesto que en el momento de codificar la trama con la tecnica LPD, las memorias (o estados) del codificador CELP (LPD) han sido ya objeto de actualizacion por el generador 160 a partir de la senal reconstruida Sa(n) de la trama m. En el caso en que los dos nucleos (FD y LDP) no funcionen a la misma frecuencia de muestreo, la tecnica descrita en la solicitud de patente WO2013/016262 propone una etapa de re- muestreo de las memorias del codificador de tipo FD.
Esta tecnica tiene por inconveniente, de una parte, que necesita tener acceso a la senal decodificada en el codificador y por lo tanto, forzar una sintesis local en el codificador. De otra parte, necesita realizar operaciones de actualizacion de las memorias de los filtros (que puede comprender una etapa de re-muestreo) en el momento de la codificacion y de la decodificacion de tipo FD, asi como un conjunto de operaciones que vienen a realizar un analisis/codificacion de tipo CELP en la trama precedente de tipo FD. Estas operaciones pueden ser complejas y llegar a superponerse a las operaciones de codificacion/decodificacion clasicas en la trama de transicion de tipo LPD, lo que ocasiona un maximo de complejidad en la codificacion “multimodal”.
Por lo tanto, existe una necesidad de obtener una transicion eficaz entre una codificacion o decodificacion por transformada y una codificacion o decodificacion predictiva que no necesitan un aumento en complejidad de los codificadores o decodificadores previstos para aplicaciones conversacionales de codificacion de audio que presentan alternancias de palabra y de musica.
La presente invention esta destinada a mejorar la situation operativa.
Propone, a este efecto, un metodo de decodificacion de una senal de audio digital, que incluye las etapas de:
- decodificacion segun una decodificacion por transformada inversa de una trama precedente de muestras de la senal digital recibida y codificada segun una codificacion por transformada;
5
10
15
20
25
30
35
40
45
50
55
60
- decodificacion segun una decodificacion predictiva de una trama en curso de muestras de la senal digital recibida y codificada segun una codificacion predictiva. El metodo es tal como la decodificacion predictiva de la trama en curso y una decodificacion predictiva de transition que no utiliza diccionario adaptativo procedente de la trama precedente y que incluye, ademas:
- una etapa de reinitialization de al menos un estado de la decodificacion predictiva a un valor por defecto predeterminado;
- una etapa de adicion-solapamiento que combina un segmento de senal sintetizado mediante decodificacion predictiva de la trama en curso y un segmento de senal sintetizado por decodificacion por transformada inversa, que corresponde a un segmento memorizado de la decodificacion de la trama precedente.
De este modo, la reinicializacion de los estados se efectua sin que exista ninguna necesidad de la senal decodificada de la trama precedente, efectuandose de forma muy simple mediante valores constantes nulos o predeterminados. La complejidad del decodificador es asi disminuida con respecto a las tecnicas de actualization de las memorias de estados que necesitan el analisis u otros calculos. Los artefactos de transicion se evitan, entonces, mediante la puesta en practica de la etapa de adicion-solapamiento que permite establecer el enlace con la trama precedente.
Con la decodificacion predictiva de transicion, no es necesario reiniciar las memorias del diccionario adaptativo para esta trama en curso puesto que no se utiliza. Esto simplifica tanto mas la puesta en practica de la transicion.
En una forma de realization particular, la decodificacion por transformada inversa tiene un retardo de procesamiento inferior al que tiene la decodificacion predictiva y el primer segmento de trama en curso decodificada por decodificacion predictiva se sustituye por un segmento resultado de la decodificacion de la trama precedente que corresponde al desplazamiento de retardo y se memoriza en el momento de la decodificacion de la trama precedente.
Esto permite utilizar ventajosamente este desplazamiento de retardo para mejorar la calidad de la transicion.
En una forma de realizacion particular, el segmento de senal simplificado mediante decodificacion por transformada inversa se corrige antes de la etapa de adicion-solapamiento mediante la aplicacion de una ventana inversa que compensa la disposition en ventanas previamente aplicada al segmento.
De este modo, la trama en curso decodificada tiene una energia que es proxima a la que tiene la senal original.
En una variante de realizacion, el segmento de senal sintetizado por decodificacion por transformada inversa es previamente re-muestreado a la frecuencia de muestreo correspondiente al segmento de senal decodificado de la trama en curso.
Lo que antecede permite efectuar una transicion sin defecto en el caso en que la frecuencia de muestreo de la decodificacion por transformada sea diferente de la que tiene la decodificacion predictiva.
En una forma de realizacion de la invention, un estado de decodificacion predictiva esta incluido en la lista de los estados siguientes:
- la memoria de estado de un filtro de re-muestreo a la frecuencia interna de la decodificacion predictiva;
- las memorias de estado de filtros de pre-enfasis/de-enfasis;
- los coeficientes del filtro de prediction lineal;
- la memoria de estado del filtro de sintesis (en el dominio pre-acentuado);
- la memoria del diccionario adaptativo (excitation transmitida);
- la memoria de estado de un post-filtro de baja frecuencia (BPF);
- la memoria de cuantificacion de la ganancia del diccionario fijo.
Estos estados se utilizan para poner en practica la decodificacion predictiva. La mayor parte de estos estados se reinicializan a un valor nulo o un valor constante predeterminado, lo que simplifica tanto mas la puesta en practica de
5
10
15
20
25
30
35
40
45
50
55
60
esta etapa. Esta lista no es, sin embargo, exhaustiva y evidentemente, otros estados pueden tenerse en cuenta en esta etapa de reinicializacion.
En una forma de realization particular de la invention, el calculo de los coeficientes del filtro de prediction lineal de la trama en curso se realiza mediante la decodificacion de los coeficientes de un filtro unico y atribuyendo coeficientes identicos al filtro de prediccion lineal de final, intermedio y de inicio de la trama.
En efecto, como se han reinicializado los coeficientes del filtro de prediccion lineal, no se conocen los coeficientes de inicio de trama. Los valores decodificados son, entonces, utilizados para obtener los coeficientes del filtro de prediccion lineal de la trama completa. Esto se realiza, por lo tanto, de forma simple, sin aportar una importante degradation a la senal de audio decodificada.
En una variante de realizacion, el calculo de los coeficientes del filtro de prediccion lineal de la trama en curso incluye las etapas siguientes:
- determination de los valores decodificados de los coeficientes del filtro de la parte intermedia de la trama utilizando los valores decodificados de los coeficientes del filtro del final de trama y un valor predeterminado de reinicializacion de los coeficientes del filtro de inicio de trama;
- sustitucion de los valores decodificados de los coeficientes del filtro de inicio de trama por los valores decodificados de los coeficientes del filtro de la parte intermedia de la trama;
- determinacion de los coeficientes del filtro de prediccion lineal de la trama en curso utilizando los valores asi decodificados de los coeficientes del filtro de final, de parte intermedia y de inicio de trama.
De este modo, los coeficientes que corresponden al filtro de parte intermedia de trama se decodifican con un error mas pequeno.
En otra variante de realizacion, los coeficientes del filtro de prediccion lineal de inicio de trama son reinicializados a un valor predeterminado que corresponde a un valor medio de los coeficientes del filtro de prediccion a largo plazo y los coeficientes de prediccion lineal de la trama en curso se determinan utilizando los valores asi predeterminados y los valores decodificados de los coeficientes del filtro de final de trama.
De este modo, los coeficientes de inicio de trama se consideran como conocidos con el valor predeterminado. Esto permite encontrar los coeficientes de la trama completa de manera mas exacta y estabilizar, con mayor rapidez, la decodificacion predictiva.
En una forma de realizacion posible, un valor por defecto predeterminado depende del tipo de trama a decodificar.
De este modo, la decodificacion esta bien adaptada a la senal a decodificar.
La invencion se refiere, asimismo, a un metodo de codification de una senal de audio digital, que incluye las etapas de:
- codificacion de una trama precedente de muestras de la senal digital segun una codificacion por transformada;
- reception de una trama en curso de muestras de la senal digital a codificar segun una codificacion predictiva. El metodo es tal que la codificacion predictiva de la trama en curso es una codificacion predictiva de transition que no utiliza diccionario adaptativo procedente de la trama precedente y que incluye, ademas:
- una etapa de reinicializacion de al menos un estado de la codificacion predictiva a un valor por defecto predeterminado.
De este modo, la reinicializacion de los estados se realiza sin que haya necesidad de reconstruction de la senal de la trama precedente, y por lo tanto, de decodificacion local. Se realiza de forma muy simple mediante valores constantes nulos o predeterminados. La complejidad de la codificacion es asi disminuida con respecto a las tecnicas de actualization de las memorias de estados que necesitan el analisis u otros calculos.
Con la codificacion predictiva de transicion, no es necesario reinicializar las memorias del diccionario adaptativo para esta trama en curso puesto que no se utiliza. Esto simplifica tanto mas la puesta en practica de la transicion.
En una forma de realizacion particular, los coeficientes del filtro de prediccion lineal forman parte de al menos un estado de codificacion predictiva y el calculo de los coeficientes del filtro de prediccion lineal de la trama en curso se realiza
5
10
15
20
25
30
35
40
45
50
55
60
mediante la determinacion de los valores codificados de los coeficientes de un solo filtro de prediction, bien sea de parte intermedia, bien sea de final de trama y la atribucion de valores codificados identicos para los coeficientes del filtro de prediccion de inicio de trama y de final o parte intermedia de trama.
En efecto, como se han reinicializado los coeficientes del filtro de prediccion lineal, no son conocidos los coeficientes de inicio de trama. Los valores codificados son entonces utilizados para obtener los coeficientes del filtro de prediccion lineal de la trama completa. Esto, se realiza, por lo tanto, de forma simple, sin aportar ninguna degradation importante a la senal sonora codificada.
De este modo, ventajosamente, al menos un estado de la codification predictiva esta codificado de manera directa.
En efecto, los bits normalmente reservados a la codificacion del juego de coeficientes del filtro de parte intermedia de trama o de inicio de trama se utilizan, a modo de ejemplo, para codificar de manera directa al menos un estado de codificacion predictiva, a modo de ejemplo, la memoria del filtro de de-enfasis.
En una variante de realization, los coeficientes del filtro de prediccion lineal forman parte de al menos un estado de la codificacion predictiva y el calculo de los coeficientes del filtro de prediccion lineal de la trama en curso incluye las etapas siguientes:
- determinacion de los valores codificados de los coeficientes del filtro de la parte intermedia de trama utilizando los valores codificados de los coeficientes del filtro de final de trama y los valores predeterminados de reinitialization de los coeficientes del filtro de inicio de trama;
- sustitucion de los valores codificados de los coeficientes del filtro de inicio de trama por los valores codificados de los coeficientes del filtro de parte intermedia de trama;
- determinacion de los coeficientes del filtro de prediccion lineal de la trama en curso utilizando los valores asi codificados de los coeficientes del filtro de final, de parte intermedia y de inicio de trama.
De este modo, los coeficientes que corresponden al filtro de parte intermedia de trama son codificados con un porcentaje de error mas pequeno.
En una variante de realizacion, los coeficientes del filtro de prediccion lineal forman parte de al menos un estado de codificacion predictiva, los coeficientes del filtro de prediccion lineal de inicio de trama son reinicializados a un valor predeterminado que corresponde a un valor medio de los coeficientes del filtro de prediccion a largo plazo y los coeficientes de prediccion lineal de la trama en curso se determinan utilizando los valores asi predeterminados y los valores codificados de los coeficientes del filtro de final de trama.
De este modo, los coeficientes de inicio de trama son considerados como conocidos con el valor predeterminado. Esto permite obtener una buena estimation de los coeficientes de prediccion de la trama precedente, sin analisis suplementario, para calcular los coeficientes de prediccion de la trama completa.
En una forma de realizacion posible, un valor por defecto predeterminado depende del tipo de trama a codificar.
La invention se refiere, asimismo, a un decodificador de senal de audio digital, que comprende:
- una entidad de decodificacion por transformada inversa adecuada para decodificar una trama precedente de muestras de la senal digital recibida y codificada segun una codificacion por transformada;
- una entidad de decodificacion predictiva adecuada para decodificar una trama en curso de muestras de la senal digital recibida y codificada segun una codificacion predictiva. El decodificador es tal que la decodificacion predictiva de la trama en curso es una decodificacion predictiva de transition que no utiliza diccionario adaptativo procedente de la trama precedente y que incluye, ademas:
- un modulo de reinicializacion adecuado para reinicializar al menos un estado de decodificacion predictiva por un valor por defecto predeterminado;
- un modulo de procesamiento adecuado para efectuar una adicion-solapamiento que combina un segmento de senal sintetizado por decodificacion predictiva de la trama en curso y un segmento de senal sintetizado por decodificacion por transformada inversa, que corresponde a un segmento memorizado de la decodificacion de la trama precedente.
5
10
15
20
25
30
35
40
45
50
55
60
La misma invencion se refiere a un codificador de senal de audio digital, que comprende:
- una entidad de codificacion por transformada adecuada para codificar una trama precedente de muestras de la senal digital;
- una entidad de codificacion predictiva adecuada para codificar una trama en curso de muestras de la senal digital. El codificador es tal que la codificacion predictiva de la trama en curso es una codificacion predictiva de transition que no utiliza diccionario adaptativo procedente de la trama precedente y que incluye, ademas:
- un modulo de reinitialization adecuado para reinicializar al menos un estado de la codificacion predictiva mediante un valor por defecto predeterminado.
El decodificador y el codificador aportan las mismas ventajas que los metodos de decodificacion y de codificacion que ponen en practica respectivamente.
Por ultimo, la invencion se refiere a un programa informatico que contiene instrucciones de codigo para la puesta en practica de las etapas del metodo de decodificacion tal como se describio con anterioridad y/o de codificacion tal como se describio tambien con anterioridad, cuando estas instrucciones son ejecutadas por un procesador.
La invencion se refiere tambien a un medio de almacenamiento, legible por un procesador, integrado o no con el decodificador o el codificador, ocasionalmente extraible, que memoriza un programa informatico que pone en practica un metodo de decodificacion y/o un metodo de codificacion tales como fueron descritos con anterioridad.
Otras caracteristicas y ventajas de la invencion apareceran en el examen de la description detallada adjunta, y las Figuras adjuntas entre las cuales:
- la Figura 1 ilustra un metodo de transicion, entre una codificacion por transformada y una codificacion predictiva, de la tecnica anterior y descrita con anterioridad;
- la Figura 2 ilustra la transicion al codificador entre una trama codificada segun una codificacion por transformada y una trama codificada segun una codificacion predictiva, segun una puesta en practica de la invencion;
- la Figura 3 ilustra una forma de realization del metodo de codificacion y del codificador segun la invencion;
- la Figura 4 ilustra en forma de organigrama las etapas puestas en practica en una forma de realizacion particular, para determinar los coeficientes del filtro de prediction lineal en el momento operativo de la codificacion predictiva de la trama en curso, habiendo sido la trama precedente codificada segun una codificacion por transformada;
- la Figura 5 ilustra la transicion al decodificador entre una trama decodificada segun una decodificacion por transformada inversa y una trama decodificada segun una decodificacion predictiva, segun una puesta en practica de la invencion;
- la Figura 6 ilustra una forma de realizacion del metodo de decodificacion y del decodificador segun la invencion;
- la Figura 7 ilustra en forma de organigrama las etapas puestas en practica en una forma de realizacion de la invencion, para determinar los coeficientes del filtro de prediccion lineal en el momento operativo de la decodificacion predictiva de la trama en curso, habiendo sido la trama precedente decodificada segun una decodificacion por transformada inversa;
- la Figura 8 ilustra la etapa de adicion-solapamiento puesta en practica en la decodificacion segun una forma de realizacion de la invencion;
- la Figura 9 ilustra un modo particular de puesta en practica de la transicion entre la decodificacion por transformada y la decodificacion predictiva cuando tienen retardos diferentes; y
- la Figura 10 ilustra una forma de realizacion material del codificador o del decodificador segun la invencion.
La Figura 2 ilustra, de forma esquematica, el principio de codificacion en el momento operativo de una transicion entre una codificacion por transformada y una codificacion predictiva segun la invencion.
Se considera, en este caso, una sucesion de tramas de audio a codificar bien sea con un codificador por transformada (FD) a modo de ejemplo de tipo MDCT, bien sea con un codificador predictivo (LPD) a modo de ejemplo, de tipo ACELP;
5
10
15
20
25
30
35
40
45
50
55
60
se hace constar que modos suplementarios de codificacion son posibles sin afectar a la invention. El codificador por transformada (FD) utiliza, en este ejemplo, ventanas de pequeno retardo del tipo “Tukey” (la invencion es independiente del tipo de ventana utilizado) y cuya longitud total es igual a dos tramas (valores a cero incluidos) segun se representa en la figura.
En el momento de la codificacion, las ventanas del codificador FD estan sincronizadas de manera que la ultima parte no nula de la ventana (a la derecha) corresponda con el fin de una nueva trama de la senal de entrada. Se hace constar que la division en tramas ilustrada en la Figura 2 incluye la denominada “lookahead” (o senal futura) y la trama realmente codificada esta, por lo tanto, normalmente desplazada en el tiempo (retardada) segun se explica mas adelante haciendo referencia a la Figura 5. Cuando no existe transition, el codificador realiza el procedimiento de repliegue y de transformation por DCT, tal como se describe en la tecnica anterior (MDCT). En el momento operativo de la llegada de la trama antes de ser codificada por un codificador de tipo LPD, la ventana no es aplicada, siendo los estados o memorias correspondientes a los filtros del codificador LPD reinicializados a valores predeterminados.
Se considera aqui que el codificador LPD es derivado del codificador UIT-T G.718 cuya codificacion CELP funciona a una frecuencia interna de 12.8 kHz. El codificador LPD segun la invencion puede funcionar con dos frecuencias internas 12.8 kHz o 16 kHz segun la magnitud del flujo operativo.
Por el termino de estado de la codificacion predictiva (LPD), se entiende al menos los estados siguientes:
- La memoria de estado del filtro de re-muestreo de la frecuencia de entrada fs a la frecuencia interna de la codificacion CELP (12.8 o 16 kHz). Se considera, en este caso, que el re-muestreo se puede efectuar en funcion de las frecuencias de entrada e interna mediante el filtro FIR, un banco de filtros o el filtro IIR, habida cuenta que una realization de tipo FIR simplifica la utilization de la memoria de estado que corresponde a la senal de entrada transmitida.
- Las memorias de estado de los filtros de pre-enfasis (1-az-1 con normalmente a=0.68) y de de-enfasis (1/(1-az-1)).
- Los coeficientes del filtro de prediction lineal al final de la trama precedente o su version equivalente dentro de los dominios tales como los dominios LSF (“Line Spectral Frequencies”) o ISF (“Imittance Spectral Frequencies”).
- La memoria de estado del filtro de sintesis LPC normalmente del orden de magnitud de 16 (dentro del dominio pre- acentuado).
- La memoria del diccionario adaptativo (excitation CELP transmitida).
- La memoria de estado del post-filtro de baja frecuencia (BPF) segun se define en la norma UIT-G.718 (ver clausula 7.14.1.1 de la norma UIT-T G.718).
- La memoria de cuantificacion de la ganancia del diccionario fijo (cuando esta cuantificacion se realiza con memoria).
La Figura 3 ilustra una forma de realizacion de un codificador y de un metodo de codificacion segun la invencion.
El modo particular de realizacion se situa dentro del marco de transicion entre un codec por transformada FD que utiliza una MDCT y un codec predictivo de tipo ACELP.
Despues de una primera etapa clasica de puesta en trama (E301) por un modulo 301, un modulo de decision (dec.) determina si la trama a procesar debe codificarse en codificacion predictiva ACELP o en codificacion por transformada FD.
En el caso de la codificacion por transformada, se realiza una etapa completa de transformada MDCT (E302) mediante la entidad de codificacion por transformada 302. Esta etapa comprende, entre otras, una disposition en ventanas con una ventana de bajo retardo alineada segun se ilustra en la Figura 2, una etapa de repliegue y una tapa de transformacion dentro del dominio de DCT. La trama FD se cuantifica, a continuation, en una etapa (E303) mediante un modulo de cuantificacion 303 y luego, los datos asi codificados son objeto de escritura en el flujo binario (bitstream) en la etapa E305, por el modulo 305 de construction de flujo binario.
El caso de la transicion desde una codificacion predictiva hacia una codificacion por transformada no se trata en este ejemplo, puesto que ya no es el objeto de la presente invencion.
5
10
15
20
25
30
35
40
45
50
55
60
Si la etapa de decision (dec.) elige la codificacion predictiva ACELP, en tal caso:
- Si la trama precedente (ultima ACELP) se hubiera codificado tambien por la entidad de codificacion ACELP 304, la codificacion ACELP (E304) se prosigue entonces actualizando las memorias o estados de codificacion predictiva. No se trata, en este caso, del problema de conmutacion de frecuencias de muestreo internas de la codificacion CELP (de 12.8 a 16 kHz y viceversa). Las informaciones codificadas y cuantificadas son objeto de escritura dentro del flujo binario en una etapa E305.
- Si la trama precedente (ultima MDCT) hubiera sido codificada por la entidad de codificacion por transformada 302, en la etapa E302, en este caso, las memorias o estados de la codificacion predictiva ACELP son reinicializadas en una etapa (E306) a valores por defecto predeterminados por anticipado (no necesariamente nulos). Esta etapa de reinitialization se pone en practica por el modulo de reinicializacion 306, para al menos un estado de codificacion predictiva.
Una etapa de codificacion predictiva para la trama en curso se pone en practica entonces en la etapa E308 mediante una entidad de codificacion predictiva 308.
Las informaciones codificadas y cuantificadas son objeto de escritura en el flujo binario en la etapa E305.
Esta codificacion predictiva E308 puede, en una forma de realization particular, ser una codificacion de transition tal como se define bajo el nombre de “modo TC" en la norma UIT-T G.718, en donde la codificacion de la excitation es directa y no utiliza ningun diccionario adaptativo procedente de la trama precedente. Se realiza, entonces, una codificacion de la excitacion independiente de la trama precedente. Esta realizacion permite a los codificadores predictivos de tipo LPD estabilizarse con mucha mayor rapidez (con respecto a una codificacion CELP clasica que utilizaria un diccionario adaptativo o seria puesta a cero. Lo que antecede simplifica tanto mas la puesta en practica de la transicion segun la invention.
En una variante de la invencion, la codificacion de la excitacion podra no estar en un modo de transicion sino que utilizara una codificacion CELP de forma similar a G.718 y pudiendo utilizar un diccionario adaptativo (sin forzar ni limitar la clasificacion) o una codificacion CELP clasica con diccionarios adaptativo y fijo. Esta variante es, sin embargo, menos ventajosa puesto que al no haberse recalculado el diccionario adaptativo y habiendo sido puesto a cero, la codificacion sera sub-optima.
En otra variante, la codificacion CELP en la trama de transicion mediante el modo TC podra sustituirse por cualquier otro tipo de codificacion independiente de la trama precedente, a modo de ejemplo, utilizando el modelo de codificacion de tipo iLBC.
En una forma de realizacion particular, una etapa E307 de calculo de los coeficientes del filtro de prediction lineal, para la trama en curso, se realiza por el modulo de calculo 307.
Varios modos de calculo de los coeficientes del filtro de prediccion lineal son posibles para la trama en curso. Se considera, en este caso, que la codificacion predictiva (bloque 304) realiza dos analisis de prediccion lineal por trama como en la norma G.718, con una codificacion de los coeficientes LPC bajo la forma de ISF (o LSF de forma equivalente) obtenidos al final de la trama (NEW) y una codificacion del flujo operativo muy reducido de los coeficientes LPC obtenidos en la parte intermedia de la trama (MID), con una interpolation por subtrama entre los coeficientes LPC del final de trama precedente (OLD) y los de la trama en curso (MID y NEW).
En una primera forma de realizacion, los coeficientes de prediccion en la trama precedente (OLD) de tipo FD no son conocidos puesto que ningun coeficiente LPC esta codificado en el codificador FD. Se elige, entonces, codificar un solo juego de coeficientes del filtro de prediccion lineal que corresponde bien sea a la parte intermedia de la trama (MID), bien sea al final de la trama (NEW). Esta election puede realizarse, a modo de ejemplo, segun una clasificacion de la senal a codificar. Para una senal estable, el filtro de parte intermedia de la trama se podra elegir. Una eleccion arbitraria puede realizarse tambien; en el caso en donde la eleccion se aplica sobre los coeficientes LPC en la parte intermedia de la trama, en una variante, la interpolacion de los coeficientes LPC (dentro del dominio ISP (“Imittance Spectral Pairs”) o LSP (“Line Spectral Pairs”)) podra modificarse en la segunda trama LPD que sigue a la trama LPD de transicion.
A partir de estos valores codificados obtenidos, se atribuye valores codificados identicos para los coeficientes de filtro de prediccion del inicio de trama (OLD) y de final o parte intermedia de la trama segun la eleccion que se haya efectuado. En efecto, al no ser conocidos los coeficientes LPC de la trama precedente (OLD), no es posible codificar los coeficientes LPC de la parte intermedia de la trama (MID) como en G.718. Se hace constar que, en esta variante, la reinicializacion de los coeficientes LPC (OLD) no es forzosamente necesaria, puesto que estos coeficientes no son
5
10
15
20
25
30
35
40
45
50
55
60
utilizados. En este caso, los coeficientes utilizados en cada subtrama se fijan de forma identica al valor codificado dentro de la trama.
Ventajosamente, los bits que podrian reservarse para la codificacion del juego de coeficientes LPC de la parte intermedia de la trama (MID) o del inicio de la trama se utilizan, a modo de ejemplo, para codificar de manera directa al menos un estado de la codificacion predictiva, a modo de ejemplo, la memoria del filtro de de-enfasis.
En una segunda forma de realization posible, las etapas ilustradas en la Figura 4 son puestas en practica. Una primera etapa E401 es la initialization de los coeficientes del filtro de prediction y de las representaciones equivalentes ISF o LSF segun la puesta en practica de la etapa E306 de la Figura 3, es decir, a valores predeterminados, a modo de ejemplo, segun el valor medio a largo plazo sobre una base de conocimiento a priori de los coeficientes LSP. La etapa E402 codifica los coeficientes del filtro de final trama (LSP NEW) y los valores codificados obtenidos (LEP NEW Q) asi como los valores predeterminados de reinitialization de los coeficientes del filtro de inicio de trama (LSP OLD) se utilizan en la etapa E403 para codificar los coeficientes del filtro de prediccion de la parte intermedia de la trama (LSP MID). Una etapa de sustitucion E404 de los valores de coeficientes de inicio de trama (LSP OLD) por los valores codificados de los coeficientes de la parte intermedia de la trama (LSP MID Q) es realizada. La etapa E405 permite determinar los coeficientes del filtro de prediccion lineal de la trama en curso a partir de estos valores asi codificados (LSP OLD, LSP MID Q, LSP NEW Q).
En una tercera forma de realizacion posible, los coeficientes del filtro de prediccion lineal de la trama precedente (LSP OLD) se inicializan a un valor que esta ya disponible “gratuitamente” en una variante de codificador FD que utiliza una envolvente espectral de tipo LPC. En este caso, una codificacion “normal”, tal como se utiliza en G.718, podra ser utilizada, siendo los coeficientes de prediccion lineales por subtrama calculados como una interpolation entre los valores de los filtros de prediccion OLD, MID y NEW, con lo que esta operation permite de este modo al codificador LPD obtener, sin analisis suplementario, una estimation adecuada de los coeficientes LPC en la trama precedente.
En otras variantes de la invention, la codificacion LPD podra, por defecto, solamente codificar un juego de coeficientes LPC (NEW), estando las variantes de realizacion precedentes simplemente adaptadas para tener en cuenta que algun juego de coeficientes no esta disponible en la parte intermedia de la trama (MID).
En una variante de realizacion de la invencion, la inicializacion de los estados de la codificacion predictiva puede realizarse con valores por defecto predeterminados por anticipado que pueden, a modo de ejemplo, corresponder a diferentes tipos de trama a codificar (a modo de ejemplo, los valores de inicializacion pueden ser diferentes si la trama incluye una senal de tipo sonoro o no sonoro).
La Figura 5 ilustra, de forma esquematica, el principio de decodificacion de una transition entre una decodificacion por transformada y una decodificacion predictiva segun la invencion.
Se considera, en este caso, una sucesion de tramas de audio a decodificar bien sea con un decodificador por transformada (FD), a modo de ejemplo, de tipo MDCT, bien sea con un decodificador predictivo (LPD) a modo de ejemplo de tipo ACELP. El decodificador por transformada (FD) utiliza, en este ejemplo, ventanas de sintesis con pequeno retardo de tipo “Tukey” (la invencion es independiente del tipo de ventana utilizado) y cuya longitud total es igual a dos tramas (valores a cero incluidos) segun se representa en la figura.
En conformidad con la invencion, despues de la decodificacion de una trama codificada con un codificador FD, una transformation DCT inversa se aplica a la trama decodificada. Esta ultima es desplegada y luego, la ventana de sintesis se aplica sobre la senal desplegada. Las ventanas de sintesis del codificador FD estan sincronizadas de manera que la parte no nula de la ventana (a la izquierda) corresponda con una nueva trama. De este modo, la trama puede decodificarse hasta el punto A, puesto que la senal no tiene ningun repliegue temporal (“d'aliasing”) antes de este punto.
En el momento de la llegada de la trama LPD, como al codificador, los estados o memorias de decodificacion predictiva se reinicializan a valores predeterminados.
Por estado de decodificacion predictiva (LPD), se entiende al menos los estados siguientes:
- La memoria de estado del filtro de re-muestreo de la frecuencia interna de la decodificacion CELP (12.8 o 16 kHz) a la frecuencia de salida fs. Se considera, en este caso, que el re-muestreo puede realizarse en funcion de la frecuencia de entrada e interna mediante un filtro FIR, un banco de filtros o un filtro IIR, habida cuenta que una realizacion de tipo FIR simplifica la utilization de la memoria de estado que corresponde a la senal de entrada transmitida.
- Las memorias de estado del filtro de de-enfasis (1/(1-az-1)).
5
10
15
20
25
30
35
40
45
50
55
60
- Los coeficientes del filtro de prediction lineal al final de la trama precedente o su version equivalente dentro de los dominios tales como los dominios LSF (Line Spectral Frequencies) o ISF (Imittance Spectral Frequencies).
- La memoria de estado del filtro de sintesis LPC normalmente del orden de magnitud de 16 (dentro del dominio de pre- enfasis).
- La memoria del diccionario adaptativo (excitation transmitida).
- La memoria de estado del post-filtro de baja frecuencia (BPF) segun se define en la norma UIT-G.718 (ver clausula 7.14.1.1 de la norma UIT-T G.718).
- La memoria de cuantificacion de la ganancia del diccionario fijo (cuando esta cuantificacion se realiza con memoria).
La Figura 6 ilustra una forma de realization de un decodificador y de un metodo de decodificacion segun la invention.
El modo particular de realizacion se situa dentro del marco de transition entre un codec por transformada FD que utiliza una MDCT y un codec predictivo de tipo ACELP.
Despues de una primera etapa clasica de lectura en el denominado tren binario (E601), mediante un modulo 601, un modulo de decision (dec.) determina si la trama a procesar debe decodificarse en decodificacion predictiva ACELP o en decodificacion por transformada FD.
En el caso de una decodificacion por transformada MDCT, una etapa de decodificacion E602 por la entidad de decodificacion por transformada 602, permite obtener la trama en el dominio transformado. La etapa puede contener, asimismo, una etapa de re-muestreo a la frecuencia de muestreo del decodificador ACELP. Esta etapa es seguida de una transformation MDCT inversa E603 que comprende una transformation DCT inversa, un despliegue temporal y la aplicacion de una ventana de sintesis y de una etapa de adicion-solapamiento con la trama precedente segun se describe, mas adelante, haciendo referencia a la Figura 8.
La parte para la que el repliegue temporal ha sido anulado es puesta en trama en una etapa E605 por el modulo de puesta en trama 605. La parte que comprende un repliegue temporal se guarda en la memoria (Mem. MDCT) para obtener una etapa de adicion-solapamiento en E609 por el modulo de procesamiento 609 con la posible proxima trama decodificada por el nucleo FD. En una variante, la parte memorizada de la decodificacion MDCT que se utiliza para la etapa de adicion-solapamiento, no incluye ningun repliegue temporal, a modo de ejemplo, en el caso en donde existe un desplazamiento temporal suficientemente importante entre la decodificacion MDCT y la decodificacion CELP.
Esta etapa se ilustra en la Figura 8. Se constata en esta Figura que existe una discontinuidad temporal entre la decodificacion resultado del FD y la de resultado del LPD. La etapa E609 utiliza la memoria del codificador por transformada (Mem. MDCT), tal como se describio con anterioridad, es decir, la senal decodificada despues del punto A pero que incluye un repliegue temporal (en el caso ilustrado).
Preferentemente, la senal se utiliza hasta el punto B que es el punto de repliegue de la transformada. En una forma de realizacion particular, se compensa previamente esta senal por la inversa de la ventana previamente aplicada sobre el segmento AB. De este modo, antes de la etapa de adicion-solapamiento, el segmento AB es corregido por la aplicacion de una ventana inversa que compensa el efecto de la disposition en ventanas previamente aplicada al segmento. Por lo tanto, el segmento ya no es objeto de disposicion “en ventana” y su energia esta proxima a la que tenia la senal original.
Los dos segmentos AB, el procedente de la decodificacion por transformada y el procedente de la decodificacion predictiva son, a continuation, ponderados y sumados con el fin de obtener la senal AB final. Las funciones de ponderacion tienen preferentemente una suma igual a 1 (del tipo lineal o sinusoidal cuadratico, a modo de ejemplo). De este modo, la etapa de adicion-solapamiento combina un segmento de senal sintetizado por decodificacion predictiva de la trama en curso y un segmento de senal sintetizado por decodificacion por transformada inversa, que corresponde a un segmento memorizado de la decodificacion de la trama precedente.
En otra forma de realizacion particular, en el caso en que el re-muestreo no haya sido todavia efectuado (en E602 a modo de ejemplo), el segmento de senal sintetizado por decodificacion por transformada inversa de tipo FD es previamente re-muestreado a la frecuencia de muestreo correspondiente al segmento de senal decodificado de la trama en curso de tipo LPD. Este re-muestreo de la memoria MDCT podra hacerse con o sin retardo con la aplicacion de las tecnicas clasicas por filtro de tipo FIR, banco de filtros, filtro IIR e incluso utilizando las denominadas “splines”.
5
10
15
20
25
30
35
40
45
50
55
60
En el caso contrario, si los modos de codificacion FD y LPD funcionan a frecuencias de muestreo internas diferentes, se podra en una alternativa re-muestrear la smtesis de la codificacion CELP (posiblemente post-tratada con, en particular, la adicion de una banda alta estimada o codificada) y aplicar la invencion. Este re-muestreo de la sintesis del codificador LPD podra hacerse con o sin retardo aplicando las tecnicas clasicas por filtro de tipo FIR, banco de filtros, filtro IIR e incluso utilizando las denominadas “splines”.
Esto permite efectuar una transition sin defecto en el caso en que la frecuencia de muestro de la decodificacion por transformada sea diferente de la frecuencia de la decodificacion predictiva.
En una forma de realization particular, es posible aplicar una etapa intermedia de retardo (E604) con el fin de alinear temporalmente los dos decodificadores si el decodificador FD tiene menos retardo que el decodificador CELP (LPD). Una parte de senal cuya magnitud corresponde al retardo entre los dos decodificadores es entonces almacenada en memoria (Mem. Retard).
La Figura 9 ilustra este caso de figura. La forma de realizacion, en este caso, propone sacar partido ventajosamente de esta diferencia de retardo D para sustituir el primer segmento D procedimiento de la decodificacion predictiva LPD por el procedente de la decodificacion por transformada FD y proceder luego a la etapa de adicion-solapamiento (E609) tal como se describio con anterioridad, sobre el segmento AB. De este modo, cuando la decodificacion por transformada inversa tiene un retardo de procesamiento inferior al de la decodificacion predictiva, el primer segmento de trama en curso decodificada por decodificacion predictiva se sustituye por un segmento procedente de la decodificacion de la trama precedente que corresponde al desplazamiento de retardo y puesta en memoria en el momento de la decodificacion de la trama precedente.
En la Figura 6, si la decision (dec.) indica que es preciso realizar una decodificacion predictiva ACELP, entonces:
- Si la ultima trama decodificada, trama precedente (ultima ACELP), fue tambien decodificada segun una decodificacion predictiva ACELP por la entidad de decodificacion ACELP 603, la decodificacion predictiva se prosigue entonces en una etapa (E603), siendo asi la trama de audio obtenida en la etapa E605.
- Si la trama precedente (ultima MDCT) fue decodificada por la entidad de decodificacion por transformada 602, en E602, en este caso, una etapa de reinitialization (E606) de los estados de la decodificacion predictiva ACELP se aplica a este respecto. Esta etapa de reinicializacion se pone en practica por el modulo de reinicializacion 606, para al menos un estado de la decodificacion predictiva. Los valores de reinicializacion son valores por defecto predeterminados por anticipado (no necesariamente nulos).
La initialization de los estados de decodificacion LPD puede realizarse con valores por defecto predeterminados por anticipado que pueden, a modo de ejemplo, corresponder a diferentes tipos de trama a decodificar en funcion de la operation realizada en el momento de la codificacion.
Una etapa de decodificacion predictiva para la trama en curso es entonces puesta en practica en E608 mediante una entidad de decodificacion predictiva 608, antes de la etapa de adicion-solapamiento (E609) descrita con anterioridad. La etapa puede contener, asimismo, una etapa de re-muestreo a la frecuencia de muestreo del decodificador MDCT.
Esta codificacion predictiva E608 puede, en una forma de realizacion particular, ser una decodificacion predictiva de transicion, si esta solution fue elegida en el codificador, en donde la decodificacion de la excitation es directa y no utiliza un diccionario adaptativo. En este caso, la memoria del diccionario adaptativo no tiene necesidad de ser reinicializada.
Se realiza, entonces, una decodificacion no predictiva de la excitacion. Esta realizacion permite a los decodificadores predictivos de tipo LPD estabilizarse con mucha mayor rapidez puesto que, en este caso, no utilizan la memoria del diccionario adaptativo que habia sido previamente reinicializada. Lo que antecede simplifica tanto mas la puesta en practica de la transicion segun la invencion. En el momento de la decodificacion de la trama en curso, la decodificacion predictiva de la excitacion a largo plazo se sustituye por una decodificacion no predictiva de la excitacion.
En una forma de realizacion particular, una etapa E607 de calculo de los coeficientes del filtro de prediction lineal para la trama en curso se realiza por el modulo de calculo 607.
Varios modos de calculo de los coeficientes del filtro de prediccion lineal son posibles para la trama en curso.
En una primera forma de realizacion, los coeficientes de prediccion en la trama precedente (OLD) de tipo FD no son conocidos puesto que ningun coeficiente LPC esta codificado en el codificador FD y los valores han sido reinicializados a cero. Se elige, entonces, decodificar coeficientes de un filtro de prediccion lineal unico, bien sea el que corresponde al
5
10
15
20
25
30
35
40
45
50
55
60
filtro de prediccion de final de trama (NEW), bien sea el que corresponde al filtro de prediccion de parte intermedia de la trama (MID). Se atribuyen, a continuation, coeficientes identicos al filtro de prediccion lineal del final, de parte intermedia y del inicio de trama.
En una segunda forma de realization posible, las etapas ilustradas en la Figura 7 son puestas en practica. Una primera etapa E701 es la initialization de los coeficientes del filtro de prediccion (LSP OLD) segun la puesta en practica de la etapa E606 de la Figura 6. La etapa E702 decodifica los coeficientes del filtro de final de trama (LSP NEW) y los valores decodificados obtenidos (LSP NEW) asi como los valores predeterminados de reinitialization de los coeficientes del filtro de inicio de trama (LSP OLD) se utilizan conjuntamente en la etapa E703 para decodificar los coeficientes del filtro de prediccion de la parte intermedia de trama (LSP MID). Una etapa de sustitucion E704 de los valores de coeficientes de inicio de trama (LSP OLD) por los valores decodificados de los coeficientes de parte intermedia de la trama (LSP MID), es realizada en este momento operativo. La etapa E705 permite determinar los coeficientes del filtro de prediccion lineal de la trama en curso a partir de estos valores asi decodificados (LSP OLD, LSP MID, LSP NEW).
En una tercera forma de realizacion posible, los coeficientes del filtro de prediccion lineal de la trama precedente (LSP OLD) se inicializan a un valor predeterminado, a modo de ejemplo, segun el valor medio a largo plazo de los coeficientes LSP. En este caso una decodificacion “normal”, tal como se utiliza en G.718, podra ser utilizada, siendo los coeficientes de prediccion lineales por subtrama calculados como una interpolation entre los valores de los filtros de prediccion OLD, MID y NEW. Esta operation permite asi al codificador LPD estabilizarse con mayor rapidez.
Haciendo referencia a la Figura 10, se describe un dispositivo material adaptado para realizar un codificador o un decodificador segun una forma de realizacion de la presente invention.
Este codificador o decodificador puede integrarse en un terminal de comunicacion, una pasarela de comunicacion o cualquier tipo de equipo tal como un decodificador de sala (set top box) o lector de flujo de audio.
Este dispositivo DISP incluye una entrada para recibir una senal digital que, en el caso del codificador, es una senal de entrada x(n) y en el caso del decodificador, el tren binario bst.
El dispositivo incluye, asimismo, un procesador PROC de senales digitales adaptado para realizar operaciones de codificacion/decodificacion, en particular, en una senal procedente de la entrada E.
Este procesador esta conectado a una o varias unidades de memoria MEM adaptadas para almacenar informaciones necesarias para el control del dispositivo para la codificacion/decodificacion. A modo de ejemplo, estas unidades de memoria incluyen instrucciones para la puesta en practica del metodo de decodificacion descrito con anterioridad y en particular, para poner en practica las etapas de decodificacion segun una decodificacion por transformada inversa de una trama precedente de muestras de la senal digital recibida y codificada segun una codification por transformada, de decodificacion segun una decodificacion predictiva de una trama en curso de muestras de la senal digital recibida y codificada segun una codificacion predictiva, una etapa de reinicializacion de al menos un estado de la decodificacion predictiva a un valor por defecto predeterminado y una etapa de adicion-solapamiento que combina una segmento de senal sintetizado mediante decodificacion predictiva de la trama en curso y un segmento de senal sintetizado mediante decodificacion por transformada inversa, que corresponde a un segmento memorizado de la decodificacion de la trama precedente.
Cuando el dispositivo es de tipo codificador, estas unidades de memoria contienen instrucciones para la puesta en practica del metodo de codificacion anteriormente descrito y en particular, para poner en practica las etapas de codificacion de una trama precedente de muestras de la senal digital segun una condition por transformada, de reception de una trama en curso de muestras de la senal digital a codificar segun una codificacion predictiva, una etapa de reinicializacion de al menos un estado de la codificacion predictiva a un valor por defecto predeterminado.
Estas unidades de memoria pueden incluir, asimismo, parametros de calculo u otras informaciones.
De manera mas general, un medio de almacenaje, legible por un procesador, integrado, o no, con el codificador o decodificador, posiblemente extraible, memoriza un programa informatico que pone en practica un metodo de decodificacion y/o un metodo de codificacion segun la invencion. Las Figuras 3 y 6 pueden, a modo de ejemplo, ilustrar el algoritmo de un tal programa informatico.
El procesador esta tambien adaptado para almacenar resultados en estas unidades de memoria. Por ultimo, el dispositivo incluye una salida S conectada al procesador para proporcionar una senal de salida que, en el caso del codificador, es una senal bajo la forma de un tren binario bst y en el caso del decodificador, una senal de salida x(n).
Claims (16)
- 510152025303540455055REIVINDICACIONES1. Metodo de decodificacion de una senal de audio digital, que comprende las etapas de:- decodificacion (E602) segun una decodificacion por transformada inversa de una trama precedente de muestras de la senal digital recibida y codificada segun una codificacion por transformada;- decodificacion (E608), segun una decodificacion predictiva de una trama en curso de muestras de la senal digital recibida y codificada segun una codificacion predictiva,estando el metodo caracterizado por cuanto que la decodificacion predictiva de la trama en curso es una decodificacion predictiva de transicion que no utiliza un diccionario adaptativo procedente de la trama precedente y que incluye, ademas:- una etapa de reinicializacion (E606) de al menos un estado de decodificacion predictiva a un valor por defecto predeterminado;- una etapa de adicion-solapamiento (E609) que combina un segmento de senal sintetizado mediante decodificacion predictiva de la trama en curso y un segmento de senal sintetizado por decodificacion por transformada inversa, que corresponde a un segmento memorizado de la decodificacion de la trama precedente.
- 2. Metodo de decodificacion segun la reivindicacion 1, caracterizado por cuanto que la decodificacion por transformada inversa tiene un retardo de procesamiento inferior al que tiene la decodificacion predictiva y por cuanto que el primer segmento de trama en curso decodificada por decodificacion predictiva se sustituye por un segmento procedente de la decodificacion de la trama precedente que corresponde a un desplazamiento de retardo y puesta en memoria en el momento de la decodificacion de la trama precedente.
- 3. Metodo de decodificacion segun una de las reivindicaciones precedentes, caracterizado por cuanto que el segmento de senal sintetizado por decodificacion por transformada inversa es corregido antes de la etapa de adicion-solapamiento mediante la aplicacion de una ventana inversa que compensa la disposicion en ventanas previamente aplicada al segmento.
- 4. Metodo de decodificacion segun una de las reivindicaciones precedentes, caracterizado por cuanto que el segmento de senal sintetizado por decodificacion por transformada inversa es previamente re-muestreado a la frecuencia de muestreo correspondiente al segmento de senal decodificado de la trama en curso.
- 5. Metodo de decodificacion segun la reivindicacion 1, caracterizado por cuanto que un estado de la decodificacion predictiva esta incluido dentro de la lista de los estados siguientes:- la memoria de estado de un filtro de re-muestreo a la frecuencia interna de la decodificacion predictiva;- las memorias de estado de los filtros de pre-enfasis/de-enfasis;- los coeficientes del filtro de prediction lineal;- la memoria de estado del filtro de sintesis;- la memoria del diccionario adaptativo;- la memoria de estado de un post-filtro de baja frecuencia;- la memoria de cuantificacion de la ganancia del diccionario fijo.
- 6. Metodo de decodificacion segun la reivindicacion 5, caracterizado por cuanto que el calculo de los coeficientes del filtro de prediccion lineal de la trama en curso se realiza mediante la decodificacion de los coeficientes de un filtro unico y atribuyendo coeficientes identicos al filtro de prediccion lineal de final, de parte intermedia y de inicio de trama.51015202530354045505560
- 7. Metodo de decodificacion segun la reivindicacion 5, caracterizado por cuanto que el calculo de los coeficientes del filtro de prediction lineal de la trama en curso incluye las etapas siguientes:- determination de los valores decodificados de los coeficientes del filtro de la parte intermedia de trama utilizando los valores decodificados de los coeficientes del filtro de final de trama y un valor predeterminado de reinitialization de los coeficientes del filtro de inicio de trama;- sustitucion de los valores decodificados de los coeficientes del filtro de inicio de trama por los valores decodificados de los coeficientes del filtro de parte intermedia de trama;- determinacion de los coeficientes del filtro de prediccion lineal de la trama en curso utilizando los valores asi decodificados de los coeficientes del filtro de final, de parte intermedia y de inicio de trama.
- 8. Metodo de decodificacion segun la reivindicacion 5, caracterizado por cuanto que los coeficientes del filtro de prediccion lineal de inicio de trama son reinicializados a un valor predeterminado que corresponde a un valor medio de los coeficientes del filtro de prediccion a largo plazo y por cuanto que los coeficientes de prediccion lineal de la trama en curso se determinan utilizando los valores asi predeterminados y los valores decodificados de los coeficientes del filtro de final de trama.
- 9. Metodo de codification de una senal de audio digital, que comprende las etapas de:- la codificacion (E302) de una trama precedente de muestras de la senal digital segun una codificacion por transformada;- reception (E308) de una trama en curso de muestras de la senal digital a codificar segun una codificacion predictiva,estando el metodo caracterizado por cuanto que la codificacion predictiva de la trama en curso es una codificacion predictiva de transition que no utiliza un diccionario adaptativo procedente de la trama precedente y que incluye, ademas:- una etapa de reinicializacion (E306) de al menos un estado de la codificacion predictiva a un valor por defecto predeterminado.
- 10. Metodo de codificacion segun la reivindicacion 9, caracterizado por cuanto que los coeficientes del filtro de prediccion lineal forman parte de al menos un estado de codificacion predictiva y por cuanto que el calculo de los coeficientes del filtro de prediccion lineal de la trama en curso se realiza mediante la determinacion de los valores codificados de los coeficientes de un solo filtro de prediccion, bien sea de la parte intermedia, bien sea del final de trama y la atribucion de valores codificados identicos para los coeficientes del filtro de prediccion de inicio de trama y de final o parte intermedia de la trama.
- 11. Metodo de codificacion segun la reivindicacion 10, caracterizado por cuanto que al menos un estado de la codificacion predictiva se codifica de manera directa.
- 12. Metodo de codificacion segun la reivindicacion 9, caracterizado por cuanto que los coeficientes del filtro de prediccion lineal forman parte de al menos un estado de codificacion predictiva y por cuanto que el calculo de los coeficientes del filtro de prediccion lineal de la trama en curso incluye las etapas siguientes:- determinacion de los valores codificados de los coeficientes del filtro de la parte intermedia de trama utilizando los valores codificados de los coeficientes del filtro de final de trama y los valores predeterminados de reinicializacion de los coeficientes del filtro de inicio de trama;- sustitucion de los valores codificados de los coeficientes del filtro de inicio de trama por los valores codificados de los coeficientes del filtro de parte intermedia de trama;- determinacion de los coeficientes del filtro de prediccion lineal de la trama en curso utilizando los valores asi codificados de los coeficientes del filtro de final, de parte intermedia y de inicio de trama.
- 13. Metodo de codificacion segun la reivindicacion 9, caracterizado por cuanto que los coeficientes del filtro de prediccion lineal forman parte de al menos un estado de codificacion predictiva, por cuanto que los coeficientes del filtro de prediccion lineal de inicio de trama son reinicializados a un valor predeterminado correspondiente a un valor medio de los coeficientes del filtro de prediccion a largo plazo y por cuanto que los coeficientes de prediccion lineal de la trama en curso se determinan utilizando los valores asi predeterminados y los valores codificados de los coeficientes del filtro de final de trama.5101520253035
- 14. Decodificador de senal de audio digital, que comprende:- una entidad de decodificacion (602) por transformada inversa adecuada para decodificar una trama precedente de muestras de la senal digital recibida y codificada segun una codificacion por transformada;- una entidad de decodificacion (608) predictiva adecuada para decodificar una trama en curso de muestras de la senal digital recibida y codificada segun una codificacion predictiva,estando el decodificador caracterizado por cuanto que la decodificacion predictiva de la trama en curso es una decodificacion predictiva de transition que no utiliza un diccionario adaptativo procedente de la trama precedente y por cuanto que incluye, ademas:- un modulo de reinitialization (606) adecuado para reinicializar al menos un estado de decodificacion predictiva por un valor por defecto predeterminado;- un modulo de procesamiento (609) adecuado para efectuar una operation de adicion-solapamiento que combina un segmento de senal sintetizado por decodificacion predictiva de la trama en curso y un segmento de senal sintetizado por decodificacion por transformada inversa, que corresponde a un segmento memorizado de la decodificacion de la trama precedente.
- 15. Codificador de senal de audio digital, que comprende:- una entidad de codificacion por transformada (302) adecuada para codificar una trama precedente de muestras de la senal digital;- una entidad de codificacion predictiva (308) adecuada para codificar una trama en curso de muestras de la senal digital;estando el codificador caracterizado por cuanto que la codificacion predictiva de la trama en curso es una codificacion predictiva de transicion que no utiliza un diccionario adaptativo procedente de la trama precedente y por cuanto que incluye, ademas:- un modulo de reinicializacion (306) adecuado para reinicializar al menos un estado de codificacion predictiva por un valor por defecto predeterminado.
- 16. Medio de almacenamiento legible por un procesador, que memoriza un programa informatico que incluye instrucciones para la ejecucion de las etapas del metodo de decodificacion segun una de las reivindicaciones 1 a 8 y/o del metodo de codificacion segun una de las reivindicaciones 9 a 13.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1361243 | 2013-11-15 | ||
FR1361243A FR3013496A1 (fr) | 2013-11-15 | 2013-11-15 | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
PCT/FR2014/052923 WO2015071613A2 (fr) | 2013-11-15 | 2014-11-14 | Transition d'un codage/décodage par transformée vers un codage/décodage prédictif |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2651988T3 true ES2651988T3 (es) | 2018-01-30 |
Family
ID=50179701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES14821711.0T Active ES2651988T3 (es) | 2013-11-15 | 2014-11-14 | Transición desde una codificación/decodificación por transformada hacia una codificación/decodificación predictiva |
Country Status (11)
Country | Link |
---|---|
US (1) | US9984696B2 (es) |
EP (1) | EP3069340B1 (es) |
JP (1) | JP6568850B2 (es) |
KR (2) | KR102388687B1 (es) |
CN (1) | CN105723457B (es) |
BR (1) | BR112016010522B1 (es) |
ES (1) | ES2651988T3 (es) |
FR (1) | FR3013496A1 (es) |
MX (1) | MX353104B (es) |
RU (1) | RU2675216C1 (es) |
WO (1) | WO2015071613A2 (es) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6270993B2 (ja) | 2014-05-01 | 2018-01-31 | 日本電信電話株式会社 | 符号化装置、及びその方法、プログラム、記録媒体 |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
CN112992163B (zh) * | 2014-07-28 | 2024-09-13 | 日本电信电话株式会社 | 编码方法、装置以及记录介质 |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980797A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
EP2988300A1 (en) * | 2014-08-18 | 2016-02-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Switching of sampling rates at audio processing devices |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
JPH07210199A (ja) * | 1994-01-20 | 1995-08-11 | Hitachi Ltd | 音声符号化方法および音声符号化装置 |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
US6169970B1 (en) * | 1998-01-08 | 2001-01-02 | Lucent Technologies Inc. | Generalized analysis-by-synthesis speech coding method and apparatus |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
JP4857467B2 (ja) * | 2001-01-25 | 2012-01-18 | ソニー株式会社 | データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 |
DE10124420C1 (de) * | 2001-05-18 | 2002-11-28 | Siemens Ag | Verfahren zur Codierung und zur Übertragung von Sprachsignalen |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US7103538B1 (en) * | 2002-06-10 | 2006-09-05 | Mindspeed Technologies, Inc. | Fixed code book with embedded adaptive code book |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US7386445B2 (en) * | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
KR100803212B1 (ko) * | 2006-01-11 | 2008-02-14 | 삼성전자주식회사 | 스케일러블 채널 복호화 방법 및 장치 |
EP2109861B1 (en) * | 2007-01-10 | 2019-03-13 | Koninklijke Philips N.V. | Audio decoder |
JP5511372B2 (ja) * | 2007-03-02 | 2014-06-04 | パナソニック株式会社 | 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
CN100578619C (zh) * | 2007-11-05 | 2010-01-06 | 华为技术有限公司 | 编码方法和编码器 |
CN100578620C (zh) * | 2007-11-12 | 2010-01-06 | 华为技术有限公司 | 固定码书搜索方法及搜索器 |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
PL2301020T3 (pl) * | 2008-07-11 | 2013-06-28 | Fraunhofer Ges Forschung | Urządzenie i sposób do kodowania/dekodowania sygnału audio z użyciem algorytmu przełączania aliasingu |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
CN102089814B (zh) * | 2008-07-11 | 2012-11-21 | 弗劳恩霍夫应用研究促进协会 | 对编码的音频信号进行解码的设备和方法 |
EP2144171B1 (en) * | 2008-07-11 | 2018-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal |
EP2311034B1 (en) * | 2008-07-11 | 2015-11-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding frames of sampled audio signals |
KR101315617B1 (ko) * | 2008-11-26 | 2013-10-08 | 광운대학교 산학협력단 | 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기 |
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
JP4977157B2 (ja) * | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
EP3764356A1 (en) * | 2009-06-23 | 2021-01-13 | VoiceAge Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
CA2777073C (en) * | 2009-10-08 | 2015-11-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
KR101137652B1 (ko) * | 2009-10-14 | 2012-04-23 | 광운대학교 산학협력단 | 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법 |
US9275650B2 (en) * | 2010-06-14 | 2016-03-01 | Panasonic Corporation | Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs |
FR2969805A1 (fr) * | 2010-12-23 | 2012-06-29 | France Telecom | Codage bas retard alternant codage predictif et codage par transformee |
US9037456B2 (en) * | 2011-07-26 | 2015-05-19 | Google Technology Holdings LLC | Method and apparatus for audio coding and decoding |
US9043201B2 (en) * | 2012-01-03 | 2015-05-26 | Google Technology Holdings LLC | Method and apparatus for processing audio frames to transition between different codecs |
-
2013
- 2013-11-15 FR FR1361243A patent/FR3013496A1/fr not_active Withdrawn
-
2014
- 2014-11-14 RU RU2016123462A patent/RU2675216C1/ru active
- 2014-11-14 US US15/036,984 patent/US9984696B2/en active Active
- 2014-11-14 ES ES14821711.0T patent/ES2651988T3/es active Active
- 2014-11-14 WO PCT/FR2014/052923 patent/WO2015071613A2/fr active Application Filing
- 2014-11-14 KR KR1020217018976A patent/KR102388687B1/ko active IP Right Grant
- 2014-11-14 BR BR112016010522-2A patent/BR112016010522B1/pt active IP Right Grant
- 2014-11-14 MX MX2016006253A patent/MX353104B/es active IP Right Grant
- 2014-11-14 JP JP2016529922A patent/JP6568850B2/ja active Active
- 2014-11-14 EP EP14821711.0A patent/EP3069340B1/fr active Active
- 2014-11-14 CN CN201480062220.5A patent/CN105723457B/zh active Active
- 2014-11-14 KR KR1020167014550A patent/KR102289004B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
EP3069340A2 (fr) | 2016-09-21 |
MX2016006253A (es) | 2016-09-07 |
CN105723457A (zh) | 2016-06-29 |
JP2017501432A (ja) | 2017-01-12 |
KR102388687B1 (ko) | 2022-04-19 |
BR112016010522B1 (pt) | 2022-09-06 |
US9984696B2 (en) | 2018-05-29 |
WO2015071613A3 (fr) | 2015-07-09 |
BR112016010522A2 (es) | 2017-08-08 |
KR20210077807A (ko) | 2021-06-25 |
WO2015071613A2 (fr) | 2015-05-21 |
KR102289004B1 (ko) | 2021-08-10 |
KR20160083890A (ko) | 2016-07-12 |
JP6568850B2 (ja) | 2019-08-28 |
EP3069340B1 (fr) | 2017-09-20 |
FR3013496A1 (fr) | 2015-05-22 |
MX353104B (es) | 2017-12-19 |
CN105723457B (zh) | 2019-05-28 |
RU2016123462A (ru) | 2017-12-18 |
RU2675216C1 (ru) | 2018-12-17 |
US20160293173A1 (en) | 2016-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2651988T3 (es) | Transición desde una codificación/decodificación por transformada hacia una codificación/decodificación predictiva | |
ES2683077T3 (es) | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada | |
ES2564400T3 (es) | Codificador y descodificador de audio para codificar y descodificar muestras de audio | |
ES2928307T3 (es) | Remuestreo por interpolación de una señal de audio para una codificación/decodificación de bajo retardo | |
ES2586766T3 (es) | Dispositivo de decodificación de habla, método de decodificación de habla y programa de decodificación de habla | |
ES2644967T3 (es) | Extensión adaptativa del ancho de banda y aparato para la misma | |
ES2529221T3 (es) | Codificación de sonido con bajo retardo que alterna codificación predictiva y codificación por transformada | |
ES2664185T3 (es) | Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal | |
ES2380307T3 (es) | Esquema de codificación/decodificación de audio de tasa de transmisión de bits baja con preprocesamiento común. | |
JP7026711B2 (ja) | Fd/lpd遷移コンテキストにおけるフレーム喪失管理 | |
PT2301023T (pt) | Esquema de codificação/descodificação áudio de baixo débito com comutadores em cascata | |
BRPI0910783B1 (pt) | Aparelho e método para codificar/decodificar um sinal de áudio utilizando um esq de transferência allastng | |
BRPI0914056B1 (pt) | Esquema de codificação/decodificação de áudio comutado multi-resolução | |
BRPI0715978A2 (pt) | quadros de alinhamento temporal de vocoder de banda larga | |
ES2676832T3 (es) | Determinación de un presupuesto de codificación de una trama de transición LPD/FD | |
BR112020009114A2 (pt) | aparelho para codificar um sinal de informações que inclui uma pluralidade de quadros, sistema que compreende um lado do codificador e um lado do decodificador, método para determinar um atraso de pitch e programa que compreende instruções | |
ES2963367T3 (es) | Aparato y procedimiento de decodificación de una señal de audio usando una parte de anticipación alineada |