ES2922975T3

ES2922975T3 - Codificador, decodificador y procedimientos para la conmutación de señal adaptable de la relación de superposición en la codificación por transformada de audio

Info

Publication number: ES2922975T3
Application number: ES16777607T
Authority: ES
Inventors: Christian Helmrich; Bernd Edler; Tobias Schwegler; Florian Schuh
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2015-09-25
Filing date: 2016-09-23
Publication date: 2022-09-22
Anticipated expiration: 2036-09-23
Also published as: RU2018115190A3; KR102205824B1; WO2017050398A1; CN108463850B; JP6654236B2; US20190103120A1; CA2998776A1; KR20180067552A; BR112018005901A2; CN108463850A; RU2018115190A; US10770084B2; JP2018532153A; EP3353782A1; BR112018005901B1; CA2998776C; WO2017050993A1; EP3353782B1; RU2710929C2

Abstract

Se proporciona un decodificador para decodificar una pluralidad de muestras de audio de dominio espectral. El decodificador comprende un primer módulo de decodificación (110) para generar un primer grupo y un segundo grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral. Además, el decodificador comprende un sumador superpuesto (130) para superponer el primer grupo de muestras de audio intermedias en el dominio del tiempo con una superposición de más del 5 % y como máximo del 50 % con el segundo grupo de muestras de audio intermedias en el dominio del tiempo. . Además, el decodificador comprende un segundo módulo de decodificación (120) para generar un tercer grupo y un cuarto grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral. Además, el decodificador comprende una interfaz de salida (140). El sumador superpuesto (130) está configurado para superponer-sumar al menos el tercer grupo de muestras de audio intermedias en el dominio del tiempo con una superposición de más del 60 % y menos del 100 % con el cuarto grupo de muestras de audio intermedias en el dominio del tiempo. Además, el sumador superpuesto (130) está configurado para superponer-sumar al menos el segundo grupo y el tercer grupo de muestras de audio intermedias en el dominio del tiempo, o para superponer-sumar al menos el cuarto grupo y el primer grupo de muestras de audio en el dominio del tiempo. muestras de audio intermedias. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Codificador, decodificador y procedimientos para la conmutación de señal adaptable de la relación de superposición en la codificación por transformada de audio

[0001] La presente invención se refiere a la codificación, procesamiento y decodificación de señales de audio y, en particular, a un codificador, un decodificador y procedimientos para la conmutación de señal adaptable de la relación de superposición en la codificación por transformada de audio.

[0002] Durante los últimos 20 años, particularmente desde el desarrollo de los codificadores MPEG-1 Layer 3 (MP3) y AC-2 (Dolby Digital), la codificación de audio perceptual se ha basado exclusivamente en la transformada discreta de coseno modificada (MDCT), introducida por Princen y col. (véase [1], [2]) y se investigó más a fondo, bajo el nombre de transformada solapada modulada (MLT), por Malvar (véase [3]), para la forma de onda que preserva la cuantificación espectral. El inverso de esta transformada, dado un espectro de longitud M ■A / para el índice de trama i, se puede escribir como

M = —

con 0 < n < Ny N siendo la longitud de la ventana. Dado 2 , la relación de superposición es del 50 %. En estándares recientes basados en la especificación Codificación de audio avanzada (AAC) MPEG-2 (véase [4], [5]), este concepto se ha ampliado para permitir también herramientas paramétricas tales como el relleno de ruido en el dominio M^dC^t. La plataforma de audio 3D MPEG-H (véase [6], [7]), por ejemplo, ofrece para la codificación semiparamétrica por transformada en dominio, por ejemplo, las funcionalidades de relleno de ruido de líneas espectrales puestas en cero por encima de cierta frecuencia; relleno estéreo para la codificación estereofónica conjunta semiparamétrica (véase [8], [9]); y relleno inteligente de huecos (IGF) para la extensión del ancho de banda (véase [10]).

[0003] En [9], se demostró que la combinación de IGF y relleno estéreo, titulado sustitución de banda espectral (SBS) en [8], asistida por la conmutación de núcleo de control por transformada para la entrada con diferencias de fase intercanal no trivial, proporciona una buena calidad de audio para la mayoría de las señales. En los segmentos armónicos cuasi-estacionarios, sin embargo, el rendimiento subjetivo fue inferior al de la configuración alternativa de audio 3D de alto retardo/complejidad utilizando replicación de banda espectral (SBR) y envolvente MPEG "estéreo unificado" en un dominio pseudo-QMF. Una explicación para (SBR) y envolvente MPEG "estéreo unificado" en un dominio pseudo-QMF. Una explicación para este comportamiento es la mayor resolución de frecuencia de las MDCTs utilizadas en esta última configuración: a la velocidad de muestreo de salida dada de 48 kHz, las transformadas de núcleo de tamaño M operan en señales de mezcla reductora submuestreada y residuales de 24 kHz, duplicando la longitud de la trama.

[0004] La codificación de audio 3D basada en SBS, debido a sus ventajas de retardo, complejidad y resolución temporal [8], representa la variante de elección al menos para señales mono- y estereofónicas, y es deseable mejorar su diseño, manteniendo la longitud de la trama, de modo que su rendimiento pueda coincidir con el de la configuración basada en QMF incluso en grabaciones de un solo instrumento y otras grabaciones tonales. Una solución viable para aumentar la eficiencia espectral en segmentos cuasi-estacionarios es la transformada solapada extendida (ELT) propuesta por Malvar (véase [11], [12]), cuya versión inversa (síntesis) es idéntica a (1), excepto que 0 < n < L con L > 4M.

[0005] Por tanto, la fórmula (1) indica la MLT inversa así como la ELT inversa. La única diferencia es que en el caso de la MLT inversa n, se define para 0 < n < N, por ejemplo, con N = 2 • M, y en el caso de la ELT inversa, n se define para 0 < n < L, por ejemplo, con L > 4M.

[0006] Desafortunadamente, como se mostrará a continuación, la relación de superposición de ELT es de al menos 75 % en lugar de 50 % de la MDCT, lo que a menudo conduce a artefactos audibles para partes de forma de onda transitoria como golpes de tambor o comienzos de tono. Por otra parte, las soluciones prácticas para la conmutación de longitud de bloque entre ELTs de diferentes longitudes, o entre una ELT y MLT, de manera similar a la técnica aplicada en los códecs MDCT para precisamente tales tramas transitorias, no se han presentado y solo se ha publicado un trabajo teórico (véase, por ejemplo, [13], [14], [15], [16], [17]).

[0007] El documento US2014/058737 (A1) describe que un decodificador de señal de sonido híbrido decodifica un flujo de bits que incluye tramas de audio codificadas por un procedimiento de codificación de audio usando un banco de filtros de bajo retardo y tramas de voz codificadas por un procedimiento de codificación de voz usando coeficientes de predicción lineal. Cuando una trama actual que se va a decodificar es una trama de orden i que es una trama de voz inicial después de conmutar de una trama de audio a una trama de voz, el decodificador de señal de sonido híbrido genera subtramas que son una señal correspondiente a una trama de orden i-1 antes de ser codificada, usando una subtrama que es una señal generada usando una señal de la trama de orden i-1 antes de ser codificada, la señal de la trama de orden i-1 siendo obtenida mediante la decodificación de la trama de orden i.

[0008] David Virette: "Low Delay Transform for High Quality Low Delay Audio Coding", 10 de diciembre de 2012, páginas 1 - 195, Universite de Rennes 1, describe elementos que permiten incorporar mejor la restricción de reducción de retardo, en particular, una herramienta de conmutación de bloque de retardo bajo que permite la transición directa entre la transformada larga y la transformada corta sin la inserción de la ventana de transición.

[0009] El documento US 2010/076754 A1 describe la transformada de la codificación/decodificación de una señal de audio digital representada por una sucesión de tramas, usando ventanas de diferentes longitudes. Para la codificación en el sentido de la invención, se busca detectar un evento particular, tal como un ataque, en una trama actual: y, al menos si dicho evento particular se detecta al inicio de la trama actual, se aplica directamente una ventana corta con el fin de codificar la trama actual sin aplicar una ventana de transición. Por tanto, la codificación tiene un retardo reducido en relación con la técnica anterior. Adicionalmente, se aplica un procesamiento ad hoc durante la decodificación con el fin de compensar el paso directo de una ventana larga a una ventana corta durante la codificación. El documento US 2013/090929 A1 describe un nuevo decodificador de audio híbrido y un nuevo codificador de audio híbrido que tiene conmutación de bloque para señales de voz y señales de audio. Actualmente, se proponen procedimientos de codificación de audio de velocidad binaria muy baja para la señal de voz y de audio. Estos procedimientos de codificación de audio causan un retardo muy largo. Generalmente, en la codificación de una señal de audio, el retardo del algoritmo tiende a ser largo para lograr una resolución de frecuencia más alta. En la codificación de una señal de voz, el retardo debe reducirse porque la señal de voz se usa para la telecomunicación. Para equilibrar la calidad de codificación fina para estos dos tipos de señales de entrada con velocidad binaria muy baja, esta invención proporciona una combinación de un banco de filtros de bajo retardo similar a un procedimiento de codificación AAC-ELD y CELP.

[0010] El objeto de la presente invención es proporcionar conceptos mejorados para la codificación, el procesamiento y la decodificación de una señal de audio. El objeto de la presente invención se resuelve mediante la materia objeto de las reivindicaciones independientes.

[0011] Las realizaciones preferidas se proporcionan en las reivindicaciones dependientes.

[0012] En lo siguiente, las realizaciones de la presente invención se describen más en detalle con referencia a las figuras, en las que:

La Fig. 1a ilustra un decodificador según una realización,

La Fig. 1b ilustra un codificador según una realización,

La Fig. 1c ilustra un sistema según una realización,

La Fig. 2a ilustra la superposición de cuatro grupos de las muestras de audio en el dominio del tiempo según una realización, cuando se lleva a cabo una conmutación de grupos cortos a grupos largos,

La Fig. 2b ilustra la superposición de seis grupos de las muestras de audio en el dominio del tiempo según una realización, cuando se lleva a cabo una conmutación de grupos cortos a grupos largos,

La Fig. 3a ilustra la superposición de cuatro grupos de las muestras de audio en el dominio del tiempo según una realización, cuando se lleva a cabo una conmutación de grupos largos a grupos cortos,

La Fig. 3b ilustra la superposición de seis grupos de las muestras de audio en el dominio del tiempo según una realización, cuando se lleva a cabo una conmutación de grupos largos a grupos cortos,

La Fig. 4 ilustra TDAC durante una adición con superposición (OLA) en la transformación solapada, en la Fig. 4 (a) para MLT, en la Fig. 4 (b) para ELT, y en la Fig. 4 (c) para MLT a través de ELT,

La Fig. 5 ilustra la conmutación de MLT a ELT con transformadas de transición según las realizaciones, donde La Fig. 5 (a) muestra una reconstrucción incorrecta no perfecta, donde la Fig. 5 (b) ilustra la reconstrucción perfecta deseada, y donde la Fig. 5 (c) ilustra MLT a través de la ELT deseada (modificada),

La Fig. 6 ilustra la conmutación de ELT a MLT con transformadas de transición según las realizaciones.

La Fig. 7 ilustra diseños perfectos de ventanas de reconstrucción, en la Fig. 7 (a) para MLT, en la Fig. 7 (b) para ELT y en la Fig. 7 (c) para transiciones según las realizaciones,

La Fig. 8 ilustra la selección de ELT y MDCT por tramas resultante para cuatro señales de entrada según las realizaciones,

La Fig. 9 ilustra una vista ampliada de los resultados de la prueba de escucha con intervalos de confianza del 95 % según las realizaciones,

La Fig. 10 ilustra una pluralidad de ventanas de análisis según una realización,

La Fig. 11 ilustra una pluralidad de ventanas de síntesis según una realización,

La Fig. 12 ilustra bancos de filtros básicos con transformadas solapadas según algunas realizaciones particulares, donde la Fig. 12 (a) ilustra MDCT/MDST, y donde la Fig. 12 (b) ilustra ELT,

La Fig. 13 ilustra TDAC en bancos de filtros apilados uniformemente según algunas realizaciones particulares, donde la Fig. 13 (a) ilustra Princen-Bradley, y donde la Fig. 13 (b) ilustra MELT-II,

La Fig. 14 ilustra la conmutación de núcleo de control en conformidad con TDAC particular para los bancos de filtros MELT-IV según las realizaciones particulares, donde la Fig. 14 (a) ilustra las transiciones de la modulación de coseno a seno, y donde la Fig. 14 (b) ilustra las transiciones de la modulación seno a coseno, y

La Fig. 15 ilustra una formación de ventanas mejorada y correcta según las realizaciones particulares con una forma "parada-inicio" especial, indicada por guiones, durante transiciones temporales, donde la Fig. 15 (a) ilustra transiciones temporales de una relación de superposición del 75 al 50 %, y donde la Fig. 15 (b) ilustra transiciones temporales de una relación de superposición del 50 al 75 %.

[0013] Antes de describir las realizaciones específicas en detalle, se describen los principios de codificación por transformada solapada.

[0014] La ELT, MLT y MDCT, como se mencionó anteriormente, se pueden considerar realizaciones específicas de una formulación de transformada solapada general, con fórmula (1) para determinar el caso inverso y con 0 < k < My para directo (análisis).

[0015] En la fórmula (2), la función cos() ha sido reemplazada por el marcador de posición cs() para enfatizar que también se puede usar la función sen() en (1, 2) para obtener formas moduladas por seno como la transformada de seno discreta modificada (MDST) aplicada en la MCLT (Transformada solapada compleja modulada) (véase [18]) y en [8], [9].

[0016] Por tanto, cs() es un marcador de posición para indicar que se puede usar sen() o cos().

[0017] En lugar de la fórmula (1) para la MLT inversa (que implementa la síntesis de la MLT) o la fórmula (2) para la ELT (directa) (que implementa el análisis de la ELT), se emplean una pluralidad de otras fórmulas como ecuaciones de transformada solapada cuando se lleva a cabo la MLT (por ejemplo, MDCT o MDST) o la ELT. Los ejemplos de tales ecuaciones se presentan ahora como fórmulas (2a) -(2j).

[0018] En todas las fórmulas (2a) -(2j) y en las fórmulas (4a) -(4h) siguientes, se aplica 0 < k < M y 0 < n, donde X(k) es la muestra de frecuencia en k y x(n) es la muestra de tiempo en n.

[0019] Una formulación de transformada solapada generalizada puede, por ejemplo, formularse como en las fórmulas (2a) y (2b): Definición de transformada solapada generalizada directa (análisis):

Definición de transformada solapada generalizada inversa (síntesis):

Las transformadas solapadas con una relación de superposición del 50 % pueden, por ejemplo, formularse como en las fórmulas (2c) -(2j):

MDCTA directa (análisis), tipo 4, llamada MDCT-IV,

MDCT inversa (síntesis), tipo 4, llamada IMDCT-IV,

N = - -

MDCT directa (análisis), tipo 2, llamada MDCT-II,

MDCT inversa (síntesis), tipo 2, llamada IMDCT-II

N ~ r

MDST directa (análisis), tipo 4, llamada MDST-IV.

L

n < —

MDST inversa (síntesis), tipo 4, llamada IMDST-IV,

MDST directa (análisis), tipo 2, llamada MDST-II,

—

MDST inversa (síntesis), tipo 2, llamada IMDST-II 2 .

[0020] Las transformadas solapadas con una relación de superposición del 75 %, por ejemplo, la transformada solapada extendida (ELT) directa o inversa de Malvar, pueden, por ejemplo, formularse de la misma manera que las fórmulas (2c) y (2d), pero con N = L y n < L.

[0021] Para conseguir una reconstrucción perfecta (PR) de la señal de entrada s(n) después del sometimiento a las transformadas de análisis y síntesis en las fórmulas (1) y (2), respectivamente, al menos en ausencia de distorsión espectral, por ejemplo, por cuantificación (indicada por a ’ en la fórmula (1)), las ventanas w(n) se usan para ponderar s,{n)=w(n)-x'i(n) la entrada de análisis de tamaño L xi(n) = w(n)- s¡ (n), así como la salida de síntesis ya que s,{n) presenta un solapamiento en el dominio del tiempo (TDA) debido a la propiedad crítica de muestreo de la transformación solapada, w(n) debe cumplir con las restricciones de diseño particulares (véase [1], [2], [12]). Para

L_

ELTs con incluso ^M , con el supuesto de igualdad, w(n) simétrico para el análisis y la síntesis, estas vienen dadas por

[0022] Para la MLT, MDCT o MDST : M M , los tres términos se aplicarán indistintamente en lo sucesivo), el TDA se cancela combinando la primera mitad temporal de s, con la segunda mitad de s,-1 de la trama anterior por medio de un procedimiento de adición con superposición (OLA). La relación de superposición intertransformada ^{2 - 1}= 50%

resultante es " .En el caso de la ELT con L = 4M, la etapa de OLA debe combinar la primera cuarta parte de s, con la segunda cuarta parte de s¡.1, la tercera cuarta parte de s¡.2, y la cuarta cuarta parte de s¡.3, por lo que la 4

relación crece respecto a 4-1.^{75 %}

[0023] La Fig. 4 ilustra esta diferencia y el peor caso de preeco (propagación temporal de errores de codificación). Las discusiones más detalladas sobre el TDA y la reconstrucción perfecta se pueden hallar en [15], [16], [17], [18], [19] y [20].

[0024] En particular, la Fig. 4 ilustra TDAC durante OLA en una transformación solapada, en la Fig. 4 (a) para MLT, en la Fig. 4 (b) para ELT, y en la Fig. 4 (c) para MLT a través de ELT. La longitud de la línea debajo de las ventanas indica el preeco máximo. Puede verse que el preeco máximo en el caso de la ELT es más largo que en el caso de la MLT.

[0025] También se debe tener en cuenta que también son posibles ELTs de fase lineal apiladas uniformemente basadas en DCT-II, o ELT de longitud impar con, por ejemplo, L = 3M (véase [21], 22]) y que las realizaciones descritas a continuación también se aplican a dichas ELTs.

(— = 4)

[0026] Centrándose en la ELT de longitud 4M, M se puede observar que, como se muestra en la Fig. 5 (a), la reconstrucción perfecta no se logra durante las conmutaciones hacia y desde la codificación de MLT dado que las simetrías de TDA son incompatibles. En otras palabras, se viola la necesidad de combinaciones par-impar adyacentes (véase [9], [19]) entre las tramas i-4 e i-3.

[0027] Las realizaciones se describen ahora en detalle.

[0028] La Fig. 1b ilustra un codificador para codificar una pluralidad de muestras de audio en el dominio del tiempo de una señal de audio mediante la generación de una pluralidad de grupos de muestras de audio en el dominio espectral de una pluralidad de grupos de las muestras de audio en el dominio del tiempo según una realización.

[0029] El codificador comprende un primer módulo de codificación 210 para generar un primer grupo de los grupos de muestras de audio en el dominio espectral de un primer grupo de los grupos de las muestras de audio en el dominio del tiempo, y para generar un segundo grupo de los grupos de muestras de audio en el dominio espectral de un segundo grupo de los grupos de las muestras de audio en el dominio del tiempo, donde el primer grupo de muestras de audio en el dominio del tiempo y el segundo grupo de muestras de audio en el dominio del tiempo se aproximan en el tiempo dentro de los grupos de las muestras de audio en el dominio del tiempo, donde el primer grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 50 % de las muestras de audio del segundo grupo de las muestras de audio en el dominio del tiempo, y donde el segundo grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 50 % de las muestras de audio del primer grupo de las muestras de audio en el dominio del tiempo.

[0030] Es más, el codificador comprende un segundo módulo de codificación 220 para generar un tercer grupo de los grupos de muestras de audio en el dominio espectral de un tercer grupo de los grupos de las muestras de audio en el dominio del tiempo, y para generar un cuarto grupo de los grupos de las muestras de audio en el dominio espectral de un cuarto grupo de los grupos de las muestras de audio en el dominio del tiempo, donde el tercer grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio del cuarto grupo de las muestras de audio en el dominio del tiempo, y donde el cuarto grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio del tercer grupo de las muestras de audio en el dominio del tiempo.

[0031] Por otra parte, el codificador comprende un módulo de salida 230 para emitir el primer grupo de muestras de audio en el dominio espectral, el segundo grupo de muestras de audio en el dominio espectral, el tercer grupo de muestras de audio en el dominio espectral y el cuarto grupo de muestras de audio en el dominio espectral.

[0032] El tercer grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del segundo grupo de las muestras de audio en el dominio del tiempo, o donde el cuarto grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del primer grupo de las muestras de audio en el dominio del tiempo.

[0033] Las realizaciones se basan, entre otras cosas, en el hallazgo de que, para algunas porciones de la señal de audio en el dominio del tiempo, las ventanas de transformada más largas que tienen una superposición más alta son más adecuadas, mientras que para otros grupos de señales de porciones de la señal de audio en el dominio del tiempo, las ventanas de transformada más cortas con una superposición más baja son más adecuadas. Por lo tanto, se realiza una conmutación entre diferentes ventanas de transformada en tiempo de ejecución. Para realizar la codificación de audio sin artefactos audibles, las ventanas de transformada cercanas se superponen, incluso cuando la longitud de su ventana cambia.

[0034] En la Fig. 1b, el primer módulo de codificación 210 es para codificar grupos más pequeños de las muestras de audio en el dominio del tiempo que tienen una superposición más pequeña con otros grupos de las muestras de audio en el dominio del tiempo. Sin embargo, como incluso para el primer módulo de codificación 210, debe existir al menos cierta superposición, se requiere una superposición del 50 %.

[0035] El segundo módulo de codificación 220 es para codificar grupos más grandes de las muestras de audio en el dominio del tiempo que tienen una superposición más grande en comparación con los grupos procesados por el primer módulo de codificación 210. Se requiere un 75 %.

[0036] La Fig. 2a ilustra la superposición de cuatro grupos de las muestras de audio en el dominio del tiempo según una realización, cuando se lleva a cabo una conmutación de grupos cortos a grupos largos.

[0037] En particular, cada uno del primer grupo 410 de las muestras de audio en el dominio del tiempo, el segundo grupo 420 de las muestras de audio en el dominio del tiempo, el tercer grupo 430 de las muestras de audio en el dominio del tiempo y el cuarto grupo 440 de las muestras de audio en el dominio del tiempo se representa esquemáticamente mediante un bloque correspondiente. Las líneas discontinuas ayudan a identificar la región de superposición.

[0038] Como se puede ver, el primer grupo 410 de las muestras de audio en el dominio del tiempo y el segundo grupo 420 de las muestras de audio en el dominio del tiempo tienen una superposición del 50 %. Por tanto, el primer grupo 410 de las muestras de audio en el dominio del tiempo comprende exactamente el 50 % de las muestras de audio en el dominio del tiempo del segundo grupo 420 de las muestras de audio en el dominio del tiempo, y viceversa.

[0039] Por otra parte, como se puede ver, el tercer grupo 430 de las muestras de audio en el dominio del tiempo y el cuarto grupo 440 de las muestras de audio en el dominio del tiempo tienen una superposición del 75 %. Por tanto, el tercer grupo 430 de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio en el dominio del tiempo del cuarto grupo 440 de las muestras de audio en el dominio del tiempo, y viceversa.

[0040] Es más, como se puede ver, el tercer grupo 430 de las muestras de audio en el dominio del tiempo comprende muestras de audio del segundo grupo 420 de las muestras de audio en el dominio del tiempo, ya que ambos grupos tienen un intervalo de superposición.

[0041] Resumiendo la realización de la Figura 2a, el primer grupo 410 de las muestras de audio en el dominio del tiempo precede al segundo grupo 420 de las muestras de audio en el dominio del tiempo en el tiempo, el segundo grupo 420 de las muestras de audio en el dominio del tiempo precede al tercer grupo 430 de las muestras de audio en el dominio del tiempo en el tiempo, el tercer grupo 430 de las muestras de audio en el dominio del tiempo precede al cuarto grupo 440 de las muestras de audio en el dominio del tiempo en el tiempo, y el tercer grupo 430 de las muestras de audio en el dominio del tiempo comprende muestras de audio del segundo grupo 420 de las muestras de audio en el dominio del tiempo. Lo mismo ocurre con la realización de la Fig. 2b.

[0042] La Fig. 3a proporciona un ejemplo para una conmutación de grupos largos a grupos cortos.

[0043] La Fig. 3a ilustra la superposición de cuatro grupos de las muestras de audio en el dominio del tiempo según una realización, cuando se lleva a cabo una conmutación de grupos largos a grupos cortos.

[0044] En particular, nuevamente, cada uno del primer grupo 411 de las muestras de audio en el dominio del tiempo, el segundo grupo 421 de las muestras de audio en el dominio del tiempo, el tercer grupo 431 de las muestras de audio en el dominio del tiempo y el cuarto grupo 441 de las muestras de audio en el dominio del tiempo se representa esquemáticamente mediante un bloque correspondiente. Las líneas discontinuas ayudan de nuevo a identificar la región de superposición.

[0045] Como se puede ver, el primer grupo 411 de las muestras de audio en el dominio del tiempo y el segundo grupo 421 de las muestras de audio en el dominio del tiempo tienen una superposición del 50 %. Por tanto, el primer grupo 411 de las muestras de audio en el dominio del tiempo comprende exactamente el 50 % de las muestras de audio en el dominio del tiempo del segundo grupo 421 de las muestras de audio en el dominio del tiempo, y viceversa.

[0046] Por otra parte, como se puede ver, el tercer grupo 431 de las muestras de audio en el dominio del tiempo y el cuarto grupo 441 de las muestras de audio en el dominio del tiempo tienen una superposición del 75 %. Por tanto, el tercer grupo 431 de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio en el dominio del tiempo del cuarto grupo 441 de las muestras de audio en el dominio del tiempo, y viceversa.

[0047] Es más, como se puede ver, el cuarto grupo 441 de las muestras de audio en el dominio del tiempo comprende muestras de audio del primer grupo 411 de las muestras de audio en el dominio del tiempo, ya que ambos grupos tienen un intervalo de superposición.

[0048] Resumiendo la realización de la Fig. 3a, el tercer grupo 431 de las muestras de audio en el dominio del tiempo precede al cuarto grupo 441 de las muestras de audio en el dominio del tiempo en el tiempo, el cuarto grupo 441 de las muestras de audio en el dominio del tiempo precede al primer grupo 411 de las muestras de audio en el dominio del tiempo en el tiempo, el primer grupo 411 de las muestras de audio en el dominio del tiempo precede al segundo grupo 421 de las muestras de audio en el dominio del tiempo en el tiempo, y el cuarto grupo 441 de las muestras de audio en el dominio del tiempo comprende muestras de audio del primer grupo 411 de las muestras de audio en el dominio del tiempo. Lo mismo ocurre con la realización de la Fig. 3b.

[0049] Según una realización, el primer grupo 410, 411 de las muestras de audio en el dominio del tiempo puede, por ejemplo, comprender exactamente el 50 % de las muestras de audio del segundo grupo 420, 421 de las muestras de audio en el dominio del tiempo, y el segundo grupo de las muestras de audio en el dominio del tiempo puede, por ejemplo, comprender exactamente el 50 % de las muestras de audio del primer grupo de las muestras de audio en el dominio del tiempo. La Fig. 2a, la Fig. 3a, la Fig. 2b y la Fig. 3b realizan tal realización.

[0050] El tercer grupo 430, 431 de las muestras de audio en el dominio del tiempo puede, por ejemplo, comprender exactamente el 75 % de las muestras de audio del cuarto grupo 440, 441 de las muestras de audio en el dominio del tiempo, y el cuarto grupo 440, 441 de las muestras de audio en el dominio del tiempo puede, por ejemplo, comprender exactamente el 75 % de las muestras de audio del tercer grupo 430, 431 de las muestras de audio en el dominio del tiempo. La Fig. 2a, la Fig. 3a, la Fig. 2b y la Fig. 3b también realizan tal realización.

[0051] En una realización, el primer módulo de codificación 210 puede, por ejemplo, estar configurado para llevar a cabo una transformada de coseno discreta modificada o una transformada de seno discreta modificada, y el segundo módulo de codificación 220 puede, por ejemplo, estar configurado para llevar a cabo una transformada solapada extendida o una transformada solapada extendida modificada.

[0052] Según una realización, el tercer grupo 430, 431 de las muestras de audio en el dominio del tiempo puede, por ejemplo, comprender exactamente el 75 % de las muestras de audio del cuarto grupo 440, 441 de las muestras de audio en el dominio del tiempo, y el cuarto grupo 440, 441 de las muestras de audio en el dominio del tiempo puede, por ejemplo, comprender exactamente el 75 % de las muestras de audio del tercer grupo 430, 431 de las muestras de audio en el dominio del tiempo.

[0053] En una realización, un primer número de muestras de audio en el dominio del tiempo del primer grupo de las muestras de audio en el dominio del tiempo puede, por ejemplo, ser igual a un segundo número de muestras de audio en el dominio del tiempo del segundo grupo de las muestras de audio en el dominio del tiempo. Un tercer número de muestras de audio en el dominio del tiempo del tercer grupo de las muestras de audio en el dominio del tiempo puede, por ejemplo, ser igual a un cuarto número de muestras de audio en el dominio del tiempo del cuarto grupo de las muestras de audio en el dominio del tiempo. El segundo número puede, por ejemplo, ser igual al tercer número dividido por 2, y donde el primer número puede, por ejemplo, ser igual al cuarto número dividido por 2.

[0054] Por ejemplo, un ejemplo particular de dicha realización es que todos los grupos codificados por el segundo módulo de codificación 220 tienen exactamente el doble de las muestras de todos los grupos codificados por el primer módulo de codificación 210.

[0055] Según una realización del codificador de la Fig. 1b, el segundo módulo de codificación 220 está configurado para generar un quinto grupo de muestras de audio en el dominio espectral a partir de un quinto grupo de las muestras de audio en el dominio del tiempo, y donde el segundo módulo de codificación 220 está configurado para generar un sexto grupo de muestras de audio en el dominio espectral a partir de un sexto grupo de las muestras de audio en el dominio del tiempo. El grupo tercero o cuarto de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio del quinto grupo de las muestras de audio en el dominio del tiempo, donde el quinto grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio del grupo tercero o cuarto de las muestras de audio en el dominio del tiempo, donde el quinto grupo de las muestras de audio en el dominio del tiempo comprende el 75 % de las muestras de audio del sexto grupo de las muestras de audio en el dominio del tiempo, donde el sexto grupo de las muestras de audio en el dominio del tiempo comprende el 75 % de las muestras de audio del quinto grupo de las muestras de audio en el dominio del tiempo. El módulo de salida 230 está configurado para emitir además el quinto grupo de muestras de audio en el dominio espectral y el sexto grupo de muestras de audio en el dominio espectral.

[0056] La Fig. 2b ilustra la superposición de seis grupos de las muestras de audio en el dominio del tiempo según una realización, cuando se lleva a cabo una conmutación de grupos cortos a grupos largos.

[0057] Como se puede ver, el cuarto grupo 440 de las muestras de audio en el dominio del tiempo y el quinto grupo 450 de las muestras de audio en el dominio del tiempo tienen una superposición del 75 %. Por tanto, el quinto grupo 450 de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio en el dominio del tiempo del cuarto grupo 440 de las muestras de audio en el dominio del tiempo, y viceversa.

[0058] Por otra parte, como se puede ver, el quinto grupo 450 de las muestras de audio en el dominio del tiempo y el quinto grupo 460 de las muestras de audio en el dominio del tiempo tienen una superposición del 75 %. Por tanto, el sexto grupo 460 de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio en el dominio del tiempo del quinto grupo 450 de las muestras de audio en el dominio del tiempo, y viceversa.

[0059] Según la realización, el primer grupo 410, 411 de muestras de audio en el dominio del tiempo y el segundo grupo de muestras de audio en el dominio del tiempo 420, 421 están próximos en el tiempo. Por ejemplo, en la Fig. 2b se ilustran seis grupos de las muestras de audio en el dominio del tiempo, a saber, 410, 420, 430, 440, 450, 460. Se puede definir una secuencia en el tiempo para estos seis grupos.

[0060] Por ejemplo, la primera muestra del primer grupo 410 de muestras de audio en el dominio del tiempo se refiere a un punto en el tiempo anterior (más en el pasado), a la primera muestra del segundo grupo 420 de muestras de audio en el dominio del tiempo.

[0061] La primera muestra del segundo grupo 420 de muestras de audio en el dominio del tiempo se refiere al mismo punto en el tiempo que la primera muestra del tercer grupo 430 de muestras de audio en el dominio del tiempo. Sin embargo, la última muestra del segundo grupo 420 de muestras de audio en el dominio del tiempo se refiere a un punto en el tiempo anterior a la última muestra del tercer grupo 430 de muestras de audio en el dominio del tiempo.

[0062] La primera muestra del tercer grupo 430 de muestras de audio en el dominio del tiempo se refiere a un punto en el tiempo anterior a la primera muestra del cuarto grupo 440 de muestras de audio en el dominio del tiempo.

[0063] La primera muestra del cuarto grupo 440 de muestras de audio en el dominio del tiempo se refiere a un punto en el tiempo anterior a la primera muestra del quinto grupo 450 de muestras de audio en el dominio del tiempo.

[0064] La primera muestra del quinto grupo 450 de muestras de audio en el dominio del tiempo se refiere a un punto en el tiempo anterior a la primera muestra del sexto grupo 460 de muestras de audio en el dominio del tiempo.

[0065] La secuencia resultante en el tiempo para la Fig. 2b es 410, 420, 430, 440, 450, 460.

[0066] La aplicación del mismo razonamiento para la Fig. 3b se refiere a la secuencia en el tiempo para la Fig. 3b: 461, 451,431, 441,411, 421.

[0067] El razonamiento para determinar una secuencia en el tiempo es:

Si la primera muestra de un grupo A de muestras de audio en el dominio del tiempo se refiere a un punto en el tiempo anterior a la primera muestra de un grupo B de muestras de audio en el dominio del tiempo, entonces el grupo A aparece antes en la secuencia de tiempo y luego el grupo B.

[0068] Si la primera muestra de un grupo A de muestras de audio en el dominio del tiempo se refiere al mismo punto en la línea de tiempo que la primera muestra de un grupo B, entonces el grupo A aparece antes en la secuencia de tiempo y luego el grupo B, si la última muestra del grupo A de muestras de audio en el dominio del tiempo se refiere a un punto en el tiempo anterior a la última muestra del grupo B.

[0069] Dos grupos de las muestras de audio en el dominio del tiempo están próximos en el tiempo, si son cercanos (inmediatos) en la secuencia en el tiempo de los grupos de las muestras de audio en el dominio del tiempo.

[0070] Por ejemplo, considere la secuencia en el tiempo para la Fig. 2b: 410, 420, 430, 440, 450, 460. Ahí, los grupos 410 y 420 son cercanos en el tiempo, los grupos 420 y 430 son cercanos en el tiempo, los grupos 430 y 440 son cercanos en el tiempo, los grupos 440 y 450 son cercanos en el tiempo y los grupos 450 y 460 son cercanos en el tiempo, pero ningún otro par de dos grupos son cercanos en el tiempo.

[0071] Por ejemplo, considere la secuencia en el tiempo para la Fig. 3b: 461, 451,431, 441,411, 421. Ahí, los grupos 461 y 451 son cercanos en el tiempo, los grupos 451 y 431 son cercanos en el tiempo, los grupos 431 y 441 son cercanos en el tiempo, los grupos 441 y 411 son cercanos en el tiempo y los grupos 411 y 421 son cercanos en el tiempo, pero ningún otro par de dos grupos son cercanos en el tiempo.

[0072] Con respecto a la Fig. 3b, la Fig. 3b ilustra la superposición de seis grupos de las muestras de audio en el dominio del tiempo según una realización, cuando se lleva a cabo una conmutación de grupos largos a grupos cortos.

[0073] Como se puede ver, el tercer grupo 431 de las muestras de audio en el dominio del tiempo y el quinto grupo 451 de las muestras de audio en el dominio del tiempo tienen una superposición del 75 %. Por tanto, el quinto grupo 451 de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio en el dominio del tiempo del tercer grupo 431 de las muestras de audio en el dominio del tiempo, y viceversa.

[0074] Por otra parte, como se puede ver, el quinto grupo 451 de las muestras de audio en el dominio del tiempo y el quinto grupo 461 de las muestras de audio en el dominio del tiempo tienen una superposición del 75 %. Por tanto, el sexto grupo 461 de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio en el dominio del tiempo del quinto grupo 451 de las muestras de audio en el dominio del tiempo, y viceversa.

[0075] En las realizaciones, se puede aplicar una función de ventana en las muestras de audio en el dominio del tiempo mediante el primer módulo de codificación 210 o el segundo módulo de codificación 220 para obtener muestras de dominio del tiempo ponderadas, y después de eso, el primer módulo de codificación 210 o el segundo módulo de codificación 220 pueden generar las muestras de audio en el dominio espectral a partir de las muestras de dominio del tiempo ponderadas.

[0076] En una realización, el codificador está configurado para emplear el primer módulo de codificación 210 o el segundo módulo de codificación 220 para generar un grupo actual de muestras de audio en el dominio espectral dependiendo de una propiedad de señal de una porción de la señal de audio en el dominio del tiempo.

[0077] Según una realización, el codificador está configurado para determinar como la propiedad de señal, si un grupo actual de la pluralidad de muestras de audio en el dominio del tiempo comprende al menos una de regiones no estacionarias y regiones no tonales. El codificador está configurado para emplear el primer módulo de codificación 210 para generar el grupo actual de muestras de audio en el dominio espectral dependiendo del grupo actual de la pluralidad de muestras de audio en el dominio del tiempo, si el grupo actual de la pluralidad de muestras de audio en el dominio del tiempo comprende dicha al menos una de las regiones no estacionarias y las regiones no tonales. Por otra parte, el codificador está configurado para emplear el segundo módulo de codificación 220 para generar el grupo actual de muestras de audio en el dominio espectral dependiendo del grupo actual de la pluralidad de muestras de audio en el dominio del tiempo, si el grupo actual de la pluralidad de muestras de audio en el dominio del tiempo no comprende dicha al menos una de las regiones no estacionarias y las regiones no tonales.

[0078] En una realización, el módulo de salida 230 está configurado para emitir un bit que tiene un primer valor de bit o un segundo valor de bit dependiendo de la propiedad de señal. Por tanto, el bit se puede emplear en un lado de decodificador para determinar si un codificador usó el primer módulo de codificación 210 o el segundo módulo de codificación 220 para la codificación.

[0079] La Fig. 1a ilustra un decodificador para decodificar una pluralidad de muestras de audio en el dominio espectral según una realización.

[0080] El decodificador comprende un primer módulo de decodificación 110 para decodificar un primer grupo de las muestras de audio en el dominio espectral mediante la generación de un primer grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del primer grupo de las muestras de audio en el dominio espectral, y para decodificar un segundo grupo de las muestras de audio en el dominio espectral mediante la generación de un segundo grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del segundo grupo de las muestras de audio en el dominio espectral.

[0081] Por otra parte, el decodificador comprende un sumador con superposición 130, donde el sumador con superposición 130 está configurado para llevar a cabo una adición con superposición de exactamente dos grupos de muestras de audio intermedias en el dominio del tiempo, dichos exactamente dos grupos siendo el primer grupo y el segundo grupo de muestras de audio intermedias en el dominio del tiempo, donde el sumador con superposición 130 está configurado para añadir con superposición dichos exactamente dos grupos con una superposición del 50 %, donde dicha adición con superposición de dichos exactamente dos grupos da como resultado la generación de una primera pluralidad de muestras de salida de audio en el dominio del tiempo de una señal de audio.

[0082] Es más, el decodificador comprende un segundo módulo de decodificación 120 para decodificar un tercer grupo de las muestras de audio en el dominio espectral mediante la generación de un tercer grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del tercer grupo de las muestras de audio en el dominio espectral, y para decodificar un cuarto grupo de las muestras de audio en el dominio espectral mediante la generación de un cuarto grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del cuarto grupo de las muestras de audio en el dominio espectral.

[0083] Por otra parte, el decodificador comprende una interfaz de salida 140 para emitir la primera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio, una segunda pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio y una tercera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio,

[0084] El sumador con superposición 130 está configurado para obtener la segunda pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el tercer grupo de muestras de audio intermedias en el dominio del tiempo con una superposición del 75 % con el cuarto grupo de muestras de audio intermedias en el dominio del tiempo.

[0085] Por otra parte, el sumador con superposición 130 está configurado para obtener la tercera pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el segundo grupo de muestras de audio intermedias en el dominio del tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo, o donde el sumador con superposición 130 está configurado para obtener la tercera pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el cuarto grupo de muestras de audio intermedias en el dominio del tiempo con el primer grupo de muestras de audio intermedias en el dominio del tiempo.

[0086] Las explicaciones que se han proporcionado con referencia a la Fig. 2a, Fig. 2b, Fig. 2c y Fig. 2d para la superposición de los grupos de las muestras de audio en el dominio del tiempo 410, 411, 420, 421, 430, 431, 440,

441, 450, 451, 460 y 461 se aplican igualmente a los grupos de muestras de audio intermedias en el dominio del tiempo.

[0087] En las realizaciones, las primeras muestras de salida de audio se generan en función de la adición con superposición de las muestras de salida de audio en el dominio del tiempo primera y segunda, las segundas muestras de salida de audio se generan en función de la adición con superposición de las muestras de salida de audio en el dominio del tiempo tercera y cuarta,

[0088] En las realizaciones de decodificador correspondientes a la situación en la Fig. 2a y 2b, la primera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio precede a la tercera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio en el tiempo, y donde la tercera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio precede a la segunda pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio en el tiempo, y donde el sumador con superposición 130 está configurado para obtener la tercera pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el segundo grupo de muestras de audio intermedias en el dominio del tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo, o

[0089] En las realizaciones de decodificador correspondientes a la situación en la Fig. 3a y 3b, la segunda pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio precede a la tercera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio en el tiempo, y donde la tercera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio precede a la primera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio en el tiempo, y donde el sumador con superposición 130 está configurado para obtener la tercera pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el segundo grupo de muestras de audio intermedias en el dominio del tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo.

[0090] Por otra parte, se ha señalado que el primer grupo y el segundo grupo de muestras de audio intermedias en el dominio del tiempo se superponen en un 50 %. En la mayoría de las realizaciones, el primer módulo de decodificación 110 genera grupos de muestras de audio intermedias en el dominio del tiempo que tienen el mismo número de muestras, en otras palabras, la ventana usada por el primer módulo de decodificación 1l0 tiene en general siempre el mismo tamaño. Luego, para determinar la superposición del grupo de muestras de audio intermedias en el dominio del tiempo primero y segundo, el número de muestras de audio intermedias en el dominio del tiempo del primer grupo que se superponen con muestras del segundo grupo de muestras de audio intermedias en el dominio del tiempo en la adición con superposición (por ejemplo, 1024 muestras) se divide por el número total de muestras del primer grupo de muestras de audio intermedias en el dominio del tiempo (por ejemplo, 2048 muestras) para determinar la superposición de la adición con superposición (1024/2048 = 50 %).

[0091] Es más, se ha señalado que el tercer grupo y el cuarto grupo de muestras de audio intermedias en el dominio del tiempo se superponen en un 75 %. En la mayoría de las realizaciones, el segundo módulo de decodificación 120 genera grupos de muestras de audio intermedias en el dominio del tiempo que tienen el mismo número de muestras, en otras palabras, la ventana usada por el segundo módulo de decodificación 120 tiene en general siempre el mismo tamaño (pero el tamaño de los grupos/ventanas es a menudo diferente del tamaño de los grupos/ventanas que se generan/usan por el primer módulo de decodificación 110). Luego, para determinar la superposición del grupo de muestras de audio intermedias en el dominio del tiempo tercero y cuarto, el número de muestras de audio intermedias en el dominio del tiempo del tercer grupo que se superponen con muestras del cuarto grupo de muestras de audio intermedias en el dominio del tiempo en la adición con superposición (por ejemplo, 3584 muestras) se divide por el número total de muestras del primer grupo de muestras de audio intermedias en el dominio del tiempo (por ejemplo, 4096 muestras) para determinar la superposición de la adición con superposición (3584/4096 = 87,5 %). Sin embargo, en la realización de que el segundo módulo de decodificación 120 genera grupos de muestras de audio intermedias en el dominio del tiempo que tienen un número diferente de muestras, entonces se considera el más grande de los grupos de muestras de audio intermedias en el dominio del tiempo y la superposición se define como el número de muestras de audio intermedias en el dominio del tiempo del grupo más grande que se superponen con muestras del grupo más pequeño (por ejemplo, 3072 muestras) dividido por el número total de muestras del grupo más grande (por ejemplo, 4096 muestras) (superposición: 3072/4096 = 75 %).

[0092] La adición con superposición es bien conocida por el experto en la materia. La adición con superposición de dos grupos de las muestras de audio en el dominio del tiempo es particularmente conocida por el experto en la materia.

[0093] Una forma de implementar la adición con superposición de tres o más grupos puede ser, por ejemplo, una adición con superposición de dos de los tres o más grupos para obtener un resultado de adición con superposición intermedio, y luego adición con superposición de un tercer grupo de los tres o más grupos al resultado de adición con superposición intermedio, y continuar procediendo de la misma manera, hasta que todos los grupos se añadan con superposición con el resultado intermedio (actualizado).

[0094] Otra estrategia sería al principio superponer adecuadamente todos los tres o más grupos y luego añadir las muestras correspondientes de los grupos en la superposición para obtener el resultado de la adición con superposición.

[0095] Según una realización, el sumador con superposición 130 puede, por ejemplo, estar configurado para añadir con superposición el primer grupo de muestras de audio intermedias en el dominio del tiempo con una superposición de exactamente el 50 % con el segundo grupo de muestras de audio intermedias en el dominio del tiempo. El sumador con superposición 130 puede, por ejemplo, configurarse para añadir con superposición al menos el tercer grupo de muestras de audio intermedias en el dominio del tiempo con una superposición del 75 % con el cuarto grupo de muestras de audio intermedias en el dominio del tiempo.

[0096] En una realización, el primer módulo de decodificación 110 puede, por ejemplo, configurarse para llevar a cabo una transformada de coseno discreta modificada inversa o una transformada de seno discreta modificada inversa. El segundo módulo de decodificación 120 está configurado para llevar a cabo una transformada solapada extendida inversa o una transformada solapada extendida modificada inversa. Según una realización, el sumador con superposición 130 puede, por ejemplo, estar configurado para añadir con superposición al menos al tercer grupo de muestras de audio intermedias en el dominio del tiempo con una superposición de exactamente el 75 % con el cuarto grupo de muestras de audio intermedias en el dominio del tiempo.

[0097] En una realización, un primer número de muestras de audio intermedias en el dominio del tiempo del primer grupo de muestras de audio intermedias en el dominio del tiempo puede, por ejemplo, ser igual a un segundo número de muestras de audio intermedias en el dominio del tiempo del segundo grupo de muestras de audio intermedias en el dominio del tiempo. Un tercer número de muestras de audio intermedias en el dominio del tiempo del tercer grupo de muestras de audio intermedias en el dominio del tiempo puede, por ejemplo, ser igual a un cuarto número de muestras de audio intermedias en el dominio del tiempo del cuarto grupo de muestras de audio intermedias en el dominio del tiempo. El segundo número puede, por ejemplo, ser igual al tercer número dividido por 2, y donde el primer número es igual al cuarto número dividido por 2.

[0098] Según una realización del decodificador de la Fig. 1a, el segundo módulo de decodificación 120 puede, por ejemplo, configurarse para decodificar un quinto grupo de las muestras de audio en el dominio espectral mediante la generación de un quinto grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del quinto grupo de las muestras de audio en el dominio espectral, y para decodificar un sexto grupo de las muestras de audio en el dominio espectral mediante la generación de un sexto grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del sexto grupo de las muestras de audio en el dominio espectral. El sumador con superposición 130 está configurado para obtener la segunda pluralidad de muestras de salida de audio en el dominio del tiempo mediante una adición con superposición del tercer grupo de muestras de audio intermedias en el dominio del tiempo y el cuarto grupo de muestras de audio intermedias en el dominio del tiempo y el quinto grupo de muestras de audio intermedias en el dominio del tiempo y el sexto grupo de muestras de audio intermedias en el dominio del tiempo, de modo que el grupo de muestras de audio intermedias en el dominio del tiempo tercero o cuarto se superponga en un 75 % con el quinto grupo de muestras de audio intermedias en el dominio del tiempo, y de modo que el quinto grupo de muestras de audio intermedias en el dominio del tiempo se superponga en un 75 % con el sexto grupo de muestras de audio intermedias en el dominio del tiempo.

[0099] Se hace referencia a las explicaciones proporcionadas anteriormente con respecto a los grupos de las muestras de audio en el dominio del tiempo 410, 411,420, 421, 430, 431, 440, 441,450, 451, 460 y 461 en la Fig. 2b y la Fig. 3b, cuyas explicaciones se aplican igualmente a grupos de muestras de audio intermedias en el dominio del tiempo.

[0100] En una realización, el sumador con superposición 130 está configurado para añadir con superposición al menos el segundo grupo de muestras de audio intermedias en el dominio del tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo, de manera que todas las muestras de audio intermedias en el dominio del tiempo del segundo grupo de muestras de audio intermedias en el dominio del tiempo se superpongan con muestras de audio intermedias en el dominio del tiempo del tercer grupo de muestras de audio intermedias en el dominio del tiempo. Mejor dicho, el sumador con superposición 130 está configurado para añadir con superposición al menos el cuarto grupo de muestras de audio intermedias en el dominio del tiempo con el primer grupo de muestras de audio intermedias en el dominio del tiempo, de manera que todas las muestras de audio intermedias en el dominio del tiempo del primer grupo de muestras de audio intermedias en el dominio del tiempo se superpongan con el cuarto grupo de muestras de audio intermedias en el dominio del tiempo.

[0101] La Fig. 1c ilustra un sistema según una realización. El sistema comprende un codificador 310 según una de las realizaciones anteriormente descritas y un decodificador 320 según una de las realizaciones anteriormente descritas. El codificador 310 está configurado para codificar una pluralidad de muestras de audio en el dominio del tiempo de una señal de audio mediante la generación de una pluralidad de muestras de audio en el dominio espectral. Por otra parte, el decodificador 320 está configurado para recibir una pluralidad de muestras de audio en el dominio espectral del codificador. Es más, el decodificador está configurado para decodificar la pluralidad de muestras de audio en el dominio espectral.

[0102] Para reducir o evitar el solapamiento en el dominio del tiempo, con respecto a una realización del codificador de la Fig. 1b, el segundo módulo de codificación 220 está configurado para generar al menos uno del tercer grupo y el cuarto grupo de muestras de audio en el dominio espectral dependiendo de

donde cs( ) es cos() o sen( ),

donde n indica un índice de tiempo de una de las muestras de audio en el dominio del tiempo del grupo de muestras de audio en el dominio del tiempo tercero o cuarto,

donde k indica un índice espectral de una de las muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto,

donde -0,1 < c < 0,1, o 0,4 < c < 0,6, o 0,9 < c < 1,1,

donde ’

donde 0,9 • n < q < 1,1 • n.

M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto,

, s • J\44" 1

b = ------------donde ², y

donde 1,5 < s < 4,5.

[0103] En una realización, el primer módulo de codificación 210 está configurado para generar al menos uno del primer grupo y del segundo grupo de muestras de audio en el dominio espectral dependiendo de

csi (a (wi bi )(k + c-i))

donde csi ( ) es cos( ) o sen(),

donde n- indica un índice de tiempo de una de las muestras de audio en el dominio del tiempo del grupo de muestras de audio en el dominio del tiempo primero o segundo,

donde -0,1 < ci < 0,1, o 0,4 < c-i < 0,6, o 0,9 < ci <1,1,

donde

[0104] Según una realización c = 0, o c = 0,5, o c = 1, q = n, y s = 3.

[0105] El ajuste s = 3 logra reducir de manera óptima el solapamiento en el dominio del tiempo, mientras que el ajuste 1,5 < s < 4,5 con s t 3 logra algún grado de reducción de solapamiento en el dominio del tiempo, pero, en general, no tanta reducción como para s = 3.

[0106] Las realizaciones particulares funcionan particularmente bien. Véase la tabla 1 y la tabla 2:

Tabla 1:

ss. MLT ->tr. MLT -> tr. MELT -> ss. MELT -> .

[0107] La Tabla 1 muestra una conmutación de MLT a ELT. En cada línea, se ilustran las funciones para cuatro ventanas posteriores/grupos correspondientes de las muestras de audio en el dominio del tiempo. Las dos primeras columnas se refieren a las dos últimas ventanas de MLT (la ventana de MLT penúltima y última), las columnas 3 y 4 se refieren a la ventana de ELT primera y segunda, respectivamente. Cada línea representa una combinación particularmente buena de funciones para ventanas posteriores. Las fórmulas para MDCT-II, MDST-II, MDCT-IV y MDST-IV y para MECT-II, MEST-II, MECT-IV y ME^sT-IV y las fórmulas inversas correspondientes se presentan con respecto a las fórmulas (2a) -(2j) y (4a) -(4h). Las combinaciones ilustradas funcionan igualmente bien para las transformaciones inversas con las funciones inversas.

[0108] Así, por ejemplo, en una realización, q = n, donde s = 3, donde cs( ) es cos(), y cs1 () es cos( ), y donde c = 0,5, y c1 = 0,5.

[0109] En otra realización, q = n, donde s = 3, donde cs( ) es sen(), y cs1( ) es cos( ), y donde c = 1, y c1 = 0.

[0110] En otra realización, q = n, donde s = 3, donde cs( ) es sen(), y cs1 ( ) es sen(), y donde c = 0,5, y c1 = 1.

[0111] En otra realización, q = n, donde s = 3, donde cs( ) es cos( ), y cs1 ( ) es sen(), y donde c = 0, y c1 = 1.

[0112] En otra realización, q = n, donde s = 3, donde cs( ) es sen(), y cs1 ( ) es sen(), y donde c = 0,5, y c1 = 0,5.

[0113] En otra realización, q = n, donde s = 3, donde cs( ) es cos( ), y csi ( ) es sen( ), y donde c = 0, y ci = 0,5.

[0114] En otra realización, q = n, donde s = 3, donde cs( ) es cos( ), y csi ( ) es cos( ), y donde c = 0,5, y ci = 0.accor

[0115] En otra realización, q = n, donde s = 3, donde cs( ) es sen(), y csi ( ) es cos( ), y donde c = 1, y ci = 0.

Tabla 2:

ss. MELT -> tr. MELT -> tr. MLT -> ss. MLT ->...

MECT-IV MECT-IV MDCT-IV MDCT-IV

MECT-IV MECT-IV MDCT-IV MDST-II

MECT-IV MECT-IV MDST-II MDST-IV

MECT-IV MECT-IV MDST-II MDCT-II

MECT-II MEST-II MDST-IV MDST-IV

MECT-II MEST-II MDST-IV MDCT-II

MECT-II MEST-II MDCT-II MDCT-IV

MECT-II MEST-II MDCT-II MDST-II

MEST-IV MEST-IV MDST-IV MDST-IV

MEST-IV MEST-IV MDST-IV MDCT-II

MEST-IV MEST-IV MDCT-II MDCT-IV

MEST-IV MEST-IV MDCT-II MDST-II

[0116] La Tabla 2 muestra una conmutación de ELT a MLT. En cada línea, se ilustran las funciones para cuatro ventanas posteriores (grupos correspondientes de las muestras de audio en el dominio del tiempo). Las dos primeras columnas se refieren a las dos últimas ventanas de ELT (la ventana de ELT penúltima y última), las columnas 3 y 4 se refieren a la ventana de MLT primera y segunda, respectivamente. Cada línea representa una combinación particularmente buena de funciones para ventanas posteriores. Las fórmulas para MDCT-II, MDST-II, MDCT-IV y MDST-IV y para MECT-II, MEST-II, MECT-IV y MEST-IV y las fórmulas inversas correspondientes se presentan con respecto a las fórmulas (2a) -(2j) y (4a) -(4h). Las combinaciones ilustradas funcionan igualmente bien para las transformaciones inversas con las funciones inversas.

[0117] En una realización, el segundo módulo de codificación 220 está configurado para generar al menos uno del tercer grupo y del cuarto grupo de muestras de audio en el dominio espectral dependiendo de

o dependiendo de

o dependiendo de

o dependiendo de

donde X(k) indica una de las muestras de audio en el dominio espectral del tercer o del cuarto grupo de muestras de audio en el dominio espectral, y donde x(n) indica un valor en el dominio del tiempo.

[0118] Según una realización, el segundo módulo de codificación 220 está configurado para aplicar un peso w(n) en una muestra de audio en el dominio del tiempo s(n) del tercer grupo o del cuarto grupo de las muestras de audio en el dominio del tiempo según

para generar el valor en el dominio del tiempo xi(n).

[0119] En una realización, todas las muestras de audio en el dominio del tiempo del segundo grupo de las muestras de audio en el dominio del tiempo se superponen con muestras de audio en el dominio del tiempo del tercer grupo de las muestras de audio en el dominio del tiempo, o donde todas las muestras de audio en el dominio del tiempo del primer grupo de las muestras de audio en el dominio del tiempo se superponen con el cuarto grupo de las muestras de audio en el dominio del tiempo.

[0120] De manera similar, con respecto al decodificador de la Fig. 1a, en una realización, el segundo módulo de decodificación 120 está configurado para generar al menos uno del tercer grupo de muestras de audio intermedias en el dominio del tiempo y el cuarto grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de

donde cs( ) es cos( ) o sen( ), donde n indica un índice de tiempo de una de las muestras de audio intermedias en el dominio del tiempo del grupo de muestras de audio intermedias en el dominio del tiempo tercero o cuarto, donde k indica un índice espectral de una de las muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral tercero o cuarto,

donde -0,1 < c < 0,1, o 0,4 < c < 0,6, o 0,9 < c< 1,1,

donde

donde 0,9 tt < q < 1,1 tt,

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral tercero o cuarto,

s . M + 1

b = --------------donde 2 i y

donde 1,5 < s < 4,5.

[0121] En una realización, el primer módulo de decodificación 110 está configurado para generar al menos uno del primer grupo de muestras de audio intermedias en el dominio del tiempo y el segundo grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de

donde cs( ) es cos( ) o sen( ),

donde n indica un índice de tiempo de una de las muestras de audio intermedias en el dominio del tiempo del grupo de muestras de audio intermedias en el dominio del tiempo tercero o cuarto,

donde -0,1 < c < 0,1, o 0,4 < c < 0,6, o 0,9 < c < 1,1,

_a _{= —} ^<7

donde ^ . ,

donde 0.9 ■ n < q < 1.1 ■ ^k,

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto,

b f = $° M 1

donde 2 y

donde 1,5 < s < 4,5.

[0122] En una realización, el primer módulo de decodificación 110 está configurado para generar al menos uno del primer grupo de muestras de audio intermedias en el dominio del tiempo y el segundo grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de

donde cs1 ( ) es cos( ) o sen( ),

donde n indica un índice de tiempo de una de las muestras de audio intermedias en el dominio del tiempo del grupo de muestras de audio intermedias en el dominio del tiempo primero o segundo,

donde -0,1 < Ci < 0,1, o 0,4 < Ci < 0,6, o 0,9 < Ci < 1,1,

, M l

¿i —

donde 2 .

[0123] Según una realización c = 0, o c = 0,5, o c = 1, q = n, y s = 3.

[0124] El ajuste s = 3 logra reducir de manera óptima el solapamiento en el dominio del tiempo, mientras que el ajuste 1,5 < s < 4,5 con s ^ 3 logra algún grado de reducción de solapamiento en el dominio del tiempo, pero, en general, no tanta reducción como para s = 3.

[0125] En una realización, el segundo módulo de decodificación 120 está configurado para generar al menos uno del tercer grupo de muestras de audio intermedias en el dominio del tiempo y el cuarto grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de

o dependiendo de

o dependiendo de

o dependiendo de

X'Xk)

donde indica una de las muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral tercero o cuarto, y donde 1 7 indica un valor en el dominio del tiempo.

[0126] Según una realización, el segundo módulo de decodificación 120 está configurado para aplicar un peso w(n) en el valor en el dominio del tiempo según

para generar una muestra de audio intermedia en el dominio del tiempo s(n) del grupo de muestras de audio intermedias en el dominio del tiempo tercero o cuarto.

[0127] Con respecto al codificador de la Fig. 1b, según una realización, Weit es una primera función de ventana, donde wtr es una segunda función de ventana, donde una porción de la segunda función de ventana wtr se define según donde M indica un número de muestras de audio en el dominio espectral del grupo de muestras de audio en el dominio espectral primero o segundo o tercero o cuarto,

donde k es un número con 0 < k < M,

donde des un número real,

i = — L + k t = - L--- 1 - k

donde 1 , o donde 2 . .

L indica un número de muestras del tercer grupo o del cuarto grupo de muestras de audio en el dominio del tiempo.

[0128] El tercer grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del segundo grupo de las muestras de audio en el dominio del tiempo, y donde el segundo módulo de codificación 220 está configurado para aplicar la primera función de ventana Welt en el cuarto grupo de muestras de audio en el dominio del tiempo, y donde el segundo módulo de codificación 220 está configurado para aplicar la segunda función de ventana wtr en el tercer grupo de muestras de audio en el dominio del tiempo. Mejor dicho, el cuarto grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del primer grupo de las muestras de audio en el dominio del tiempo, y donde el segundo módulo de codificación 220 está configurado para aplicar la primera función de ventana Welt en el tercer grupo de muestras de audio en el dominio del tiempo, y donde el segundo módulo de codificación 220 está configurado para la segunda función de ventana wtr en el cuarto grupo de muestras de audio en el dominio del tiempo.

[0129] Según una realización, wri es una tercera función de ventana, donde una porción de la tercera función de ventana se define según

donde N indica un número de muestras de audio en el dominio del tiempo del primer grupo o del segundo grupo de muestras de audio en el dominio del tiempo.

[0130] El tercer grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del segundo grupo de las muestras de audio en el dominio del tiempo, y donde el segundo módulo de codificación (220) está configurado para aplicar la tercera función de ventana wri en el segundo grupo de muestras de audio en el dominio del tiempo. Mejor dicho, el cuarto grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del primer grupo de las muestras de audio en el dominio del tiempo, y donde el segundo módulo de codificación (220) está configurado para la tercera función de ventana wri en el primer grupo de muestras de audio en el dominio del tiempo.

[0131] En una realización, la primera función de ventana Wett se define según

donde

donde bo, bi y b2 son números reales.

donde 0 < t < L, y donde K es un número entero positivo y donde Ck indica un número real.

[0132] Según una realización, K = 3;

0,3 < bo < 0,4; -0,6 < bi < -0,4; 0,01 < b2 < 0,2;

0,001 < ci < 0,03; 0,000001 < C2 < 0,0005; 0,000001 < C3 < 0,00002.

[0133] Según una realización,

0,8<d<1,25.

, 4096

a = -------[0134] En una realización particular, 4061

[0135] Según una realización alternativa, d = 1.

[0136] De manera similar, con respecto al decodificador de la Fig. 1a, según una realización, Weit es una primera función de ventana, donde wtr es una segunda función de ventana, donde una porción de la segunda función de ventana se define según

(0 ^{= d V1 " Weh ( k f - WeIt (M k f}

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real,

t ~ ^L h k ^,t — ¹ 1 — k

donde 1 2 o donde1 2

[0137] L indica un número de muestras del tercer grupo o del cuarto grupo de muestras de audio intermedias en el dominio del tiempo.

[0138] El sumador con superposición 130 está configurado para añadir con superposición al menos el segundo grupo de muestras de audio intermedias en el dominio del tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo, donde el segundo módulo de decodificación 120 está configurado para generar el cuarto grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la primera función de ventana wett, y donde el segundo módulo de decodificación 120 está configurado para generar el tercer grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la segunda función de ventana wtr. Mejor dicho, el sumador con superposición 130 está configurado para añadir con superposición al menos el cuarto grupo de muestras de audio intermedias en el dominio del tiempo con el primer grupo de muestras de audio intermedias en el dominio del tiempo, donde el segundo módulo de decodificación 120 está configurado para generar el tercer grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la primera función de ventana Welt, y donde el segundo módulo de decodificación 120 está configurado para generar el cuarto grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la segunda función de ventana wr.

[0139] Según una realización, donde wtn es una tercera función de ventana, donde una porción de la tercera función de ventana se define según

N , , N , .

ti — — r k t\ — 1 k

donde 1 2 o donde 2

donde N indica un número de muestras de audio intermedias en el dominio del tiempo del primer grupo o del segundo grupo de muestras de audio intermedias en el dominio del tiempo.

[0140] El sumador con superposición (130) está configurado para añadir con superposición al menos el segundo grupo de muestras de audio intermedias en el dominio de tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo, y donde el primer módulo de decodificación (110) está configurado para generar el segundo grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la tercera función de ventana wtn. El sumador con superposición (130) está configurado para añadir con superposición al menos el cuarto grupo de muestras de audio intermedias en el dominio del tiempo con el primer grupo de muestras de audio intermedias en el dominio de tiempo, y donde el primer módulo de decodificación (110) está configurado para generar el primer grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la tercera función de ventana wtn.

[0141] En una realización, la primera función de ventana weit se define según

donde

‘;3-teiro(í) = ¿ COS (ik.TX • .

donde bo, b y b² son números reales, donde 0 < t < L, y donde K es un número entero positivo, y donde Ck indica un número real.

[0142] Según una realización, K = 3;

0,3 < b0 < 0,4; -0,6 < b < -0,4; 0,01 < b2 < 0,2;

0,001 < C1 < 0,03; 0,000001 < C2 < 0,0005; 0,000001 < C3 < 0,00002.

[0143] En una realización, 0,8<d<1,25.

a , = — 40 —61

[0144] Según una realización, 4096 .

[0145] En una realización alternativa, d=1.

[0146] Con respecto al sistema de la Fig. 1c, según una realización, el decodificador 320 del sistema usa una función de ventana de transición

y

el codificador 310 del sistema usa una función de ventana de transición

[0147] Según una realización particular, el decodificador 320 del sistema usa una función de ventana de transición

4061

4096 '

y

el codificador 310 del sistema usa una función de ventana de transición

con d = 4096

4061 '

[0148] Según una realización, el decodificador de la Fig. 1a está configurado para recibir información de decodificación que indica si una porción de la pluralidad de muestras de audio en el dominio espectral debe ser decodificada por el primer módulo de decodificación 110 o por el segundo módulo de decodificación 120. El decodificador está configurado para decodificar dicha porción de la pluralidad de muestras de audio en el dominio espectral mediante el empleo del primer módulo de decodificación 110 o del segundo módulo de decodificación 120 dependiendo de la información de decodificación para obtener el grupo de muestras de audio intermedias en el dominio del tiempo primero o segundo o tercero o cuarto.

[0149] En una realización, el decodificador está configurado para recibir un primer bit y un segundo bit, donde el primer bit y el segundo bit en conjunto tienen una primera combinación de valores de bits, o una segunda combinación de valores de bits que es diferente de la primera combinación de valores de bits, o una tercera combinación de valores de bits que es diferente de la combinación de valores de bits primera y segunda, o una cuarta combinación de valores de bits que es diferente de la combinación de valores de bits primera y segunda y tercera. Por otra parte, el decodificador está configurado para decodificar una porción de la pluralidad de muestras de audio en el dominio espectral dependiente de una función de Kaiser-Bessel mediante el empleo del primer módulo de decodificación 110 para obtener el grupo de muestras de audio intermedias en el dominio del tiempo primero o segundo, si el primer bit y el segundo bit en conjunto tienen la primera combinación de valores de bits. Es más, el decodificador está configurado para decodificar una porción de la pluralidad de muestras de audio en el dominio espectral dependiendo de una función de seno o una función de coseno mediante el empleo del primer módulo de decodificación 110 para obtener el grupo de muestras de audio intermedias en el dominio del tiempo primero o segundo, si el primer bit y el segundo bit en conjunto tienen la segunda combinación de valores de bits. El decodificador está configurado para decodificar una porción de la pluralidad de muestras de audio en el dominio espectral mediante el empleo del primer módulo de decodificación 110 para obtener el grupo de muestras de audio intermedias en el dominio del tiempo primero o segundo, si el primer bit y el segundo bit en conjunto tienen la tercera combinación de valores de bits. Por otra parte, el decodificador está configurado para decodificar dicha porción de la pluralidad de muestras de audio en el dominio espectral mediante el empleo del segundo módulo de decodificación 120 para obtener el grupo de muestras de audio intermedias en el dominio del tiempo tercero o cuarto, si el primer bit y el segundo bit en conjuntos tienen la cuarta combinación de valores de bits.

[0150] Las realizaciones particulares se describen ahora en más detalle.

[0151] Las realizaciones proporcionan una transformada solapada extendida modificada, que se describe a continuación.

[0152] Para corregir el problema de reconstrucción perfecta en la Fig. 5 (a) al lograr la cancelación completa de TDA (TDAC) también en las regiones de OLA de 3 partes transitorias, una clase de transformada debe redefinirse de modo que sus simetrías de TDA complementen las de la otra, por ejemplo, como en la Fig. 5 (b) y la Fig. 5 (c).

[0153] En particular, la Fig. 5 ilustra la conmutación de MLT a ELT con transformadas de transición, donde la Fig. 5 (a) muestra una reconstrucción no perfecta incorrecta, donde la Fig. 5 (b) representa la reconstrucción perfecta deseada, y donde la Fig. 5 (c) ilustra MLT a través de ELT deseada.

[0154] Por otra parte, de manera similar, la Fig. 6 ilustra la conmutación de ELT a MLT con transformadas de transición según las realizaciones.

[0155] Dado que es deseable evitar cambios en las implementaciones existentes de MDCT y MDST, se hace hincapié en la ELT. Por otra parte, para obtener con facilidad una transición de reconstrucción perfecta y ventanas de estado estable para todas las transformadas, son deseables las expresiones analíticas correspondientes.

[0156] Al principio, se describen modificaciones para la adaptación de la relación de superposición según las realizaciones.

[0157] Para dar a la ELT la compatibilidad de TDA deseada con la MLT, el desfase temporal se altera en sus funciones básicas:

X'i

donde k, es se definen al igual que para la fórmula (2) y la ELT inversa (1), usando adaptado en consecuencia, (al igual que anteriormente cs( ) puede ser cos( ) o sen( )).

[0158] Como se explicó anteriormente, por ejemplo, mediante la modificación de las fórmulas (2c) -(2j) mediante el ajuste de N = L (por ejemplo, para las fórmulas de análisis (2c), (2e), (2g) y (2i)) y mediante el ajuste de 0 < n < L (por ejemplo, para las fórmulas de síntesis (2d), (2f), (2h) y (2j)), se obtienen fórmulas de ELT y fórmulas de ELT inversa.

[0159] La aplicación del concepto de la fórmula (4) en estas fórmulas de ELT y ELT inversa da como resultado las fórmulas (4a) -(4h) que representan nuevas realizaciones de transformada solapada extendida modificada (MELT) de la invención. Las realizaciones particulares de las fórmulas (4a) -(4h) realizan transformadas solapadas con una relación de superposición del 75 %:

MELT modulada por coseno directa, tipo 4, ahora denominada MECT-IV:

MELT modulada por coseno inversa, tipo 4, ahora denominada IMECT-IV, n < L:

MELT modulada por coseno directa, tipo 2, ahora denominada MECT-II:

MELT modulada por coseno inversa, tipo 2, ahora denominada IMECT-II, n < L:

MELT modulada por seno directa, tipo 4, ahora denominada MEST-IV:

MELT modulada por seno inversa, tipo 4, ahora denominada IMEST-IV, n < L:

MELT modulada por seno directa, tipo 2, ahora denominada MEST-II:

MELT modulada por seno inversa, tipo 2, ahora denominada IMEST-II, n < L:

[0160] Algunas realizaciones proporcionan un diseño de ventana adecuado particular para las transiciones de MLT a ELT y de ELT a MLT, que se describen a continuación.

[0161] Se puede demostrar que, como indica la Fig. 5, las 4 cuartas partes de las ventanas de MLT y ELT transitorias se basan en las ponderaciones de estado estacionario respectivas, con la cuarta parte primera y/o cuarta ajustada a cero y las cuartas partes críticas descritas por

L , i

t = - ^+ k t = - ~ \ - k

donde para su conmutación como en la Fig. 5 o 2 para las transiciones de ELT a MLT inversa. El uso de la fórmula (5) para adquirir las cuartas partes críticas 511, 512, 521, 522 (que se muestran en la Fig. 5) y las cuartas partes críticas 631, 632 (que se muestran en la Fig. 6) para las ponderaciones de transición de ELT y MLT completa la definición de las ventanas transitorias, dejando solo la elección de las funciones de estado estacionario.

[0162] Una definición completa de la ventana de transición para transformadas solapadas extendida de las fórmulas (5) se definiría, por ejemplo, como la ventana de (M)ELT en la ecuación (5a) para transiciones de 50 a 75 % de relación de superposición:

[0163] Para una ventana de (M)ELT para transiciones de 75 a 50 % de relación de superposición, la definición sería la definición de la ecuación (5a), pero wtr se invertiría temporalmente.

[0164] En la ecuación (5a), d puede, por ejemplo, ser una constante, por ejemplo, un número real.

[0165] En las ecuaciones (5) y (5a), We¡t(n) puede, por ejemplo, indicar una ventana para la transformada solapada extendida, por ejemplo, una ventana de transformada solapada extendida del estado de la técnica (véase la familia de ventanas definidas por las fórmulas (16) -(19) en referencia [11]: S. Malvar, "Modulated QMF Filter Banks with Perfect Reconstruction", Electronics Letters, vol.26, n.° 13, págs. 906-907, junio de 1990).

[0166] Mejor dicho, en las ecuaciones (5) y (5a), weit(n) puede, por ejemplo, ser la nueva ventana de transformada solapada extendida de la invención como se define en la fórmula (8) a continuación.

[0167] En las ecuaciones (5) y (5a), L es un número, por ejemplo, que indica el tamaño de una ventana de ELT.

M = —

N es un número que indica el tamaño de una ventana de MLT. M es un número donde por ejemplo, 2

[0168] En la fórmula (5a), n es un número, por ejemplo, en el intervalo 0 < n < L . k es un número.

[0169] En las fórmulas (5) y (5a), k se define en el intervalo 0 < k < M.

[0170] A continuación, se describen ventanas de transformada solapada de reconstrucción perfecta en estado estacionario según las realizaciones con referencia a la Fig. 7.

[0171] La Fig. 7 ilustra diseños de ventanas de reconstrucción perfecta, en la Fig. 7 (a) para MLT, en la Fig. 7 (b) para ELT y en la Fig. 7 (c) para transiciones según las realizaciones.

[0172] Se han documentado varias ventanas de MLT complementarias con energía (PC) que imponen la llamada condición Princen-Bradley para una reconstrucción perfecta (véase [2]). La Fig. 7 (a) representa las formas y las funciones de transferencia sobremuestreadas correspondientes de las ventanas usadas en los códecs de audio MPEG (véase [5], [7]), el seno de MLT (véase [3], [11]) y las ventanas derivadas de Kaiser-Bessel (KBD) (véase [23]). También se muestra la función complementaria con energía en [24], cuya forma es similar a la de la ventana de KBD pero que, como se puede observar, presenta niveles más bajos del primer lóbulo lateral (cerca del campo). Por último, una ventana de seno para una longitud de trama doble, como se emplea en el caso de SBR de doble velocidad, sirve como referencia e ilustra que las ventanas más largas puedan reducir notablemente tanto el ancho de banda de paso como el nivel de banda atenuada.

[0173] Idealmente, una ventana de ELT, sujeta a las restricciones de reconstrucción perfecta de la fórmula (3), debe presentar una respuesta de frecuencia comparable a la de la ventana de sino de doble longitud, pero se puede observar que, debido a las restricciones de reconstrucción perfecta, el ancho del lóbulo principal solo se puede minimizar permitiendo menos atenuación del lóbulo lateral. Se descubrió que la ventana de Malvar [11] con p=1, por ejemplo, tenía el ancho de lóbulo principal más bajo posible de todos los diseños de ELT, pero también niveles de banda atenuada indeseablemente altos, como se muestra en la Fig. 7 (b). Sus bordes temporales son notablemente discontinuos (ya que se asume que las muestras más allá de la extensión de la ventana son iguales a cero), lo que resulta en una disminución del lóbulo lateral de solo -6 dB/octava (véase [24]) y en artefactos de encuadre en nuestros experimentos. Temerinac y Edler (véase [16]) presentaron una estrategia de diseño recursivo, que usaron para obtener la ventana de ELT que también se muestra en la Fig. 7 (cabe señalar que falta el valor -0,038411 en la columna "L=4N" de su tabla 1). Esta ventana, que puede ser aproximada por las ecuaciones de Malvar con p=0,14, proporciona una atenuación de banda atenuada mayor pero todavía bastante débil.

[0174] Vale la pena señalar que, para p=1, la formulación de Malvar se puede modificar respecto a una notación similar a la de una ventana de Hann:

con 0 < t < L que denota las muestras temporales de la ventana y ao = 2-3/2 elegido para hacer cumplir las restricciones de reconstrucción perfecta (véase [11], [12], [13], [14]). Intuitivamente, una función con más atenuación de lóbulo lateral tal como

con b2 > 0, que se puede usar para derivar la ventana de Blackman (véase [24]), también parecería aplicable. Desafortunadamente, se puede demostrar que la reconstrucción perfecta no se puede lograr con una clase de ventana de este tipo, independientemente del valor de b0.

[0175] Sin embargo, según las realizaciones, se añaden más términos.

[0176] Según las realizaciones, se ro orciona weit0:

con bk como se indicó anteriormente, la forma resultante para cualquier elección de °2 ~ 8 se puede corregir para que la reconstrucción perfecta se aborde de cerca arbitrariamente. Teniendo como objetivo, en particular, un nivel bajo de banda atenuada e imponiendo, además de las condiciones de reconstrucción perfecta, la restricción de una pendiente de la mitad izquierda isótona y, por ende, de la mitad derecha antitónica de la ventana, la reconstrucción perfecta se puede aproximar con un error por debajo de 410-6 mediante el uso de K = 3, b² = 0,176758 y, dependiendo de estos valores, b0 = 0,3303 y

ci = 0.023663, c2 = 0.0004243, c3 = 0.00001526. (g)

[0177] Esta función de ventana de ELT, representada en la Fig. 7 (b), es menos discontinua en sus bordes que las propuestas de [11] y [16] y, como resultado, permite el mismo nivel de rechazo del lóbulo lateral que la ventana de sino de doble longitud de la Fig. 7 (a). Al mismo tiempo, su lóbulo principal sigue siendo más estrecho que el de la ventana de seno de MLT. Curiosamente, también se asemeja a esta última ventana en forma.

[0178] La Fig. 7 (c) ilustra las formas espectrales y temporales de las ventanas de transición de MDCT/MDST y ELT, en función del diseño complementario con energía de [24] y welt usando fórmulas (8) y (9), y, para la comparación, la ventana de inicio de doble longitud de AAC.

[0179] Las realizaciones emplean una formación de ventanas de transición de ELT biortogonal generalizada.

[0180] La ecuación (5) especificó cómo se puede determinar la cuarta parte crítica de una ventana de transformada solapada extendida (ELT) de longitud 4M para las transiciones de codificación por MLT a ELT o de codificación por e Lt a MLT.

[0181] En las realizaciones, la ecuación (5) se ajusta por multiplicación con una constante d (véase, a modo de ejemplo, la fórmula (5a)) de la siguiente manera: con k = 0, 1,..., M-1 y t como se definió anteriormente usando k y L. Esto permite la llamada estrategia biortogonal con respecto a la formación de ventanas de transición de relación conmutada, donde se pueden emplear diferentes cuartas partes de ventana críticas para las transformadas de análisis y síntesis. Más específicamente, para lograr TDAC y, por tanto, una reconstrucción perfecta, wtr(t) puede usar d = d’ en el lado de análisis (codificador), y en el lado de síntesis (decodificador), wtr(t) puede aplicar el inverso, es decir, d = 1/d'. Dado un refuerzo de ventana de ELT en estado estacionario particular, preferentemente el derivado mediante las ecuaciones (8) y (9) de esta invención, d se determina preferentemente en función de las dos consideraciones siguientes.

[0182] Preferentemente, para determinar d, se elige la ecuación (10) para producir, durante todas las transiciones de conmutación de relación, tanto los atributos espectrales óptimos de las ventanas de análisis como la atenuación de salida máxima tras la decodificación.

[0183] Para lograr propiedades espectrales óptimas de la formación de ventanas de análisis, algunas realizaciones logran la menor cantidad posible de ancho de lóbulo principal y la mayor cantidad posible de atenuación de lóbulo lateral en las ventanas de análisis con el fin de maximizar la compactación espectral, especialmente de señales de audio armónicas estacionarias. Dado que la ventana welt en estado estacionario ya se ha optimizado para este propósito, se puede demostrar que esto se puede lograr en wtr evitando discontinuidades en los bordes entre las cuatro cuartas partes de ventana. Más precisamente, eligiendo d tal que el valor máximo de wtr(t) en (10) es igual al valor máximo de Welt(n) con n = 0, 1,..., L-1, los saltos en la forma de ventana transitoria se evitan por completo.

[0184] Por ende, en una realización, d debe reflejar la relación entre dichos dos máximos, que en el caso de las fórmulas (8) y (9) puede aproximarse por

d' = 4096/4061 -> 1 / d' = 4061/4096.

[0185] Según una realización, se logra la atenuación de salida máxima tras la formación de ventanas de síntesis. Para suprimir la distorsión en el dominio espectral en la codificación de audio, introducida por cuantificación de los compartimentos de transformada, tanto como sea posible, puede ser útil atenuar la forma de onda de salida durante el procedimiento de formación de ventanas de síntesis antes del procesamiento de OLA tanto como sea posible. Sin embargo, debido a los requisitos de reconstrucción perfecta/TDAC, una fuerte atenuación por la ventana no es factible, puesto que esta estrategia haría que la ventana de análisis complementario fuera perjudicial en términos de eficiencia. Se puede demostrar que se puede obtener una buena compensación entre las buenas propiedades de la ventana y la atenuación de la salida del lado del decodificador aceptable eligiendo nuevamente

1 / d' = 4061/4096 d' = 4096/4061.

[0186] En otras palabras, ambas estrategias de optimización para wtr conducen preferentemente al mismo valor de d'.

[0187] Ya se han proporcionado ejemplos para transformadas, por ejemplo, las transformadas de estado de la técnica de las fórmulas (2a) -(2j) o las nuevas transformadas de la invención de las fórmulas (4a) -(4h).

[0188] Un ejemplo para una ventana de transición de la ecuación (10) según una realización es, por ejemplo, proporcionado anteriormente por la ecuación (5a).

[0189] La Fig. 10 ilustra las ventanas de análisis correspondientes según las realizaciones como se describió anteriormente.

[0190] Del mismo modo, la Fig. 11 ilustra las ventanas de síntesis correspondientes según las realizaciones como se describió anteriormente.

[0191] A continuación, se describe la selección de la relación de superposición de entrada adaptable.

[0192] La estrategia de codificación conmutada proporcionada anteriormente, por ejemplo, usando las ventanas proporcionadas anteriormente, se puede integrar en un códec de transformada. Esto, entre otras cosas, verifica su ventaja subjetiva prevista en una entrada tonal. Por razones de brevedad, solo se describirán los aspectos de alto nivel.

[0193] Se considera la especificación y las transformadas de síntesis del decodificador.

[0194] Se recibe un bit adicional, que señala la aplicación de la ELT, por cada canal y/o trama en la que el codificador ha utilizado una transformación larga (sin conmutación de bloques). En caso de codificación MPEG, el bit de forma de ventana se puede reusar para este propósito (por ejemplo, "0" significa: Se emplea la MLT usando la ventana de referencia [23] o de referencia [24], por ejemplo, "1" significa: se emplean los conceptos de ELT de las realizaciones).

[0195] Basándose en este bit y en la secuencia de la ventana (longitud y tipo de la transformada), tanto para la trama actual como para la última, el decodificador puede a continuación deducir y aplicar la transformada solapada inversa usando la relación de superposición y ventana correctas, como se describió anteriormente.

[0196] Por ejemplo, un bit adicional puede indicar, si el codificador puede o no conmutar entre la MLT y la ELT. Si el bit adicional indica que el codificador puede conmutar entre la MLT y la ELT, el bit de forma de ventana se reusa para indicar si se usa la MLT o la ELT, por ejemplo, para la trama actual.

[0197] Ahora, se considera el detector de ELT y las transformadas de análisis del codificador.

[0198] El codificador, aplicando y transmitiendo la elección de MLT/ELT por canal/trama de manera que el codificador y el decodificador estén sincronizados, puede detectar las tramas estacionarias y armónicas calculando una codificación predictiva lineal (LPC, por ejemplo, del orden 16) residual de la entrada, como se hace en los codificadores de voz (véase [25]).

[0199] El codificador, por ejemplo, se deriva de una planitud temporal ft como la relación entre la energía 15

/ ,<

residual de la trama siguiente y actual, con estacionaria especificada como " ' 2 . Por otra parte, el codificador, por ejemplo, derivado de una planitud espectral fe, también conocida como entropía de Wiener, obtenida del espectro de f s < -energía por DFT del residuo concatenado de la trama actual y siguiente, con alta tonalidad indicada por 8.

[0200] A continuación, se proporcionan aspectos adicionales de la transformada solapada extendida modificada (MELT) según algunas realizaciones.

[0201] En particular, se proporciona una descripción detallada de los aspectos de implementación de realizaciones preferidas para integrar la MELT conmutable en el sistema de codificación de núcleos de audio 3D MPEG-H.

[0202] Al principio, se describe el decodificador, su especificación y la transformada de síntesis según algunas realizaciones.

[0203] Se introduce un elemento de sintaxis general de un bit, por ejemplo, llamado use_melt_extension, en la configuración de flujo de las especificaciones de sintaxis de elemento de canal único (SCE), elemento de par de canales (CPE) y, opcionalmente, elemento de mejora de baja frecuencia (LFE). Esto se puede lograr colocando use_melt_extension en la tabla del texto estándar mpegh3DACoreConfig(). Cuando un flujo de bits dado cuenta con use_melt_extension = 0, el decodificador de núcleo funciona de la manera MPEG-H convencional como se especifica en el estado de la técnica. Esto significa que solo se permiten MDCTs (o MDSTs, en caso de conmutación de núcleo de control activado en una trama/canal, véase [28], en particular véase el final de la sección 4, Herramienta de codificación multicanal discreta, de [28]) con una relación de superposición de transformada del 50%, y que no hay nuevas restricciones con respecto a window_sequence (solo largo, inicio largo, ocho corto, parada larga, parada-inicio) y window_shape (seno o KBD). (En [28], un convertidor de espectro-tiempo adaptable conmuta entre núcleos de control de transformada de un primer grupo de núcleos de control de transformada con uno o más núcleos de control de transformada que tienen diferentes simetrías en los lados de un núcleo de control, y un segundo grupo de núcleos de control de transformada que comprende uno o más núcleos de control de transformada que tienen las mismas simetrías en los lados de un núcleo de control de transformada).

[0204] Sin embargo, cuando use_melt_extension = 1 en el flujo de bits, el significado del elemento de window_shape de un bit por trama para tramas/canales con window_sequence "solo larga" se modifica preferentemente como se describió anteriormente (0: MDCT/MDST usando la función de ventana de KBD existente con a = 4 (véase [23]), 1: MELT con la función de ventana de refuerzo propuesta en esta invención).

[0205] Se muestra un diagrama de bloques esquemático de un decodificador 2 para decodificar una señal de audio codificada 4. El decodificador comprende un convertidor de espectro-tiempo adaptable 6 y un procesador de adición con superposición 8. El convertidor de espectro-tiempo adaptable convierte bloques sucesivos de valores espectrales 4' en bloques sucesivos de valores de tiempo 10, por ejemplo, a través de una transformada de frecuencia a tiempo. Es más, el convertidor de espectro-tiempo adaptable 6 recibe una información de control 12 y conmuta, en respuesta a la información de control 12, entre los núcleos de control de transformada de un primer grupo de núcleos de control de transformada que comprende uno o más núcleos de control de transformada que tienen diferentes simetrías en los lados de un núcleo de control, y un segundo grupo de núcleos de control de transformada que comprende uno o más núcleos de control de transformada que tienen las mismas simetrías en los lados de un núcleo de control de transformada. Por otra parte, el procesador de adición con superposición 8 superpone y añade los bloques sucesivos de valores de tiempo 10 para obtener valores de audio decodificados 14, que pueden ser una señal de audio decodificada.

[0206] Hay tres razones para este diseño. En primer lugar, dado que solo hay una función de ventana deseada para la MELT en estado estacionario, y no existe una ventana de ELT derivada de la función Kaiser-Bessel en la técnica anterior, el bit de window_shape para tramas/canales "solo largos" y MELT activada puede considerarse obsoleto y, por tanto, innecesario ya que su valor (cuando se interpreta como se define en el estado de la técnica) necesitaría ser ignorado.

[0207] En segundo lugar, no se admite el uso de la codificación por MELT en una trama/canal que no es "solo largo": una secuencia de ocho MELT cortas en lugar de MDCTs/MDSTs, por ejemplo, es factible, pero complica en gran medida la técnica de conmutación de bloques y es contraproducente desde un punto de vista perceptual, ya que el objetivo de "ocho secuencias cortas" es maximizar la resolución de codificación temporal).

[0208] En tercer lugar, los inventores descubrieron que una trama/canal "solo largo" para el cual la ventana de seno produce una mejor calidad de codificación que la ventana de KBD, en una porción de señal de entrada dada, se beneficia aún más del diseño de ELT propuesto cuando se activa en la misma porción de señal. En otras palabras, las MDCTs/MDSTs con una window_shape de "seno" son igualadas o incluso superadas subjetivamente por la propuesta de ELT en segmentos de forma de onda donde, a su vez, superan notablemente la codificación por MDCT/MdSt con una window_shape de "KBD". Por tanto, al reutilizar y volver a especificar el bit de window_shape existente cuando la window_sequence es "solo larga" y use_melt_extension = 1, se evita por completo la redundancia, y no se requieren bits adicionales por trama para indicar si la conmutación propuesta hacia o desde la MELT se usa en la trama/canal dado.

[0209] Para flujos de bits con use_melt_extension = 1, la decodificación de núcleos MPEG-H en el dominio de la frecuencia (FD) se realiza como de costumbre, excepto para los procedimientos de transformación inversa y superposición y adición (ola), que se llevan a cabo de la siguiente manera.

[0210] Para tramas/canales con window_sequence = "solo larga" y window_shape = 0 (KBD), o con window_sequence "solo larga" y cualquier window_shape, la transformación inversa por tramas, la formación de ventanas de síntesis y OLA se efectúan como se especifica en el estándar de audio 3D MPEG-H, es decir, ISO/IEC 23008-3:2015, subcláusula 5.5.3.5.1, e ISO/IEC 23003-3:2012, subcláusula 7.9.

[0211] Sin embargo, para tener en cuenta el aumento de la latencia de la formación de ventanas de la MELT conmutable, la salida del segmento de forma de onda por trama resultante de la etapa de OLA se retrasa en una trama. Esto significa, por ejemplo, que cuando la trama dada es la primera trama en el flujo, se emite una forma de onda cero.

[0212] Para tramas/canales con window_sequence = "solo larga" y window_shape = 1 (anteriormente: seno), la transformación inversa se realiza usando la fórmula para la MELT propuesta en esta invención, que es equivalente a la ecuación dada en ISO/IEC 23003-3:2012, subcláusula 7.9.3.1 excepto que 0 < n < 2N y n^<0= (3N/2 1)/2. Tenga en cuenta que las modificaciones para la conmutación del núcleo de control, a saber, el uso de la función sen( ) en lugar de cos( ) y kü = 0 (para la modulación por coseno tipo II) o kü = 1 (para la modulación por seno tipo II) también son posibles con la MEL^t(secuenciación compatible con TDA asumida). La formación de ventanas de síntesis se aplica entonces como se describe en las secciones 2 y 3 anteriores, con ventanas de transición detectadas como tabuladas en la Tabla 3, usando los valores window_shape y window_sequence, tanto para la trama actual como para la anterior, para el canal dado. La Tabla 3 también indica el conjunto de todas las transiciones de secuencia/forma permitidas.

[0213] Cabe señalar que la MELT inversa (o ELT original, en ese aspecto) se puede implementar usando realizaciones de MDCT y MDST existentes que, a su vez, aplican implementaciones rápidas de DCT/DST en función de la transformación rápida de Fourier (FFT). Más específicamente, una MELT modulada por seno inversa se puede realizar anulando cada muestra espectral de índice impar (donde la indexación comienza en cero), seguido de la aplicación de una MDCT-IV inversa, y completado repitiendo temporalmente las muestras de salida 2N resultantes con signos anulados.

[0214] Del mismo modo, la MELT modulada por coseno inversa se puede obtener anulando cada muestra espectral de índice par, seguido de la ejecución de una MDST-IV inversa y, finalmente, la misma repetición temporal con signos anulados. Se pueden lograr realizaciones similares para las MELT moduladas por coseno o seno inversas de tipo II como se utilizan en el caso de la conmutación de núcleo de control, así como para la transformación directa (análisis) para todas las configuraciones de MELT anteriores. Por lo tanto, el único aumento de complejidad causado por el procesamiento de MELT en comparación con los algoritmos de MDCT/MDST tradicionales se debe a la necesidad de una repetición temporal anulada (expansión en el caso inverso o compresión en el caso directo), que representa una operación simple de copia/adición por multiplicación con ajuste a escala de -1) de las muestras de entrada o salida 2ⁿ, formación de ventanas de análisis o síntesis del doble de muestras que para MDCT/MDST (4N en lugar de 2N), y más adiciones durante OLA en el decodificador. En otras palabras, dada la complejidad algorítmica O(n (logn c)) de la transformación, solo la constante c aumenta en el caso de la MELT (o ELT), y puesto que n = 1024 o 768 en la presente realización, cualquier aumento de c por un factor de aproximadamente dos a tres puede considerarse insignificante (es decir, solo asciende a menos de una cuarta parte de la complejidad total de transformada, formación de ventanas y OLA/encuadre que, a su vez, es solo una fracción de la complejidad total del decodificador de audio 3D).

[0215] La Tabla 3 ilustra las secuencias de ventana admitidas en caso del esquema de conmutación por MELT. Secuencia LARGA significa MDCT/MDST, donde solo se permite una forma de ventana "KBD" ya que la configuración de ventana LARGA con "seno" se reusa para la señalización de la secuencia ELT-LARGA.

Tabla 3:

A -> De LARGA INICIO CORTA PARAD PARADA-INICIO ELT-LARGA A LARGA V KBD V KBD ^{x x x}V tr->tr; KBD INICIO x x V V V x

CORTA

x x V V V x

PARADA V V x x x V tr->tr; KBD PARADA-INICIO x x V V V x

ELT-LARGA V tr<- tr; KBD V tr<- tr; KBD x x x V

V = permitido; x = no permitido

tr<- tr = transición de ELT; tr->tr = transición a ELT;

KBD = derivado de Kaiser-Bessel

[0216] A continuación, se describe la evaluación de la integración de códec que se ha llevado a cabo. La evaluación subjetiva ciega de la propuesta de relación conmutada confirmó el beneficio del diseño de señal adaptable. Se hace referencia a la Fig. 8 y a la Fig. 9.

[0217] La Fig. 8 ilustra una selección de ELT en función de la planitud espectral y temporal. En particular, la Fig. 8 ilustra la selección de ELT y MDCT por trama resultante para cuatro señales de entrada (no se usan MDSTs en este material). Los pasos estacionarios y tonales se detectan de forma fiable. La siguiente línea "sel" (rosa) tiene el valor "0" para MELT y el valor "-1" para MLT.

[0218] La Fig. 9 ilustra una vista ampliada de los resultados de la prueba de escucha con intervalos de confianza del 95 %. Las puntuaciones de anclaje de 3,5 kHz se omiten para mayor claridad.

[0219] Los diseños y resultados de las pruebas subjetivas de este esquema, integradas en el códec de audio 3^d, se tratan a continuación:

Se llevaron a cabo dos experimentos de escucha ciega según el principio MUSHRA (múltiples estímulos con referencia y anclaje ocultos) (véase [26]) para evaluar el rendimiento subjetivo del sistema de codificación por MDCT-ELT conmutado en comparación con un esquema convencional que emplea solo MDCTs (o MDSTs, como en el caso de la propuesta de conmutación de núcleo de control, véase [9]). Con este fin, la arquitectura de relación conmutada se integró en una implementación de codificador y decodificador del códec de audio 3D MPEG-H, usando IGF para la extensión de ancho de banda y relleno estéreo (SF) para la codificación semiparamétrica de pares de canales a 48 kbit/s estéreo, como se describe en [8], [9]. Los ensayos fueron efectuados por 12 oyentes experimentados (de 39 años o menos, incluyendo 1 mujer) en una sala silenciosa usando un ordenador sin ventilador y auriculares STAX modernos.

[0220] El primer experimento llevado a cabo, una prueba de 48 kbit/s usando señales instrumentales tonales, pretendía cuantificar la ventaja de la ELT sobre la codificación por MDCT tradicional en un material de audio armónico tonal, así como el beneficio de conmutar de una codificación por ELT a MDCT en transitorios e inicios de tono, como se trató en la última sección. Para cada una de las cuatro señales de prueba tonales ya usadas en evaluaciones de códec MPEG anteriores [25] ,[27], acordeón, diapasón y cornamusa y clavicémbalo, los estímulos codificados en audio 3D con y sin ELT conmutable se presentaron junto con una condición de referencia de audio 3D que emplea SBR estéreo unificada y MPEG envolvente 2-1-2 (y, por tanto, doble longitud de trama).

[0221] Los resultados de esta prueba, junto con los intervalos de confianza por estímulo del 95 %, se ilustran como puntuaciones medias generales en la Fig. 9 (a) y como puntuaciones medias diferenciales, respecto a la condición de ELT, en la Fig. 9 (b). Demuestran que para tres de los cuatro artículos, la calidad del códec de audio 3D basado en SBS se puede mejorar significativamente conmutando a la ELT durante los pasos de señal estacionaria. Por otra parte, al recurrir a la codificación por MDCT durante los inicios tonales no estacionarios y transitorios, se evitan las degradaciones perceptuales debido a artefactos preeco más fuertes. Finalmente, el rendimiento subjetivo de la configuración de audio 3D con IGF y SF se puede acercar más al de la referencia estéreo unificada de tamaño de trama más largo para dichos artículos. Todos los estímulos excepto sm01 (cornamusa) ahora presentan buena calidad.

[0222] Se construyó una segunda prueba de escucha "virtual", una prueba virtual de 48 kbit/s usando varios tipos de señales, en la que los resultados de la evaluación subjetiva en [9] se combinaron con los presentes datos para el artículo phi7 (diapasón, la única señal en [9] para la que se aplican ELTs en más de unas pocas tramas).

[0223] Este ajuste general debe revelar si la codificación de audio 3D basada en SBS, mejorada por el esquema de ELT conmutable, puede superar la configuración de audio 3D basada en QMF en un conjunto de pruebas diversas.

[0224] La Fig. 9 (c) representa las puntuaciones medias absolutas por estímulo y las puntuaciones medias absolutas generales, nuevamente con intervalos de confianza, para esta prueba. De hecho, gracias a las ganancias de calidad inducidas por ELT en señales tales como phi7, el rendimiento perceptual promedio de la configuración de SBS+ELT es significativamente mejor que el de la referencia estéreo unificada. Dado que este último presenta una mayor latencia algorítmica y complejidad debido a los bancos de pseudo-QMF adicionales requeridos, este resultado es altamente satisfactorio.

[0225] El beneficio perceptual de la estrategia de ELT conmutada se confirmó mediante una evaluación subjetiva formal, que no revela degradaciones de calidad en la plataforma de audio 3D y que indica además que el objetivo a largo plazo de los inventores de una buena calidad de codificación en cada tipo de señal de entrada a 48 kbit/s estéreo podría lograrse de hecho con solo un poco más de sintonización del codificador.

[0226] Algunas realizaciones proporcionan mejoras para los pasos de señal armónica cuasi-estacionaria mediante la aplicación adaptable de la transformada solapada extendida modificada (MELT).

[0227] En este contexto, la Fig. 12 ilustra bancos de filtros básicos con transformadas solapadas según algunas realizaciones particulares, donde la Fig. 12 (a) ilustra MDCT/MDST, y donde la Fig. 12 (b) ilustra ELT.

[0228] Al basarse en ELT, en algunas realizaciones, la MELT construye un banco de filtros extrañamente apilado con una superposición intertransformada del 75 %, como se representa en la Fig. 12 (b), produciendo una mayor selectividad de frecuencia que un banco de filtros de MDCT o M^dS^tcon una superposición del 50 %, como se muestra en la Fig. 12 (a), con la misma longitud de trama M. Sin embargo, a diferencia de la ELT, la MELT permite transiciones directas, por ejemplo, usando en algunas realizaciones solo ventanas transitorias especiales, hacia y desde las MDCTs. En particular, algunas realizaciones pueden, por ejemplo, proporcionar un esquema de conmutación de relación de superposición de señal adaptable por tramas respectivo.

[0229] Ahora se describen realizaciones particulares que realizan la codificación por MELT modulada por coseno y seno.

[0230] Como ya se explicó anteriormente, la MDCT directo (análisis) para una trama en el índice i, dada una señal de tiempo x y devolviendo un espectro X, puede, por ejemplo, escribirse como

donde la longitud de la ventana N = 2My 0 < k < M. Del mismo modo, la MDST directa se define usando un término de seno en lugar de coseno:

[0231] En las realizaciones, al alterar la longitud temporal y la desviación de fase, esto produce la MELT,

( j + 3î 1 )

con aumento de la longitud de la ventana L = 4M y modulación por coseno. Naturalmente, también se puede especificar una contraparte modulada por seno

[0232] Las variantes de MELT inversa (síntesis) son, por ejemplo,

para los bancos de cosenos que apliquen la fórmula (11c) y, respectivamente, para los bancos de senos,

donde ’ denota un procesamiento espectral, y 0 < n < L.

[0233] Cabe señalar que, aunque la longitud de la ventana empleada puede, por ejemplo, variar entre las fórmulas (11a), (11b) y las fórmulas (11c), (11d), (11e) y (11f), la longitud de transformada M y, de esa manera, el tamaño de etapa intertransformada ilustrado en la Fig. 12 permanece idéntico, lo que explica la diferencia en la relación de superposición. Las definiciones de MELT moduladas por coseno y seno de las fórmulas (11c), (11d), (11e) y (11f) pueden, en algunas realizaciones, mejorarse adicionalmente para realizar la conmutación de núcleo de control y, por lo tanto, la codificación eficiente de señales con 690 grados de IPD, incluso en caso de superposición intertransformada del 75 %. Las transformadas de transición de tipo II adoptadas del banco de filtros Princen-Bradley apilado uniformemente pueden, por ejemplo, emplearse para la cancelación de solapamiento en el dominio del tiempo (TDAC) cuando se conmuta entre MDCTs y MDSTs de tipo IV, véase las fórmulas (11a) y (11b). Específicamente, se requiere una MDST-II durante los cambios de codificación por MDCT-IV a MDST-IV en un canal, y se necesita una MDCT-II cuando se vuelve a la codificación MDCT-IV.

[0234] Aparte de las definiciones de tipo IV mencionadas anteriormente [véanse las fórmulas (11c), (11d), (11e) y (11f)], también se puede construir un banco de filtros basado en ELT que permita implementaciones rápidas usando la DCT-II, lo que prueba que los bancos de filtros de tipo II con superposición intertransformada de más del 50 % son, de hecho, factibles. Una estrategia alternativa pero equivalente siguiendo el diseño del banco de filtros de TDAC es diseñar un sistema apilado uniformemente mediante el uso alternativo de una versión de MELT modulada por coseno de tipo II,

con delta de Kronecker ó(0) = 1 y una MELT basada en el seno de tipo II,

con k= M- 1 - k para el ajuste a escala del coeficiente de Nyquist.

[0235] Las fórmulas (11g) y (11 h) en el lado de análisis y, respectivamente

en el lado de síntesis conducen a TDAC, como se representa en la Fig. 13.

[0236] En particular, la Fig. 13 ilustra TDAC en bancos de filtros apilados uniformemente según algunas realizaciones particulares, donde la Fig. 13 (a) ilustra Princen-Bradley, y donde la Fig. 13 (b) ilustra MELT-II. La TDAC es posible en caso de una combinación de solapamiento en el dominio del tiempo par-impar o impar-par entre transformadas adyacentes.

[0237] Con respecto a la combinación de codificación de MELT y conmutación de núcleo de control, se puede demostrar que TDAC es imposible cuando, de manera análoga al procedimiento para la superposición del 50 %, se emplea un ejemplo transitorio de tipo II de las fórmulas (11g) y (Hi) o fórmulas (11h) y (11j) cuando se conmuta entre MELTs moduladas por coseno y seno de tipo IV, véanse las fórmulas (11c), (11d), (11e) y (11f). Como es deseable mantener baja la complejidad arquitectónica del códec cuando se permite la conmutación del núcleo de control independientemente de la relación de superposición instantánea, se propone la siguiente solución temporal. Para conmutar de MELT-IV modulada por coseno (véanse las fórmulas (11c) y (11e)) a MELT-IV modulada por seno (véanse las fórmulas (11d) y (11f)), se puede emplear, por ejemplo, una trama MDST-II transitoria, combinada con una reducción temporal de la relación de superposición al 50 % tanto en el lado de análisis como en el de síntesis. Del mismo modo, se puede emplear una MDCT-II intermedia cuando se revierte la codificación de MELT basada en seno a coseno. La Fig. 14 ilustra una conmutación de núcleo de control en conformidad con TDAC particular para bancos de filtros de MELT-IV según las realizaciones particulares, donde la Fig. 14 (a) ilustra transiciones de modulación por coseno a seno, y donde la Fig. 14 (b) ilustra transiciones de modulación por seno a coseno.

[0238] La TDAC completa se obtiene en ambos casos ya que, como se visualiza en la Fig. 14, la longitud de M = —

superposición entre cada transición de tipo II y sus vecinos de MELT de tipo IV se limita a 2

[0239] Por ende, no hay superposición de unión de solapamiento temporal entre una MELT-IV modulada por coseno y por seno que requiera TDAC. Para realizar una formación de ventanas adecuada, en las realizaciones, se debe aplicar una ventana especial de "parada-inicio" a las transformadas de tipo II, como se muestra en la Fig. 15 (a). Dicha ventana, por ejemplo, simétrica, que se basa en las ponderaciones transitorias asimétricas, se describe, según algunas realizaciones, en más detalle a continuación.

[0240] En particular, la Fig. 15 ilustra una formación de ventanas mejorada según las realizaciones particulares con una forma especial de "parada-inicio", indicada por guiones, durante transiciones temporales, donde la Fig. 15 (a) ilustra transiciones temporales de una relación de superposición del 75 al 50%, y donde la Fig. 15 (b) ilustra transiciones temporales de una relación de superposición del 50 al 75 %.

[0241] A continuación, se describen transiciones desde y hacia tramas de MELT según algunas realizaciones.

[0242] Según algunas realizaciones, las conmutaciones de trama a trama se pueden realizar, por ejemplo, a partir de una transformada similar a MDCT con 50 % respecto a la MELT con una relación de superposición del 75 %, y viceversa. Para mantener la TDAC completa durante las conmutaciones, se pueden emplear, por ejemplo, ventanas de transición asimétricas dedicadas derivadas de las ponderaciones en estado estacionario aplicadas durante los pasos de señal cuasiestacionaria. Estas ventanas se pueden definir, por ejemplo, como

para la primera ventana de MELT tras un aumento de superposición de 50 a 75 % (forma con líneas en negrita representada en la Fig. 15 (a) para la trama i) y

para la primera ventana de MDCT/MDST cuando se reduce la superposición al 50 % (forma con líneas en negrita en la Fig. 15 (b) para la misma trama). Los complementos para w'eity wW, la última ventana de MELT cuando se conmuta a una superposición al 50 %, y la última ventana de MDCT/MDST durante las conmutaciones de nuevo a una superposición al 75% (trama i-2 en la Fig. 15), son las reversiones temporales de las fórmulas (12) y (13), respectivamente. k, usada en las partes de ventana crítica (véase también la Fig. 14), se especifica como anteriormente, mientras que Weit resp. Wmit indican las funciones de ventana subyacentes para una MELT en estado estacionario y MDCT/MDST. Para el primero, que también es aplicable a la ELT (véase [12]), se ha proporcionado anteriormente un diseño mejorado que evita el bloqueo de artefactos.

[0243] Deje que wtr(t), con t abarcando un número M de muestras en el dominio del tiempo, por ejemplo, represente la cuarta parte de ventana crítica, por ejemplo, el segmento de longitud M caracterizado por un término de raíz cuadrada ajustado a escala por un valor real d, de w'eit o w'mit cuando se aplica en el lado de análisis (codificador) o síntesis (decodificador). El empleo de d permite una estrategia llamada biortogonal con respecto a la formación de ventanas de transición de relación conmutada, cuando se pueden emplear diferentes partes de ventana crítica para las transformadas de análisis y síntesis. Más específicamente, para lograr TDAC y, por tanto, PR, wtr(t) puede usar d = d' en el lado de análisis (codificador), y en el lado de síntesis (decodificador), wtr(t) puede aplicar el inverso, por d = ~

ejemplo d . Dada una ventana de ELT en estado estacionario particular weit, d' se determina preferentemente de modo que, durante todas las transiciones de conmutación de relación, conduce tanto a atributos espectrales óptimos de las ventanas de análisis durante la codificación como a la atenuación de salida máxima por las ventanas de síntesis durante la decodificación.

[0244] Según una realización de decodificador, weit es una primera función de ventana, wmit es una segunda función de ventana, y wW es una tercera función de ventana, donde la tercera función de ventana se define según

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real, donde n es un número entero, y donde el sumador con superposición 130 está configurado para generar al menos uno del grupo de muestras de audio intermedias en el dominio del tiempo primero y segundo y tercero y cuarto dependiendo de la tercera función de ventana w'mit.

[0245] De manera análoga, según una realización de codificador, weit es una primera función de ventana, wmit es una segunda función de ventana, y wW es una tercera función de ventana, donde la tercera función de ventana se define según

donde M indica un número de muestras de audio en el dominio espectral del cuarto grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real, donde n es un número entero, y donde al menos uno del primer módulo de codificación 210 y del segundo módulo de codificación 220 está configurado para aplicar la tercera función de ventana w'mit en al menos uno del grupo de muestras de audio en el dominio temporal primero y segundo y tercero y cuarto.

[0246] A continuación, se describen propiedades espectrales mejoradas, preferentemente óptimas, de la formación de ventanas de análisis según algunas realizaciones. Algunas realizaciones intentan lograr una cantidad pequeña, preferentemente la menor posible, de ancho de lóbulo principal y una cantidad fuerte, preferentemente la más fuerte posible, de atenuación de lóbulo lateral en las ventanas de análisis con el fin de aumentar la compactación espectral, especialmente de señales de audio armónicas estacionarias.

[0247] Al igual que, para algunas de las realizaciones, la ventana weit en estado estacionario ya se ha construido para este propósito, se puede demostrar que esto se puede lograr en w'eit y w'mit (y, por supuesto, sus inversiones de tiempo) evitando discontinuidades en los bordes entre las partes de ventana. Más precisamente, al elegir d' de modo que el valor máximo de wtr sea igual al valor máximo de weit (o, por ejemplo, un valor que esté cerca de ese máximo), se evitan completamente los saltos en la forma de ventana transitoria. Por ende, d' reflejará la relación entre dichos

, .4096

dos máximos, que en el presente caso puede aproximarse por 4061 .

[0248] A continuación, se describe una atenuación de salida aumentada, preferentemente máxima, tras la formación de ventanas de síntesis. Para suprimir mejor (preferentemente tanto como sea posible) la distorsión en el dominio espectral en la codificación de audio, causada por la cuantificación de los compartimentos de transformada, puede ser útil atenuar la forma de onda de salida durante el procedimiento de formación de ventanas de síntesis antes del procesamiento de OLA, preferentemente tanto como sea posible. Sin embargo, debido a los requisitos de PR/TDAC, es difícil lograr una fuerte atenuación por la ventana, ya que esta estrategia haría que la ventana de análisis complementario fuera perjudicial en términos de eficiencia. Según algunas realizaciones, se puede obtener una buena compensación entre buenas propiedades de ventana y atenuación de salida del lado del decodificador aceptable 1 4061

eligiendo d' 4096 .

[0249] En otras palabras, ambas estrategias de optimización para wtr conducen preferentemente al mismo valor para d'. Cuando se emplea weit, las discontinuidades en w'eit y w'mit son muy pequeñas (véase la Fig. 9), y no se espera que su evitación, al menos en el lado de la síntesis, produzca una mejora audible. La ventana de "parada-inicio" transitoria especial para conmutación de núcleo de control basada en MELT descrita anteriormente, representada para una realización particular por una línea discontinua en la Fig. 15 (a) y denotada por wss en lo sucesivo, se puede derivar de la parte de ventana crítica de las fórmulas (12) o (13):

^ ü - w ^ N k ) 2 - i i^ O M fc ) 2, 0 < ■». < M

s/Y^u elt (A:) 2-K !elt (M + A;)2, M < n < N

(14)

[0250] En otras palabras, wss es una ventana simétrica con partes críticas en ambas mitades, lo que permite transiciones de relación de superposición en ambos lados. Cabe señalar que wss se puede aplicar a la MDCT y MDST, así como a las diferentes variantes de MELT (suponiendo que las cuartas partes externas de la ponderación de longitud L se establezcan en cero). De hecho, su uso para la formación de ventanas del lado de análisis hace que los coeficientes de MDCT y MELT-IV modulada por coseno sean idénticos aparte de las diferencias de signos, según lo indicado en la Fig. 5 c). Además de facilitar la conmutación del núcleo de control, también se pueden utilizar wss para hacer que el esquema de conmutación de relación de superposición sea más flexible. Por ejemplo, la configuración de conmutación temporal (de 50 a 75 % de superposición) que se muestra en la Fig. 15 b) se puede lograr con eso.

[0251] Según una realización de decodificador, weit es una primera función de ventana, wss es una segunda función de ventana, donde la segunda función de ventana se define según

?

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real, donde n es un número entero, y donde el sumador con superposición 130 está configurado para generar al menos uno del grupo de muestras de audio intermedias en el dominio del tiempo primero y segundo y tercero y cuarto dependiendo de la segunda función de ventana wss.

[0252] De manera análoga, según una realización de codificador, weit es una primera función de ventana, wss es una segunda función de ventana, donde la segunda función de ventana se define según

^{„ x}( N fc )2 -U!clt( 3 M fc)2 ^,O < n < ik f

( fc)a-Tüe„ f M A-}2. M < n < N

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real, donde n es un número entero, y donde al menos uno del primer módulo de codificación 210 y del segundo módulo de codificación 220 está configurado para aplicar la segunda función de ventana wss en al menos uno del grupo de muestras de audio en el dominio del tiempo primero y segundo y tercer y cuarto.

[0253] Aunque se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa de procedimiento o un rasgo de una etapa de procedimiento. De manera análoga, los aspectos descritos en el contexto de una etapa de procedimiento también representan una descripción de un bloque o elemento o rasgo correspondiente de un aparato correspondiente. Algunas o todas las etapas de procedimiento pueden ser ejecutadas por (o mediante el uso de) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, una o más de las etapas de procedimiento más importantes pueden ser ejecutadas mediante tal aparato.

[0254] Dependiendo de determinados requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o en software o al menos parcialmente en hardware o al menos parcialmente en software. La implementación puede ser realizada mediante el uso de un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un CD, un Blu-Ray, una ROM, una PROM, una PROM, una EEPROM o una memoria FLASH, teniendo señales de control legibles electrónicamente almacenadas en el mismo, las cuales cooperan (o son capaces de cooperar) con un sistema informático programable tal que se realice el respectivo procedimiento. Por lo tanto, el medio de almacenamiento digital puede ser legible por un ordenador.

[0255] Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control electrónicamente legibles, que son capaces de cooperar con un sistema informático programable, de tal forma que se realiza uno de los procedimientos descritos en esta invención.

[0256] En general, las realizaciones de la presente invención se pueden implementar como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los procedimientos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa se puede almacenar, por ejemplo, en un soporte legible por máquina.

[0257] Otras realizaciones comprenden el programa informático para realizar uno de los procedimientos descritos en esta invención, almacenado en un soporte legible por máquina.

[0258] En otras palabras, una realización del procedimiento inventivo es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los procedimientos descritos en esta solicitud, cuando el programa informático se ejecuta en un ordenador.

[0259] Una realización adicional del procedimiento inventivo es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los procedimientos descritos en esta invención. El soporte de datos, el medio de almacenamiento digital o el medio grabado son típicamente tangibles y/o no transitorios.

[0260] Una realización adicional del procedimiento inventivo es, por lo tanto, un flujo de datos o una secuencia de señales que representan el programa informático para realizar uno de los procedimientos descritos en esta invención. El flujo de datos o la secuencia de señales pueden, por ejemplo, estar configurados para ser transferidos a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.

[0261] Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo lógico programable, configurado para o adaptado para realizar uno de los procedimientos descritos en esta invención.

[0262] Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los procedimientos descritos en esta invención.

[0263] Una realización adicional según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, electrónica u ópticamente) un programa informático para realizar uno de los procedimientos descritos en esta invención a un receptor. El receptor puede, por ejemplo, ser un ordenador, un dispositivo móvil, un dispositivo de memoria o similares. El aparato o sistema puede, por ejemplo, comprender un servidor de archivos para transferir el programa informático al receptor.

[0264] En algunas realizaciones, se puede usar un dispositivo lógico programable (por ejemplo, una matriz de puertas programables in situ) para realizar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puertas programables in situ puede cooperar con un microprocesador con el fin de realizar uno de los procedimientos descritos en esta invención. En general, los procedimientos se realizan preferentemente por cualquier aparato de hardware.

[0265] El aparato descrito en esta invención puede implementarse usando un aparato de hardware, o usando un ordenador, o usando una combinación de un aparato de hardware y un ordenador.

[0266] Los procedimientos descritos en esta invención pueden realizarse usando un aparato de hardware, o usando un ordenador, o usando una combinación de un aparato de hardware y un ordenador.

[0267] Las realizaciones descritas anteriormente son simplemente ilustrativas de los principios de la presente invención. Se entiende que, para otros expertos en la materia, resultarán evidentes modificaciones y variaciones de las disposiciones y los detalles descritos en esta invención. Por lo tanto, es la intención que la invención esté limitada solo por el alcance de las siguientes reivindicaciones de patente y no por los detalles específicos presentados a modo de descripción y la explicación de las realizaciones en esta invención.

Referencias

[0268]

[1] J. P. Princen and A. B. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation," IEEE Trans. Acustics, Speech, and Signal Processing, vol. 34, n.° 5, págs. 1153-1161, octubre de 1986.

[2] J. P. Princen, A. W. Johnson, y A. B. Bradley, "Subband/transform coding using filter bank design based on time domain aliasing cancellation," en Proc. of IEEE ICASSP '87, abril de. 1987, vol. 12, págs. 2161-2164.

[3] H. S. Malvar, "Lapped Transforms for Efficient Transform/ Subband Coding," IEEE Trans. Acustics, Speech, and Signal Proc., vol. 38, n.° 6, págs. 969-978, junio de 1990.

[4] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, y Y. Oikawa, "ISO/IEC MPEG-2 Advanced Audio Coding," J. Audio Eng. Soc., vol. 45, n.° 10, octubre de 1997.

[5] ISO/IEC MPEG-213818-3, "Information technology - Generic coding of moving pictures and associated audio information - Part 3: Audio ", abril de 1998.

[6] J. Herre, J. Hilpert, A. Kuntz, y J. Plogsties, "MPEG-H Audio - The New Standard for Universal Spatial/3D Audio Coding," J. Audio Eng. Soc., vol. 62, n.° 12, págs. 821-830, diciembre de 2014.

[7] ISO/IEC MPEG-H 23008-3, "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio," marzo de 2015.

[8] C. R. Helmrich, A. Niedermeier, S. Bayer y B. Edler, "Low-complexity semi-parametric joint-stereo audio transform coding", en Proc. of EUSIPCO '15, septiembre de 2015.

[9] C. R. Helmrich y B. Edler, "Signal-adaptive transform kernel switching for stereo audio coding," en Proc. of IEEE WASPAA '15, New Paltz, octubre de 2015, págs. 1-5.

[10] C. R. Helmrich, A. Niedermeier, S. Disch y F. Ghido, "Spectral envelope reconstruction via IGF for audio transform coding", en Proc. of IEEE ICASSP '15, abril de 2015, págs. 389-393.

[11] H. S. Malvar, "Modulated QMF Filter Banks with Perfect Reconstruction", Electronics Letters, vol. 26, n.° 13, págs. 906-907, junio de 1990.

[12] H. S. Malvar, "Extended Lapped Transforms: Properties, Applications, and Fast Algorithms," IEEE Trans. Antennas Propagat., vol. 40, n.° 11, págs. 2703-2714, noviembre de 1992.

[13] R. L. de Queiroz y K. R. Rao, "Adaptive extended lapped transforms", en Proc. of IEEE ICASSP '93, abril de 1993, vol. 3, págs. 217-220.

[14] R. L. de Queiroz y K. R. Rao, "Time-Varying Lapped Transforms and Wavelet Packets", IEEE Trans. Signal Proc., vol. 41, n.° 12, págs. 3293-3305, diciembre de 1993.

[15] M. Temerinac y B. Edler, "LINC: A Common Theory of Transform and Subband Coding," IEEE Trans. Communications, vol. 41, n.° 2, págs. 266-274, febrero de 1993.

[16] M. Temerinac y B. Edler, "Overlapping Block Transform: Window Design, Fast Algorithm, and an Image Coding Experiment," IEEE Trans. Communic., vol. 43, n.° 9, págs. 2417-2425, septiembre de 1995.

[17] G. D. T. Schuller y T. Karp, "Modulated Filter Banks with Arbitrary System Delay: Efficient Implementations and the Time-Varying Case," IEEE Trans. Signal Proc., vol. 48, n.° 3, págs. 737-748, marzo de 2000.

[18] H. S. Malvar, "A modulated complex lapped transform and its applications to audio processing," en Proc. of IEEE ICASSP '99, marzo de 1999, vol. 3, págs. 1421-1424.

[19] B. Edler, Aquivalenz von Transformation und Teilbandzerlegung (Subband Decomposition) in der Quellencodierung, Ph.D. thesis, Univ. Hannover, Alemania, 1995.

[20] S. Shlien, "The Modulated Lapped Transform, Its Time-Varying Forms, and Its Applications to Audio Coding Standards," IEEE Trans. Speech and Audio Proc., vol. 5, n.° 4, págs. 359-366, julio de 1997.

[21] M. Padmanabhan y K. Martin, "Some further results on modulated/extended lapped transforms," en Proc. of IEEE ICASSP '92, marzo de 1992, vol. 4, págs. 265-268.

[22] K. M. A. Hameed y E. Elias, "Extended lapped transforms with linear phase basis functions and perfect reconstruction", en Proc. of IEEE ICECS '05, diciembre de 2005.

[23] L. D. Fielder, M. Bosi, G. Davidson, M. Davis, C. Todd, y S. Vernon, "AC-2 and AC-3: Low-Complexity Transform-Based Audio Coding," AES collected papers on Digital Audio Bit-Rate Reduction, págs. 54-72, 1996.

[24] C. R. Helmrich, "On the Use of Sums of Sines in the Design of Signal Windows", en Proc. of DAFx-10, Graz, septiembre de 2010, en línea en http://dafx10.iem.at/proceedings/.

[25] M. Neuendorf, M. Multrus, N. Rettelbach, G. Fuchs, J. Robilliard, J. Lecomte, S. Wilde, S. Bayer, S. Disch, C. R. Helmrich, R. Lefebvre, P. Gournay, B. Bessette, J. Lapierre, K. Kjorling, H. Purnhagen, L. Villemoes, W. Oomen, E. Schuijers, K. Kikuiri, T. Chinen, T. Norimatsu, K. S. Chong, E. Oh, M. Kim, S. Quackenbush y B. Grill, "The ISO/MPEg Unified Speech and Audio Coding Standard - Consistent High Quality for all Content Types and at all Bit Rates," J. Audio Eng. Soc., vol. 61, n.° 12, págs. 956-977, diciembre de 2013.

[26] ITU, Radiocommunication Sector, "Recommendation BS.1534-2: Method for the subjective assessment of intermediate quality level of audio systems," junio de 2014.

[27] K. Brandenburg y M. Bosi, "Overview of MPEG-Audio: Current and Future Standards for Low Bit-Rate Audio Coding," en Proc. of A^eS 99th Convention, Nueva York, octubre de 1995, n.° 4130.

[28] ISO/IEC SC29/WG11, N15399, "Text of ISO/IEC 23008-3:201x/PDAM 3, MPEG-H 3D Audio phase 2," julio de 2015.

Claims

REIVINDICACIONES

1. Un decodificador para reducir o evitar el solapamiento en el dominio del tiempo durante la decodificación de una pluralidad de muestras de audio en el dominio espectral mediante la realización de transformadas solapadas inversas, donde el decodificador comprende:

un primer módulo de decodificación (110) para decodificar un primer grupo de las muestras de audio en el dominio espectral mediante la generación de un primer grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del primer grupo de las muestras de audio en el dominio espectral, y para decodificar un segundo grupo de las muestras de audio en el dominio espectral mediante la generación de un segundo grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del segundo grupo de las muestras de audio en el dominio espectral, un sumador con superposición (130), donde el sumador con superposición (130) está configurado para llevar a cabo una adición con superposición de exactamente dos grupos de muestras de audio intermedias en el dominio del tiempo, dichos exactamente dos grupos siendo el primer grupo y el segundo grupo de muestras de audio intermedias en el dominio del tiempo, donde el sumador con superposición (130) está configurado para añadir con superposición dichos exactamente dos grupos con una superposición de exactamente el 50 %, donde dicha adición con superposición de dichos exactamente dos grupos da como resultado la generación de una primera pluralidad de muestras de salida de audio en el dominio del tiempo de una señal de audio,

un segundo módulo de decodificación (120) para decodificar un tercer grupo de las muestras de audio en el dominio espectral mediante la generación de un tercer grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del tercer grupo de las muestras de audio en el dominio espectral, y para decodificar un cuarto grupo de las muestras de audio en el dominio espectral mediante la generación de un cuarto grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del cuarto grupo de las muestras de audio en el dominio espectral, y una interfaz de salida (140) para emitir la primera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio, una segunda pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio y una tercera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio,

donde el sumador con superposición (130) está configurado para obtener la segunda pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el tercer grupo de muestras de audio intermedias en el dominio del tiempo con una superposición de exactamente el 75 % con el cuarto grupo de muestras de audio intermedias en el dominio del tiempo, y

donde el sumador con superposición (130) está configurado para obtener la tercera pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el segundo grupo de muestras de audio intermedias en el dominio del tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo, o donde el sumador con superposición (130) está configurado para obtener la tercera pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el cuarto grupo de muestras de audio intermedias en el dominio del tiempo con el primer grupo de muestras de audio intermedias en el dominio del tiempo;

donde

Weit es una primera función de ventana, donde wtr es una segunda función de ventana, donde una porción de la segunda función de ventana se define según

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real,

donde t = — k , i o donde

2

donde L indica un número de muestras de audio intermedias en el dominio del tiempo del tercer grupo o del cuarto grupo de muestras de audio intermedias en el dominio del tiempo, el sumador con superposición (130) está configurado para añadir con superposición al menos el segundo grupo de muestras de audio intermedias en el dominio del tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo, el segundo módulo de decodificación (120) está configurado para generar el cuarto grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la primera función de ventana Welt, el segundo módulo de decodificación (120) está configurado para generar el tercer grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la segunda función de ventana wtr, o donde el sumador con superposición (130) está configurado para añadir con superposición al menos el cuarto grupo de muestras de audio intermedias en el dominio del tiempo con el primer grupo de muestras de audio intermedias en el dominio del tiempo, el segundo módulo de decodificación (120) está configurado para generar el tercer grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la primera función de ventana Welt, el segundo módulo de decodificación (120) está configurado para generar el cuarto grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la segunda función de ventana wr;

o donde

weit es una primera función de ventana, donde wmit es una segunda función de ventana, y donde w'mit es una tercera función de ventana, donde la tercera función de ventana se define según

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real, donde n es un número entero, y donde el sumador con superposición (130) está configurado para generar al menos uno del grupo de muestras de audio intermedias en el dominio de tiempo primero y segundo y tercero y cuarto dependiendo

wml, ;

de la tercera función de ventana

o donde

weit es una primera función de ventana, donde wss es una segunda función de ventana, donde la segunda función de ventana se define según

M+W <o < M

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real, donde n es un número entero, y donde el sumador con superposición (130) está configurado para generar al menos uno del grupo de muestras de audio intermedias en el dominio del tiempo primero y segundo y tercero y cuarto dependiendo de la segunda función de ventana wss.

2. Un decodificador según la reivindicación 1,

donde la primera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio precede a la tercera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio en el tiempo, y donde la tercera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio precede a la segunda pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio en el tiempo, y donde el sumador con superposición (130) está configurado para obtener la tercera pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el segundo grupo de muestras de audio intermedias en el dominio del tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo, o

donde la segunda pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio precede a la tercera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio en el tiempo, y donde la tercera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio precede a la primera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio en el tiempo, y donde el sumador con superposición (130) está configurado para obtener la tercera pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el segundo grupo de muestras de audio intermedias en el dominio del tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo.

3. Un decodificador según la reivindicación 1 o 2,

donde el primer módulo de decodificación (110) está configurado para llevar a cabo una transformada de coseno discreta modificada inversa o una transformada de seno discreta modificada inversa, y

donde el segundo módulo de decodificación (120) está configurado para llevar a cabo una transformada solapada extendida inversa o una transformada solapada extendida modificada inversa.

4. Un decodificador según una de las reivindicaciones anteriores,

donde un primer número de muestras de audio intermedias en el dominio del tiempo del primer grupo de muestras de audio intermedias en el dominio del tiempo es igual a un segundo número de muestras de audio intermedias en el dominio del tiempo del segundo grupo de muestras de audio intermedias en el dominio del tiempo,

donde un tercer número de muestras de audio intermedias en el dominio del tiempo del tercer grupo de muestras de audio intermedias en el dominio del tiempo es igual a un cuarto número de muestras de audio intermedias en el dominio del tiempo del cuarto grupo de muestras de audio intermedias en el dominio del tiempo,

donde el segundo número es igual al tercer número dividido por 2, y donde el primer número es igual al cuarto número dividido por 2.

5. Un decodificador según una de las reivindicaciones anteriores,

donde el segundo módulo de decodificación (120) está configurado para decodificar un quinto grupo de las muestras de audio en el dominio espectral mediante la generación de un quinto grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del quinto grupo de las muestras de audio en el dominio espectral, y para decodificar un sexto grupo de las muestras de audio en el dominio espectral mediante la generación de un sexto grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del sexto grupo de las muestras de audio en el dominio espectral, y

donde el sumador con superposición (130) está configurado para obtener la segunda pluralidad de muestras de salida de audio en el dominio del tiempo mediante una adición con superposición del tercer grupo de muestras de audio intermedias en el dominio del tiempo y el cuarto grupo de muestras de audio intermedias en el dominio del tiempo y el quinto grupo de muestras de audio intermedias en el dominio del tiempo y el sexto grupo de muestras de audio intermedias en el dominio del tiempo, de modo que el grupo de muestras de audio intermedias en el dominio del tiempo tercero o cuarto se superponga con el 75 % con el quinto grupo de muestras de audio intermedias en el dominio del tiempo, y de modo que el quinto grupo de muestras de audio intermedias en el dominio del tiempo se superponga con el 75 % con el sexto grupo de muestras de audio intermedias en el dominio del tiempo.

6. Un decodificador según una de las reivindicaciones anteriores,

donde el segundo módulo de decodificación (120) está configurado para generar al menos uno del tercer grupo de muestras de audio intermedias en el dominio del tiempo y del cuarto grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de

donde cs( ) es cos() o sen( ),

donde n indica un índice de tiempo de una de las muestras de audio intermedias en el dominio del tiempo del grupo de muestras de audio intermedias en el dominio del tiempo tercero o cuarto,

donde k indica un índice espectral de una de las muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto,

donde -0,1 < c < 0,1, o 0,4 < c < 0,6, o 0,9 < c < 1,1,

_{a =}2L

donde M i

donde 0 ,9n < q < 1,1n,

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto,

, s -M \

b = ------------donde 2 , y

donde 1,5 < s < 4,5.

7. Un decodificador según una de las reivindicaciones 1 a 5,

donde el primer módulo de decodificación (110) está configurado para generar al menos uno del primer grupo de muestras de audio intermedias en el dominio del tiempo y del segundo grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de

donde cs1 ( ) es cos() o sen( ),

donde n indica un índice de tiempo de una de las muestras de audio intermedias en el dominio del tiempo del grupo de muestras de audio intermedias en el dominio del tiempo primero o segundo,

donde -0,1 < ci < 0,1, o 0,4 < c-i < 0,6, o 0,9 < ci <1,1,

, M l

donde ^\ ^{= ~ T}2 ^“

8. Un decodificador según la reivindicación 6 o 7,

donde c = 0, o c = 0,5, o c = 1,

donde q = n , y

donde s = 3.

9. Un decodificador según la reivindicación 7,

donde q = n, donde s = 3, donde cs() es cos( ), y csi() es cos( ), y donde c = 0,5, y ci = 0,5, o

donde q = n, donde s = 3, donde cs() es sen( ), y csi() es cos( ), y donde c = 1, y ci = 0, o

donde q = n, donde s = 3, donde cs() es sen(), y cs1() es sen( ), y donde c = 0,5, y c1 = 1, o

donde q = n, donde s = 3, donde cs() es cos(), y cs1() es sen(), y donde c = 0, y c1 = 1, o

donde q = n, donde s = 3, donde cs() es sen( ), y cs1() es sen(), y donde c = 0,5, y c1 = 0,5, o

donde q = n, donde s = 3, donde cs() es cos(), y cs1() es sen(), y donde c = 0, y c1 = 0,5, o

donde q = n, donde s = 3, donde cs() es cos(), y cs1() es cos(), y donde c = 0,5, y c1 = 0, o

donde q = n, donde s = 3, donde cs() es sen( ), y cs1() es cos( ), y donde c = 1, y c1 = 0.

10. Un decodificador según la reivindicación 8,

donde el segundo módulo de decodificación (120) está configurado para generar al menos uno del tercer grupo de muestras de audio intermedias en el dominio del tiempo y del cuarto grupo de muestras de audio intermedias en el dominio del tiempo

dependiendo de

o

dependiendo de

o

dependiendo de

o

dependiendo de

donde
indica una de las muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral tercero o cuarto, y

donde ^{* í(« ) i}i^,ndica un valor en el dominio del tiempo.

11. Un decodificador según una de las reivindicaciones 6 a 10, donde el segundo módulo de decodificación (120) está configurado para aplicar un peso w(rí) en el valor en el dominio del tiempo ^{x '} ' ^j( v ^{n )} / segú ^■ n

s ¿ ( n ) - w ( n ) • x ; ( n )

para generar una muestra de audio intermedia en el dominio del tiempo s(n) del grupo de muestras de audio intermedias en el dominio del tiempo tercero o cuarto.

12. Un decodificador según una de las reivindicaciones anteriores,

donde el sumador con superposición (130) está configurado para añadir con superposición al menos el segundo grupo de muestras de audio intermedias en el dominio del tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo, de modo que todas las muestras de audio intermedias en el dominio del tiempo del segundo grupo de muestras de audio intermedias en el dominio del tiempo se superpongan con muestras de audio intermedias en el dominio del tiempo del tercer grupo de muestras de audio intermedias en el dominio del tiempo,

o donde el sumador con superposición (130) está configurado para añadir con superposición al menos el cuarto grupo de muestras de audio intermedias en el dominio del tiempo con el primer grupo de muestras de audio intermedias en el dominio del tiempo, de modo que todas las muestras de audio intermedias en el dominio del tiempo del primer grupo de muestras de audio intermedias en el dominio del tiempo se superpongan con el cuarto grupo de muestras de audio intermedias en el dominio del tiempo.

13. Un decodificador según una de las reivindicaciones anteriores,

donde el decodificador está configurado para recibir información de decodificación que indica si una porción de la pluralidad de muestras de audio en el dominio espectral debe decodificarse mediante el primer módulo de decodificación (110) o mediante el segundo módulo de decodificación (120), y

donde el decodificador está configurado para decodificar dicha porción de la pluralidad de muestras de audio en el dominio espectral mediante el empleo del primer módulo de decodificación (110) o del segundo módulo de decodificación (120) dependiendo de la información de decodificación para obtener el grupo de muestras de audio intermedias en el dominio del tiempo primero o segundo o tercero o cuarto.

14. Un decodificador según una de las reivindicaciones 1 a 12,

donde el decodificador está configurado para recibir un primer bit y un segundo bit, donde el primer bit y el segundo bit en conjunto tienen una primera combinación de valores de bits, o una segunda combinación de valores de bits que es diferente de la primera combinación de valores de bits, o una tercera combinación de valores de bits que es diferente de la combinación de valores de bits primera y segunda, o una cuarta combinación de valores de bits que es diferente de la combinación de valores de bits primera y segunda,

donde el decodificador está configurado para decodificar una porción de la pluralidad de muestras de audio en el dominio espectral dependiente de una función de Kaiser-Bessel mediante el empleo del primer módulo de decodificación (110) para obtener el grupo de muestras de audio intermedias en el dominio del tiempo primero o segundo, si el primer bit y el segundo bit en conjunto tienen la primera combinación de valores de bits, donde el decodificador está configurado para decodificar una porción de la pluralidad de muestras de audio en el dominio espectral dependiendo de una función de seno o una función de coseno mediante el empleo del primer módulo de decodificación (110) para obtener el grupo de muestras de audio intermedias en el dominio del tiempo primero o segundo, si el primer bit y el segundo bit en conjunto tienen la segunda combinación de valores de bits, donde el decodificador está configurado para decodificar una porción de la pluralidad de muestras de audio en el dominio espectral mediante el empleo del primer módulo de decodificación (110) para obtener el grupo de muestras de audio intermedias en el dominio del tiempo primero o segundo, si el primer bit y el segundo bit en conjunto tienen la tercera combinación de valores de bits,

y donde el decodificador está configurado para decodificar dicha porción de la pluralidad de muestras de audio en el dominio espectral mediante el empleo del segundo módulo de decodificación (120) para obtener el grupo de muestras de audio intermedias en el dominio del tiempo tercero o cuarto, si el primer bit y el segundo bit en conjunto tienen la cuarta combinación de valores de bits.

15. Un codificador para reducir o evitar el solapamiento en el dominio del tiempo durante la codificación de una pluralidad de muestras de audio en el dominio del tiempo de una señal de audio mediante la generación de una pluralidad de grupos de muestras de audio en el dominio espectral a partir de una pluralidad de grupos de las muestras de audio en el dominio del tiempo mediante la realización de transformadas solapadas, donde el codificador comprende:

un primer módulo de codificación (210) para generar un primer grupo de los grupos de muestras de audio en el dominio espectral a partir de un primer grupo de los grupos de las muestras de audio en el dominio del tiempo, y para generar un segundo grupo de los grupos de muestras de audio en el dominio espectral a partir de un segundo grupo de los grupos de las muestras de audio en el dominio del tiempo, donde el primer grupo de muestras de audio en el dominio del tiempo y el segundo grupo de muestras de audio en el dominio del tiempo están próximos en el tiempo dentro de los grupos de las muestras de audio en el dominio del tiempo, donde el primer grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 50 % de las muestras de audio del segundo grupo de las muestras de audio en el dominio del tiempo, y donde el segundo grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 50 % de las muestras de audio del primer grupo de las muestras de audio en el dominio del tiempo, y

un segundo módulo de codificación (220) para generar un tercer grupo de los grupos de muestras de audio en el dominio espectral a partir de un tercer grupo de los grupos de las muestras de audio en el dominio del tiempo, y para generar un cuarto grupo de los grupos de muestras de audio en el dominio espectral a partir de un cuarto grupo de los grupos de las muestras de audio en el dominio del tiempo, donde el tercer grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio del cuarto grupo de las muestras de audio en el dominio del tiempo, y donde el cuarto grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio del tercer grupo de las muestras de audio en el dominio del tiempo,

y un módulo de salida (230) para emitir el primer grupo de muestras de audio en el dominio espectral, el segundo grupo de muestras de audio en el dominio espectral, el tercer grupo de muestras de audio en el dominio espectral y el cuarto grupo de muestras de audio en el dominio espectral,

donde el tercer grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del segundo grupo de las muestras de audio en el dominio del tiempo, o donde el cuarto grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del primer grupo de las muestras de audio en el dominio del tiempo;

donde

Weit es una primera función de ventana, donde wtr es una segunda función de ventana, donde una porción de la segunda función de ventana se define según

donde M indica un número de muestras de audio en el dominio espectral del grupo de muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real,

^I

t — — L h k , t = -- L--- 1 — k

donde1 2 o donde 2 , donde L indica un número de muestras de audio en el dominio del tiempo del tercer grupo o del cuarto grupo de muestras de audio en el dominio del tiempo, el tercer grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del segundo grupo de las muestras de audio en el dominio del tiempo, el segundo módulo de codificación (220) está configurado para aplicar la primera función de ventana Welt en el cuarto grupo de muestras de audio en el dominio del tiempo, el segundo módulo de codificación (220) está configurado para aplicar la segunda función de ventana wtr en el tercer grupo de muestras de audio en el dominio del tiempo; o donde el cuarto grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del primer grupo de las muestras de audio en el dominio del tiempo, el segundo módulo de codificación (220) está configurado para aplicar la primera función de ventana Weit en el tercer grupo de muestras de audio en el dominio del tiempo, el segundo módulo de codificación (220) está configurado para aplicar la segunda función de ventana Wtr, en el cuarto grupo de muestras de audio en el dominio del tiempo;

o donde

Weit es una primera función de ventana, donde Wmit es una segunda función de ventana, y donde w'mit es una tercera función de ventana, donde la tercera función de ventana se define según

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real, donde n es un número entero, y donde al menos uno del primer módulo de codificación (210) y del segundo módulo de codificación (220) está configurado para aplicar la tercera función de ventana w'mit en al menos uno del grupo de muestras de audio en el dominio del tiempo primero y segundo y tercero y cuarto; o donde

Weit es una primera función de ventana, donde wss es una segunda función de ventana, donde la segunda función de ventana se define según

^íd J \ ^{—iy ejt ( i ¥}k ^{) 2-}we\t^{( 3}M k^{) :2 , O <}n < M

w %s(n ) = % .-----------------— :— ------------- '

^{‘ 1 ;}[dy/l^w atifyZ ^w ^M k)2, M < n < N

j

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real, donde n es un número entero, y donde al menos uno del primer módulo de codificación (210) y del segundo módulo de codificación (220) está configurado para aplicar la segunda función de ventana wss en al menos uno del grupo de muestras de audio en el dominio del tiempo primero y segundo y tercero y cuarto.

16. Un codificador según la reivindicación 15,

donde el primer grupo de las muestras de audio en el dominio del tiempo precede al segundo grupo de las muestras de audio en el dominio del tiempo en el tiempo, y donde el segundo grupo de las muestras de audio en el dominio del tiempo precede al tercer grupo de las muestras de audio en el dominio del tiempo en el tiempo, y donde el tercer grupo de las muestras de audio en el dominio del tiempo precede al cuarto grupo de las muestras de audio en el dominio del tiempo en el tiempo, y donde el tercer grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del segundo grupo de las muestras de audio en el dominio del tiempo en el tiempo, o donde el tercer grupo de las muestras de audio en el dominio del tiempo precede al cuarto grupo de las muestras de audio en el dominio del tiempo en el tiempo, y donde el cuarto grupo de las muestras de audio en el dominio del tiempo precede el primer grupo de las muestras de audio en el dominio del tiempo en el tiempo, y donde el primer grupo de las muestras de audio en el dominio del tiempo precede al segundo grupo de las muestras de audio en el dominio del tiempo en el tiempo, y donde el cuarto grupo de las muestras de audio en el dominio del tiempo comprende el primer grupo de las muestras de audio en el dominio del tiempo.

17. Un codificador según la reivindicación 15 o 16,

donde el primer módulo de codificación (210) está configurado para llevar a cabo una transformada de coseno discreta modificada o una transformada de seno discreta modificada, y

donde el segundo módulo de codificación (220) está configurado para llevar a cabo una transformada solapada extendida o una transformada solapada extendida modificada.

18. Un codificador según una de las reivindicaciones 15 a 17,

donde un primer número de muestras de audio en el dominio del tiempo del primer grupo de las muestras de audio en el dominio del tiempo es igual a un segundo número de muestras de audio en el dominio del tiempo del segundo grupo de las muestras de audio en el dominio del tiempo, donde un tercer número de muestras de audio en el dominio del tiempo del tercer grupo de las muestras de audio en el dominio del tiempo es igual a un cuarto número de muestras de audio en el dominio del tiempo del cuarto grupo de las muestras de audio en el dominio del tiempo, donde el segundo número es igual al tercer número dividido por 2, y donde el primer número es igual al cuarto número dividido por 2.

19. Un codificador según una de las reivindicaciones 15 a 27,

donde el segundo módulo de codificación (220) está configurado para generar un quinto grupo de los grupos de muestras de audio en el dominio espectral a partir de un quinto grupo de los grupos de las muestras de audio en el dominio del tiempo, y donde el segundo módulo de codificación (220) está configurado para generar un sexto grupo de los grupos de muestras de audio en el dominio espectral a partir de un sexto grupo de los grupos de las muestras de audio en el dominio del tiempo,

donde el grupo de las muestras de audio en el dominio del tiempo tercero o cuarto comprende exactamente el 75 % de las muestras de audio del quinto grupo de las muestras de audio en el dominio del tiempo, donde el quinto grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio del grupo de las muestras de audio en el dominio del tiempo tercero o cuarto, donde el quinto grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio del sexto grupo de las muestras de audio en el dominio del tiempo, donde el sexto grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio del quinto grupo de las muestras de audio en el dominio del tiempo, y donde el módulo de salida (230) está configurado para emitir además el quinto grupo de muestras de audio en el dominio espectral, y el sexto grupo de muestras de audio en el dominio espectral.

20. Un codificador según una de las reivindicaciones 15 a 19, donde el codificador está configurado para emplear el primer módulo de codificación (210) o el segundo módulo de codificación (220) para generar un grupo actual de muestras de audio en el dominio espectral dependiendo de una propiedad de señal de una porción de la señal de audio.

21. Un codificador según la reivindicación 20,

donde el codificador está configurado para determinar, como la propiedad de señal, si un grupo actual de la pluralidad de muestras de audio en el dominio del tiempo comprende al menos una de las regiones no estacionarias y regiones no tonales,

donde el codificador está configurado para emplear el primer módulo de codificación (210) para generar el grupo actual de muestras de audio en el dominio espectral dependiendo del grupo actual de la pluralidad de muestras de audio en el dominio del tiempo, si el grupo actual de la pluralidad de muestras de audio en el dominio del tiempo comprende dicha al menos una de las regiones no estacionarias y las regiones no tonales, y

donde el codificador está configurado para emplear el segundo módulo de codificación (220) para generar el grupo actual de muestras de audio en el dominio espectral dependiendo del grupo actual de la pluralidad de muestras de audio en el dominio del tiempo, si el grupo actual de la pluralidad de muestras de audio en el dominio del tiempo no comprende dicha al menos una de las regiones no estacionarias y las regiones no tonales.

22. Un codificador según la reivindicación 20 o 21, donde el módulo de salida (230) está configurado para emitir un bit que tiene un primer valor de bits o un segundo valor de bits dependiendo de la propiedad de señal. 23. Un codificador según una de las reivindicaciones 15 a 22,

donde el segundo módulo de codificación (220) está configurado para generar al menos uno del tercer grupo y del cuarto grupo de muestras de audio en el dominio espectral dependiendo de

donde cs( ) es cos( ) o sen( ),

donde n indica un índice de tiempo de una de las muestras de audio en el dominio del tiempo del grupo de muestras de audio en el dominio del tiempo tercero o cuarto,

donde k indica un índice espectral de una de las muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto,

donde -0,1 < c < 0,1, o 0,4 < c < 0,6, o 0,9 < c < 1,1,

a = —

donde M

donde 0,9-n < q < 1,1n,

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto,

, s - M + 1

b = -------------donde1 ^ y

donde 1,5 < s < 4,5.

24. Un codificador según una de las reivindicaciones 15 a 23,

donde el primer módulo de codificación (210) está configurado para generar al menos uno del primer grupo y del segundo

grupo de muestras de audio en el dominio espectral dependiendo de

donde cs1() es cos( ) o sen( ),

donde n indica un índice de tiempo de una de las muestras de audio en el dominio del tiempo del grupo de muestras de audio en el dominio del tiempo primero o segundo,

donde -0,1 < Ci < 0,1, o 0,4 < c-i < 0,6, o 0,9 < Ci < 1,1,

_b ^, _{x =-} ^M _-- ⁺-¹

donde ²

25. Un codificador según la reivindicación 23 o 24,

donde c = 0, o c = 0,5, o c = 1,

donde q = n, y

donde s = 3.

26. Un codificador según la reivindicación 24,

donde q = n, donde s = 3, donde cs() es cos( ), y csi() es cos( ), y donde c = 0,5, y ci = 0,5, o

donde q = n, donde s = 3, donde cs() es sen(), y csi() es cos(), y donde c = 1, y ci = 0, o

donde q = n, donde s = 3, donde cs() es sen(), y csi() es sen(), y donde c = 0,5, y ci = 1, o

donde q = n, donde s = 3, donde cs() es cos(), y csi() es sen(), y donde c = 0, y ci = i, o

donde q = n, donde s = 3, donde cs() es sen(), y csi() es sen(), y donde c = 0,5, y ci = 0,5, o

donde q = n, donde s = 3, donde cs() es cos(), y csi() es sen(), y donde c = 0, y ci = 0,5, o

donde q = n, donde s = 3, donde cs() es cos( ), y csi() es cos( ), y donde c = 0,5, y ci = 0, o

donde q = n, donde s = 3, donde cs() es sen(), y csi() es cos(), y donde c = i, y ci = 0.

27. Un codificador según la reivindicación 25,

donde el segundo módulo de codificación (220) está configurado para generar al menos uno del tercer grupo y del cuarto grupo de muestras de audio en el dominio espectral

dependiendo de

o

dependiendo de

o

dependiendo de

i(n )sen ( i r (n ’ i l ) ( &

O

dependiendo de

^ Y 1 ) (k O )

j

donde xA¡(k) indica una de las muestras de audio en el dominio espectral del grupo de muestras de audio en el dominio espectral tercero o cuarto, y

donde xA(rí) indica un valor en el dominio del tiempo.

28. Un codificador según una de las reivindicaciones 23 a 27, donde el segundo módulo de codificación

(220) está configurado para aplicar un peso w(n) en una muestra de audio en el dominio del tiempo s(n) del tercer grupo o del cuarto grupo de las muestras de audio en el dominio del tiempo según

para generar el valor en el dominio del tiempo xA,(rí).

29. Un codificador según una de las reivindicaciones i5 a 28,

donde todas las muestras de audio en el dominio del tiempo del segundo grupo de las muestras de audio en el dominio del tiempo se superponen con muestras de audio en el dominio del tiempo del tercer grupo de las muestras de audio en el dominio de tiempo, o

donde todas las muestras de audio en el dominio de tiempo del primer grupo de las muestras de audio en el dominio del tiempo se superponen con el cuarto grupo de las muestras de audio en el dominio del tiempo.

30. Un sistema que comprende:

un codificador (310) según una de las reivindicaciones 15 a 29 y

un decodificador (320) según una de las reivindicaciones 1 a 14,

donde el codificador (310) según una de las reivindicaciones 15 a 29 está configurado para codificar una pluralidad de muestras de audio en el dominio del tiempo de una señal de audio mediante la generación de una pluralidad de muestras de audio en el dominio espectral,

donde el decodificador (320) según una de las reivindicaciones 1 a 14 está configurado para recibir una pluralidad de muestras de audio en el dominio espectral del codificador, donde el decodificador (320) según una de las reivindicaciones 1 a 14 está configurado para decodificar la pluralidad de muestras de audio en el dominio espectral.

31. Un procedimiento de reducción o evitación del solapamiento en el dominio del tiempo durante la decodificación de una pluralidad de muestras de audio en el dominio espectral mediante la realización de transformadas solapadas inversas, donde el procedimiento comprende:

decodificar un primer grupo de las muestras de audio en el dominio espectral mediante la generación de un primer grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del primer grupo de las muestras de audio en el dominio espectral, y decodificar un segundo grupo de las muestras de audio en el dominio espectral mediante la generación de un segundo grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del segundo grupo de las muestras de audio en el dominio espectral,

añadir con superposición exactamente dos grupos de muestras de audio intermedias en el dominio del tiempo, donde dichos exactamente dos grupos siendo el primer grupo y el segundo grupo de muestras de audio intermedias en el dominio del tiempo, donde dichos exactamente dos grupos se añaden con superposición con una superposición de exactamente el 50 %, donde dicha adición con superposición de dichos exactamente dos grupos da como resultado la generación de una primera pluralidad de muestras de salida de audio en el dominio del tiempo de una señal de audio,

decodificar un tercer grupo de las muestras de audio en el dominio espectral mediante la generación de un tercer grupo de muestras de audio intermedias en el dominio del tiempo a partir de las muestras de audio en el dominio espectral del tercer grupo de las muestras de audio en el dominio espectral, y decodificar un cuarto grupo de las muestras de audio en el dominio espectral mediante la generación de un cuarto grupo de muestras de audio intermedias en el dominio de tiempo a partir de las muestras de audio en el dominio espectral del cuarto grupo de las muestras de audio en el dominio espectral,

emitir la primera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio, una segunda pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio y una tercera pluralidad de muestras de salida de audio en el dominio del tiempo de la señal de audio,

obtener la segunda pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el tercer grupo de muestras de audio intermedias en el dominio del tiempo con una superposición de exactamente el 75 % con el cuarto grupo de muestras de audio intermedias en el dominio del tiempo, y

obtener la tercera pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el segundo grupo de muestras de audio intermedias en el dominio del tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo, u obtener la tercera pluralidad de muestras de salida de audio en el dominio del tiempo usando una adición con superposición de al menos el cuarto grupo de muestras de audio intermedias en el dominio del tiempo con el primer grupo de muestras de audio intermedias en el dominio del tiempo;

donde

Weit es una primera función de ventana, donde wtr es una segunda función de ventana, donde una porción de la segunda función de ventana se define según

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real,

It = — k t

aonae i 2 0 donde ,

donde L indica un número de muestras de audio intermedias en el dominio del tiempo del tercer grupo o del cuarto grupo de muestras de audio intermedias en el dominio del tiempo, se lleva a cabo una adición con superposición de al menos el segundo grupo de muestras de audio intermedias en el dominio del tiempo con el tercer grupo de muestras de audio intermedias en el dominio del tiempo, se genera el cuarto grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la primera función de ventana welt, se genera el tercer grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la segunda función de ventana wr; o donde se lleva a cabo la adición con superposición de al menos el cuarto grupo de muestras de audio intermedias en el dominio del tiempo con el primer grupo de muestras de audio intermedias en el dominio del tiempo, se genera el tercer grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la primera función de ventana welt, se genera el cuarto grupo de muestras de audio intermedias en el dominio del tiempo dependiendo de la segunda función de ventana wtr;

o donde

welt es una primera función de ventana, donde wmit es una segunda función de ventana, y donde w'mit es una tercera función de ventana, donde la tercera función de ventana se define según

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real, donde n es un número entero, y donde la generación de al menos uno del grupo de muestras de audio intermedias en el dominio del tiempo primero y segundo y tercero y cuarto se lleva a cabo dependiendo de la tercera función de ventana w'mit;

o donde

welt es una primera función de ventana, donde wss es una segunda función de ventana, donde la segunda función de ventana se define según

_wss(n) ₌ dsj ^{l - t t ’eit(J\r+} k)2—w0n(3M+k)2, ^{0 <} n ^< M

d-sj 1 —Wg,i(k)2~welt( M Je)2, M < n < N

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real, donde n es un número entero, y la generación de al menos uno del grupo de muestras de audio intermedias en el dominio del tiempo primero y segundo y tercero y cuarto se lleva a cabo dependiendo de la segunda función de ventana wss-

32. Un procedimiento de reducción o evitación de solapamiento en el dominio del tiempo durante la codificación de una pluralidad de muestras de audio en el dominio del tiempo de una señal de audio mediante la generación de una pluralidad de grupos de muestras de audio en el dominio espectral a partir de una pluralidad de grupos de las muestras de audio en el dominio del tiempo mediante la realización de transformadas solapadas, donde el procedimiento comprende:

generar un primer grupo de los grupos de muestras de audio en el dominio espectral a partir de un primer grupo de los grupos de las muestras de audio en el dominio del tiempo, y generar un segundo grupo de los grupos de muestras de audio en el dominio espectral a partir de un segundo grupo de los grupos de las muestras de audio en el dominio del tiempo, donde el primer grupo de muestras de audio en el dominio del tiempo y el segundo grupo de muestras de audio en el dominio del tiempo se encuentran próximos en el tiempo dentro de los grupos de las muestras de audio en el dominio del tiempo, donde el primer grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 50 % de las muestras de audio del segundo grupo de las muestras de audio en el dominio del tiempo, y donde el segundo grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 50 % de las muestras de audio del primer grupo de las muestras de audio en el dominio del tiempo, generar un tercer grupo de los grupos de muestras de audio en el dominio espectral a partir de un tercer grupo de los grupos de las muestras de audio en el dominio del tiempo, y generar un cuarto grupo de los grupos de muestras de audio en el dominio espectral a partir de un cuarto grupo de los grupos de las muestras de audio en el dominio del tiempo, donde el tercer grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio del cuarto grupo de las muestras de audio en el dominio del tiempo, y donde el cuarto grupo de las muestras de audio en el dominio del tiempo comprende exactamente el 75 % de las muestras de audio del tercer grupo de las muestras de audio en el dominio del tiempo, y

emitir el primer grupo de muestras de audio en el dominio espectral, el segundo grupo de muestras de audio en el dominio espectral, el tercer grupo de muestras de audio en el dominio espectral y el cuarto grupo de muestras de audio en el dominio espectral, donde el tercer grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del segundo grupo de las muestras de audio en el dominio del tiempo, o donde el cuarto grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del primer grupo de las muestras de audio en el dominio del tiempo;

donde

weit es una primera función de ventana, donde wtr es una segunda función de ventana, donde una porción de la segunda función de ventana se define según

donde M indica un número de muestras de audio en el dominio espectral del grupo de muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real,

t = — k t

donde 2 ,, o donde -------1 - k

2 .

donde L indica un número de muestras de audio en el dominio del tiempo del tercer grupo o del cuarto grupo muestras de audio en el dominio del tiempo, el tercer grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del segundo grupo de las muestras de audio en el dominio del tiempo, aplicar la primera función de ventana welt en el cuarto grupo de muestras de audio en el dominio del tiempo, aplicar la segunda función de ventana wtr, en el tercer grupo de muestras de audio en el dominio del tiempo; o donde el cuarto grupo de las muestras de audio en el dominio del tiempo comprende muestras de audio del primer grupo de las muestras de audio en el dominio del tiempo, se lleva a cabo la aplicación de la primera función de ventana weit en el tercer grupo de muestras de audio en el dominio del tiempo, se lleva a cabo la aplicación de la segunda función de ventana wtr en el cuarto grupo de muestras de audio en el dominio del tiempo;

o donde

weit es una primera función de ventana, donde wmit es una segunda función de ventana, y donde w'mit es una tercera función de ventana, donde la tercera función de ventana se define según

e#(JV+ fc)2_„,elt(3 M fc)2, O < n < M

M < n < N

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real, donde n es un número entero, y donde al menos uno del primer módulo de codificación (210) y del segundo módulo de codificación (220) está configurado para aplicar la tercera función de ventana w'mit en al menos uno del grupo de muestras de audio en el dominio del tiempo primero y segundo y tercero y cuarto;

o donde

weit es una primera función de ventana, donde wss es una segunda función de ventana, donde la segunda función de ventana se define según

_ , _ j , o < n < M

Wsa(n) ~
M < n < N

donde M indica un número de muestras de audio en el dominio espectral del grupo de las muestras de audio en el dominio espectral primero o segundo o tercero o cuarto, donde k es un número con 0 < k < M, donde d es un número real, donde n es un número entero, y donde al menos uno del primer módulo de codificación (210) y del segundo módulo de codificación (220) está configurado para aplicar la segunda función de ventana wss en al menos uno del grupo de muestras de audio en el dominio del tiempo primero y segundo y tercero y cuarto.

33. Un programa informático que comprende instrucciones que hacen que un ordenador o un procesador de señales efectúe el procedimiento de la reivindicación 31 o 32 cuando se ejecutan en el ordenador o procesador de señales.