ES2658942T3 - Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable - Google Patents
Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable Download PDFInfo
- Publication number
- ES2658942T3 ES2658942T3 ES08828335.3T ES08828335T ES2658942T3 ES 2658942 T3 ES2658942 T3 ES 2658942T3 ES 08828335 T ES08828335 T ES 08828335T ES 2658942 T3 ES2658942 T3 ES 2658942T3
- Authority
- ES
- Spain
- Prior art keywords
- time domain
- frame
- time
- segments
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010183 spectrum analysis Methods 0.000 title abstract description 13
- 230000002123 temporal effect Effects 0.000 title description 26
- 230000015572 biosynthetic process Effects 0.000 title description 2
- 238000003786 synthesis reaction Methods 0.000 title description 2
- 230000011218 segmentation Effects 0.000 abstract description 18
- 238000000034 method Methods 0.000 abstract description 11
- 230000005236 sound signal Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 20
- 230000008707 rearrangement Effects 0.000 description 10
- 230000002441 reversible effect Effects 0.000 description 9
- 230000001052 transient effect Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Spectrometry And Color Measurement (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
Abstract
Un procedimiento para procesamiento de señal que actúa sobre tramas solapadas de una señal de audio en el dominio de tiempo, comprendiendo dicho procedimiento las etapas de: - llevar a cabo (S2) un repliegue en el dominio de tiempo (TDA) en base a una trama solapada, que tiene una longitud de 2N, para generar una correspondiente trama replegada en el dominio de tiempo (x) con una longitud N; dicho procedimiento, caracterizado por: - reordenar (13) la trama replegada en el dominio de tiempo (x) para generar una trama replegada en el dominio de tiempo reordenada (v); - llevar a cabo (S4) segmentación en tiempo, que comprende relleno de ceros de la trama replegada en el dominio de tiempo reordenada (v) de longitud N para producir una trama que tiene una longitud mayor que N, y dividir a continuación la trama producida resultante por lo menos en dos segmentos solapados que tienen cada uno una longitud igual o menor que N; y - llevar a cabo (S5) análisis espectral en base a dichos por lo menos dos segmentos solapados aplicando, en cada uno de dichos por lo menos dos segmentos solapados, una transformada de coseno discreta modificada (MDCT) al segmento para obtener, para cada segmento, un conjunto correspondiente de coeficientes representativos del contenido de frecuencias del segmento.
Description
10
15
20
25
30
35
40
de salida de la transformada inversa yn. En principio, xn y yn podrían utilizar ventanas diferentes, pero por simplicidad se considera solamente el caso de ventanas idénticas.
Existen varias ventanas ortogonales y bi-ortogonales de propósito general. En el caso ortogonal, las condiciones de reconstrucción perfecta (PR) generalizadas se pueden reducir a restricciones Nyquist y de fase lineal sobre la ventana, es decir:
Cualquier ventana que satisfaga las condiciones de reconstrucción perfecta (PR) puede ser utilizada para generar el banco de filtros. Sin embargo, para obtener una alta ganancia de codificación, la respuesta de frecuencia resultante del banco de filtros debería ser lo más selectiva posible.
La referencia [2] designa mediante MLT (Modulated Lapped Transform, transformada traslapada modulada) el banco de filtros MDCT que hace uso de la ventana seno, que se define como:
Esta ventana particular, la denominada ventana seno, es la más popular en codificación de audio. Aparece, por ejemplo, en el banco de filtros híbridos MPEG-1 capa III (MP3), así como en MPEG-2/4 AAC.
Una de las propiedades atractivas que ha contribuido a la utilización generalizada de la MDCT para codificación de audio es la disponibilidad de algoritmos rápidos basados en FFT. Esto hace de la MDCT un banco de filtros viable para implementaciones en tiempo real.
Es bien sabido que la MDCT con una longitud de ventana de 2N se puede descomponer en dos fases en cascada. La primera fase consiste en la operación de repliegue en el dominio de tiempo (TDA) seguida por una segunda fase basada en la DCT de tipo IV, tal como se muestra en la figura 5.
La operación TDA está dada explícitamente por la siguiente operación matricial:
donde xw indica la trama de entrada en el dominio de tiempo en ventana:
las matrices IN y JN designan la identidad y las matrices de inversión temporal de orden N.
Un primer aspecto de la invención se refiere al procesamiento de señal que actúa sobre tramas solapadas de una señal de entrada. Un concepto clave es utilizar una trama replegada en el dominio de tiempo como base para la segmentación en tiempo y el análisis espectral, y llevar a cabo la segmentación en tiempo en base a la trama replegada en el dominio de tiempo y el análisis espectral en base a los segmentos de tiempo resultantes. Los segmentos de tiempo, o segmentos para abreviar, se denominan asimismo subtramas. Esto es lo lógico dado que un segmento en una trama se puede denominar una subtrama. Las expresiones "segmento" y "subtrama" se utilizarán, en general, de manera intercambiable a lo largo de la descripción.
La figura 6 es un diagrama de flujo esquemático que muestra un ejemplo de un procedimiento para procesamiento de señal de acuerdo con una realización preferida a modo de ejemplo de la invención. Tal como se indica en la etapa S1, el procedimiento puede involucrar una etapa opcional de pre-procesamiento, tal como se explicará y ejemplificará más adelante. En la etapa S2, se lleva a cabo una operación de repliegue en el dominio de tiempo (TDA) en base a una seleccionada de las tramas solapadas para generar una denominada trama TDA correspondiente que puede, opcionalmente, ser procesada en una o varias fases, tal como se indica en S3, antes de que se lleve a cabo la segmentación en tiempo. En cualquier caso, la segmentación en tiempo se lleva a cabo en base a la trama replegada en el dominio de tiempo (que puede haber sido procesada) para generar por lo menos dos segmentos de tiempo, tal como se indica en la etapa S4. En la etapa S5, se ejecuta el denominado análisis
10
15
20
25
30
35
40
45
50
tiempo reconstruida. Se puede hacer referencia, por ejemplo, a las operaciones generales de solapar-sumar de la figura 4B.
Preferentemente, el procesamiento de señal inverso incluye por lo menos una de síntesis de señal y descodificación de audio. El análisis espectral inverso se puede basar en cualquiera de una serie de diferentes transformadas inversas, preferentemente transformadas traslapadas. Por ejemplo, en aplicaciones de descodificación de audio, es beneficioso utilizar la transformada MDCT inversa.
A continuación se explica una visión general más detallada y una explicación de la cadena inversa de operaciones así como implementaciones preferidas.
La figura 8 es un diagrama de bloques esquemático de un dispositivo de acuerdo con otra realización preferida a modo de ejemplo de la invención. Además de los bloques básicos de la figura 7, el dispositivo de la figura 8 incluye además una o varias unidades de procesamiento, tales como la unidad de aplicación de función ventana 11 y la unidad de reordenamiento 13.
En el ejemplo de la figura 8, la unidad opcional de aplicación de la función ventana 11 lleva a cabo la aplicación de la función ventana en base a una de las tramas solapadas para generar una trama en ventana, que se envía a la unidad TDA 12 para el repliegue en el dominio de tiempo. Básicamente, la aplicación de la función ventana se puede llevar a cabo para mejorar las propiedades de selectividad en frecuencias de la transformada. La forma de la ventana se puede optimizar para satisfacer determinados criterios de selectividad en frecuencias, se pueden utilizar diversas técnicas de optimización y estas son bien conocidas por los expertos en la materia.
Para mantener una coherencia temporal completa de la señal de entrada, es beneficioso aplicar un reordenamiento del repliegue en el dominio de tiempo. Por esta razón, puede estar dispuesta una unidad de reordenamiento 13 para reordenar la trama replegada en el dominio de tiempo con el fin de generar una trama replegada en el dominio de tiempo reordenada, que se envía a la unidad de segmentación 14. De este modo, se puede llevar a cabo segmentación en base a la trama replegada en el dominio de tiempo reordenada. El analizador espectral 16 funciona preferentemente sobre los segmentos generados a partir de la unidad de segmentación en tiempo 14 para obtener un análisis espectral segmentado con una resolución temporal superior a la normal.
La figura 9 es un diagrama de bloques esquemático de un dispositivo de acuerdo con otra realización preferida a modo de ejemplo de la invención. El ejemplo de la figura 9 es similar al de la figura 8, excepto en que en la figura 9 se indica explícitamente que la segmentación en tiempo está basada en un conjunto de funciones ventana adecuadas, y que el análisis espectral está basado en la aplicación de transformada sobre segmentos de la trama replegada en el dominio de tiempo reordenada.
En un ejemplo particular, la segmentación involucra añadir relleno de ceros a la trama replegada en el dominio de tiempo reordenada y dividir la señal resultante en segmentos relativamente cortos y preferentemente solapados.
Preferentemente, el análisis espectral se basa en aplicar una transformada traslapada, tal como MDCT o MLT, a cada uno de dichos segmentos solapados.
A continuación se describirá la invención haciendo referencia a otras realizaciones ejemplares y no limitativas.
Tal como se ha mencionado, la invención se basa en el concepto de utilizar la señal replegada en el tiempo (salida de la operación de repliegue en el dominio de tiempo) como una nueva trama de señal en la que se aplica el análisis espectral. Al cambiar la resolución temporal de la transformada que se aplica después del repliegue temporal para obtener el coeficiente (por ejemplo, MDCT), por ejemplo el DCTIV, la invención permite obtener un análisis espectral sobre segmentos de tiempo arbitrarios con muy poca sobrecarga en complejidad, así como instantáneamente, es decir, sin retardo adicional.
Para obtener un análisis de señal con una resolución temporal predeterminada es suficiente aplicar directamente las transformadas ortogonales de longitudes apropiadas preferentemente sobre segmentos solapados de la señal de entrada en ventana, replegada temporalmente.
La salida de cada una de esas transformadas de menor longitud conducirá a un conjunto de coeficientes representativo del contenido de frecuencia de cada segmento en cuestión. El conjunto de coeficientes para todos los segmentos proporcionará instantáneamente un mosaico de tiempo-frecuencia arbitrario de la trama de señal original.
Esta descomposición instantánea puede ser utilizada para atenuar el efecto de pre-eco, por ejemplo en el caso de transitorios, así como para proporcionar una representación eficiente de la señal que permita una codificación eficiente en velocidad binaria, de la trama en cuestión.
Los segmentos solapados de la señal en ventana replegada en tiempo no tienen que tener la misma longitud. Debido a la correspondencia temporal entre segmentos en el dominio replegado en tiempo y el dominio de tiempo normal, el nivel deseado del análisis de resolución temporal determinará el número de segmentos así como la longitud de cada uno de los segmentos sobre los que se lleva a cabo el análisis de frecuencia.
10
15
20
25
30
35
40
45
50
55
La mejor aplicación de la invención es junto con un detector de transitorios y/o en el contexto de codificación mediante medir la ganancia de codificación obtenida para un conjunto dado de segmentaciones en tiempo, incluyendo esto estimaciones de ganancia de codificación tanto en lazo abierto como en lazo cerrado para cada prueba de segmentación en tiempo.
La invención es útil, por ejemplo, junto con el estándar ITU-T G.722.1, y especialmente para el estándar "ITU-T
G.722.1 fullband extension for 20 kHz full-band audio", ahora renombrado el estándar ITU-T G.719, tanto para codificación como para descodificación, tal como se ejemplificará más adelante.
La invención permite una conmutación instantánea de la resolución temporal de la transformada global (por ejemplo, en base a MDCT). Por lo tanto, a diferencia de la conmutación entre ventanas, la invención no requiere ningún retardo.
La invención tiene una complejidad muy baja y no se requiere ningún banco de filtros adicional. La invención utiliza preferentemente la misma transformada que la MDCT, es decir DCT de tipo IV. La invención gestiona de manera eficiente la supresión de artefactos de pre-eco mediante conmutar instantáneamente a una mayor resolución temporal.
La invención permitiría asimismo construir esquemas de codificación de lazo cerrado/abierto basados en segmentaciones en tiempo adaptativas de señal.
Para una mejor comprensión de la invención, se describirán a continuación ejemplos más detallados de operaciones individuales (posiblemente opcionales) de procesamiento de señal así como otros ejemplos de implementaciones globales.
Si existen requisitos estrictos sobre coherencia temporal, se recomienda el denominado reordenamiento.
Reordenamiento TDA
Para mantener la coherencia temporal de la señal de entrada, la salida de la operación de repliegue en el dominio de tiempo tiene que ser reordenada antes de su posterior procesamiento. La operación de ordenamiento es necesaria, sin ordenamiento las funciones base del banco de filtros resultante tendrán respuestas incoherentes en tiempo y frecuencia. Se muestra un ejemplo de operación de reordenamiento en la figura 10, e implica intercambiar las mitades superior e inferior de la señal de salida TDA x̃(n). Este reordenamiento es solamente conceptual y en realidad no hay cálculos involucrados. La invención no se limita al ejemplo mostrado en la figura 10. Por supuesto, se pueden implementar otros tipos de reordenamiento.
Realización simple -mejora de la resolución temporal
Una primera realización simple muestra cómo duplicar la resolución temporal según la presente invención. Por consiguiente, se aplica un análisis de tiempo-frecuencia v(n), para duplicar la resolución temporal, v(n) se divide en dos segmentos preferentemente en solapamiento. Dado que v(n) es una señal limitada en el tiempo, se añade una cantidad de relleno de ceros al comienzo y al final de v(n). Preferentemente, la señal de entrada es una señal en ventana replegada en el tiempo reordenada, de longitud N. La longitud del relleno de ceros depende de la longitud de la señal v(n) y de la cantidad deseada de segmentos, en este caso, dado que se desean dos segmentos solapados, la longitud del relleno de ceros es igual a la cuarta parte de la longitud de v(n) y se añaden al inicio y al final de v(n). Utilizar dicho relleno de ceros conduce a dos segmentos solapados al 50 % de la misma longitud que la longitud de v(n).
Preferentemente, los segmentos solapados resultantes son sometidos a función ventana, tal como se ejemplifica en la figura 11. Se debe observar que aunque la forma de la ventana se puede optimizar hasta cierto punto para la aplicación deseada, ésta tiene que observar los requisitos de reconstrucción perfecta. Esto se puede ver en la figura 11, donde la mitad derecha de la ventana del segundo segmento tiene un valor 1 para la parte que aplica a la señal v(n) y el valor 0 para el relleno de ceros añadido.
Cada uno de los segmentos obtenidos tiene una longitud de exactamente N. Aplicar la MDCT sobre cada segmento conduce a N/2 coeficientes; es decir, un total de N coeficientes, por lo que el banco de filtros resultante está muestreado críticamente, ver la figura 11. Debido a las limitaciones sobre las formas de las ventanas, la operación es invertible y aplicar las operaciones inversas sobre los dos conjuntos de coeficientes MDCT (coeficientes MDCT de los segmentos 1 y 2) conducirá de nuevo a la señal v(n).
Para esta realización, las funciones base del banco de filtros resultantes tienen una localización temporal mejorada pero pierden en la localización en frecuencia, lo que es una consecuencia bien conocida del principio de incertidumbre tiempo-frecuencia.
La figura 12 muestra las dos funciones básicas que están relacionadas con la frecuencia normalizada a 0,25. Claramente, la dispersión temporal se limita bastante, si bien se observa asimismo que existe una propagación de la dispersión temporal que se debe al solapamiento de las dos secciones de la señal replegado en el tiempo. Esta propagación en el dominio de tiempo es una consecuencia de la cancelación del repliegue en el dominio de tiempo y
10
15
20
25
30
35
40
45
50
55
estaría siempre presente. Sin embargo, se puede atenuar mediante una elección adecuada (optimización numérica) de las funciones ventana. La figura 12 muestra asimismo las respuestas de frecuencia. A modo de comparación, las funciones base MDCT originales se muestran en la figura 13, si bien éstas corresponden a un muestreo mucho más estrecho del dominio de frecuencia, y su extensión temporal es mucho mayor. La figura 13 muestra las funciones base originales correspondientes al banco de filtros MLT (MDCT + ventana seno).
Resoluciones temporales superiores
Se puede obtener una mayor resolución temporal dividiendo en más segmentos la señal replegada en tiempo reordenada. Las figuras 14 y 15 muestran cómo se consigue esto para cuatro y ocho segmentos, respectivamente. La figura 14 muestra una resolución temporal superior mediante división en cuatro segmentos, y la figura 15 muestra una resolución temporal superior mediante división en ocho segmentos. Tal como se comprenderá, se puede utilizar cualquier número adecuado de segmentos de tiempo, dependiendo de la resolución temporal deseada.
En general, la unidad de segmentación en tiempo está configurada para generar un número seleccionable de N de segmentos en base a una trama replegada en el dominio de tiempo, donde N es un entero igual o mayor que 2.
Para el caso de cuatro segmentos, la figura 16 muestra una realización de la transformada global resultante. La aplicación de la función ventana sobre una trama de entrada se lleva a cabo en una unidad 11 de aplicación de la función ventana, el repliegue en tiempo se lleva a cabo en una unidad 12 de repliegue en el dominio de tiempo, y el reordenamiento opcional se lleva a cabo en una unidad de reordenamiento 13. A continuación se realiza un análisis espectral segmentado aplicando la post-función ventana sobre cuatro segmentos utilizando unidades de postfunción ventana 14 y transformadas segmentadas mediante las unidades de transformada 16. Preferentemente, la transformada segmentada global se basa en MDCT segmentada, utilizando repliegue temporal y DCTIV para cada segmento.
Mosaico no uniforme en el dominio de tiempo
Con esta invención es posible asimismo obtener segmentaciones en tiempo no uniformes, según el mismo concepto. Existen por lo menos dos posibles maneras de llevar a cabo dicha operación. Un primer procedimiento está basado en una segmentación en tiempo no uniforme de la señal replegada en el tiempo reordenada. De este modo, las ventanas utilizadas para segmentar la señal tienen longitudes diferentes.
Un segundo procedimiento está basado en un enfoque jerárquico. La idea es aplicar en primer lugar segmentación en tiempo gruesa y a continuación volver a aplicar la invención a los segmentos gruesos resultantes hasta que se obtiene el mosaico deseado.
La figura 17 muestra un ejemplo de cómo se puede implementar este segundo procedimiento. Para este ejemplo, en primer lugar la señal se divide en dos segmentos de tiempo según la presente invención; a continuación uno de los segmentos se vuelve a dividir en dos segmentos. Un ejemplo de una transformada adecuada es la transformada MDCT, utilizando repliegue en tiempo y DCTIV para cada segmento considerado.
Funcionamiento con detección de transitorios
La invención puede ser utilizada para atenuar los artefactos de pre-eco y es en este caso donde se asocia mejor con un detector de transitorios, tal como se ejemplifica en la figura 18. Al detectar un transitorio, el detector de transitorios activaría un indicador (IsTransient (es transitorio)). El indicador del detector de transitorios utilizaría a continuación el mecanismo de conmutación 17 para conmutar instantáneamente de un proceso normal de resolución de todas las frecuencias (análisis espectral no segmentado) a una resolución temporal superior (análisis espectral segmentado), tal como se representa en la figura 18. Con esta realización es posible entonces analizar señales transitorias con una resolución temporal mucho más fina, eliminando por lo tanto los molestos artefactos de pre-eco.
Operaciones de codificación en lazo cerrado/lazo cerrado.
La invención se puede utilizar asimismo como un medio para encontrar el mosaico de tiempo-frecuencia óptimo para el análisis de una señal antes de la codificación. Se pueden utilizar dos modos como ejemplo, lazo cerrado y lazo abierto. En un funcionamiento en lazo abierto, un dispositivo externo decidiría el mejor mosaico (en términos de eficiencia de codificación) de tiempo-frecuencia para una trama de señal determinada, y utilizaría la invención para analizar la señal según el mosaico óptimo. En un funcionamiento en lazo cerrado, se utiliza un conjunto de mosaicos predefinidos, se analiza la señal para cada uno de estos mosaicos y ésta se codifica según el mosaico. Para cada mosaico se calcula una medida de la fidelidad. Se selecciona el mosaico que conduce a la mejor fidelidad. El mosaico seleccionado, junto con los coeficientes codificados correspondientes a este mosaico, se transmiten al descodificador.
Tal como se ha mencionado, los principios y conceptos descritos anteriormente para el procedimiento directo permiten a un experto en la materia realizar una cadena inversa de operaciones en un procedimiento inverso.
La figura 19 es un diagrama de bloques que muestra un ejemplo básico de un dispositivo de procesamiento de señal para funcionamiento basado en coeficientes espectrales representativos de una señal en el dominio de tiempo. El
10
15
20
25
30
35
40
45
Se puede utilizar un índice de ajuste del nivel de ruido para ajustar el nivel de los coeficientes regenerados. Los coeficientes espectrales no codificados de alta frecuencia son regenerados preferentemente utilizando extensión del ancho de banda.
Los coeficientes espectrales descodificados y los coeficientes espectrales regenerados se mezclan, y conducen a un espectro normalizado. Se aplica la envolvente espectral descodificada, conduciendo un espectro de banda completa descodificado.
Finalmente, se aplica la transformada inversa para recuperar la señal descodificada en el dominio de tiempo. Esto se realiza preferentemente aplicando la transformada de coseno discreta modificada inversa (IMDCT) para modos estacionarios, o bien la inversa de la transformada de mayor resolución temporal para el modo transitorio.
El algoritmo adaptado para extensión de banda completa está basado en tecnología de codificación de transformada adaptativa. Funciona en tramas de 20 ms de audio de entrada y de salida. Debido a que la ventana de transformada (longitud de función base) es de 40 ms y se utiliza un solape del 50 por ciento entre sucesivas tramas de entrada y salida, el tamaño de la memoria tampón anticipada es de 20 ms. Por lo tanto, el retardo algorítmico global es de 40 ms, que es la suma del tamaño de la trama más el tamaño anticipado. Todos los demás retardos adicionales experimentados en la utilización de un códec de banda completa G.722.1 son debidos a retardos computacionales y/o de transmisión de la red.
La figura 22 es un diagrama de bloques esquemático de un ejemplo particular de un transformador inverso y la implementación asociada para segmentación en tiempo inversa y reordenamiento opcional de acuerdo con una realización preferida de la invención. El transformador inverso está basado en DCTimagen13 IV en cascada con repliegue
temporal inverso. Cuatro denominados sub-espectros
donde l = 0, 1, 2, 3, son procesados por el transformador inverso, y cada sub-espectro es, en primer lugar, sometido a transformada inversa por medio de un respectivo DCTIV en el dominio replegado del dominio de tiempo, y a continuación sometidos a repliegue temporal inverso, es decir sometidos a repliegue inverso en el dominio de tiempo, para proporcionar una transformada de tipo imagen14
MDCT inversa global para cada sub-espectro. La longitud de la señal resultante
para cada índice de subtrama l es igual al doble de la longitud del espectro de entrada, es decir L/2.
Las señales sometidas a repliegue inverso en el dominio de tiempo resultantes para cada subtrama l son sometidas a función ventana utilizando la misma configuración de ventanas que las del codificador. Las señales en ventana resultantes se suman solapadas. Se debe observar que la ventana para la primera m = 0 y la última m = 3 subtramas es cero. Esto se debe a que se utiliza relleno de ceros en el codificador. Estos dos bordes de trama tienen que ser calculados y en la práctica se desechan. La señal resultante de las operaciones de sumar-solapar de todas las subtramas vq(n) se reordena utilizando la operación inversa llevada a cabo en el codificador, lo que conduce a la señal x̃q(n), n=0,...,L-1.
La salida de la transformada inversa, en modo estacionario o transitorio, es de longitud L. Antes de someter la señal a una función ventana (no mostrada en la figura 22) es primero sometida a repliegue inverso en el dominio de tiempo (ITDA, inverse time domain realiased), conduciendo a una señal de longitud 2L, según:
La señal resultante se somete a función ventana para cada trama r, según:
donde h(n) es una función ventana.
Finalmente, la señal de banda completa de salida se construye sumando con solapamiento las señales x̃(r)(n) para dos tramas consecutivas:
Las realizaciones descritas anteriormente se proporcionan tan solo como ejemplos, y se deberá entender que la presente invención no se limita a las mismas.
Referencias
[1] B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen" Frequenz, páginas 252-256, 1989.
13
Claims (1)
-
imagen1
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US96812507P | 2007-08-27 | 2007-08-27 | |
US968125P | 2007-08-27 | ||
PCT/SE2008/050959 WO2009029032A2 (en) | 2007-08-27 | 2008-08-25 | Low-complexity spectral analysis/synthesis using selectable time resolution |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2658942T3 true ES2658942T3 (es) | 2018-03-13 |
Family
ID=40388070
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES19175094T Active ES2823560T3 (es) | 2007-08-27 | 2008-08-25 | Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable |
ES17194762T Active ES2748843T3 (es) | 2007-08-27 | 2008-08-25 | Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable |
ES08828335.3T Active ES2658942T3 (es) | 2007-08-27 | 2008-08-25 | Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES19175094T Active ES2823560T3 (es) | 2007-08-27 | 2008-08-25 | Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable |
ES17194762T Active ES2748843T3 (es) | 2007-08-27 | 2008-08-25 | Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable |
Country Status (11)
Country | Link |
---|---|
US (2) | US8392202B2 (es) |
EP (3) | EP3550564B1 (es) |
JP (1) | JP5140730B2 (es) |
CN (2) | CN103594090B (es) |
BR (1) | BRPI0816136B1 (es) |
CA (1) | CA2698039C (es) |
DK (2) | DK3288028T3 (es) |
ES (3) | ES2823560T3 (es) |
MX (1) | MX2010001763A (es) |
PT (1) | PT3550564T (es) |
WO (1) | WO2009029032A2 (es) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2526333T3 (es) | 2007-08-27 | 2015-01-09 | Telefonaktiebolaget L M Ericsson (Publ) | Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda |
PT2186090T (pt) | 2007-08-27 | 2017-03-07 | ERICSSON TELEFON AB L M (publ) | Detetor de transitórios e método para suportar codificação de um sinal de áudio |
US8548815B2 (en) * | 2007-09-19 | 2013-10-01 | Qualcomm Incorporated | Efficient design of MDCT / IMDCT filterbanks for speech and audio coding applications |
US9189250B2 (en) * | 2008-01-16 | 2015-11-17 | Honeywell International Inc. | Method and system for re-invoking displays |
ES2906255T3 (es) | 2009-01-28 | 2022-04-13 | Dolby Int Ab | Transposición armónica mejorada |
AU2010209673B2 (en) | 2009-01-28 | 2013-05-16 | Dolby International Ab | Improved harmonic transposition |
JP5433022B2 (ja) | 2009-09-18 | 2014-03-05 | ドルビー インターナショナル アーベー | 高調波転換 |
EP2372705A1 (en) * | 2010-03-24 | 2011-10-05 | Thomson Licensing | Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined |
CN102222505B (zh) * | 2010-04-13 | 2012-12-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
CN103282958B (zh) * | 2010-10-15 | 2016-03-30 | 华为技术有限公司 | 信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器 |
TWI488176B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
CN105304090B (zh) | 2011-02-14 | 2019-04-09 | 弗劳恩霍夫应用研究促进协会 | 使用对齐的前瞻部分将音频信号编码及解码的装置与方法 |
TWI480857B (zh) | 2011-02-14 | 2015-04-11 | Fraunhofer Ges Forschung | 在不活動階段期間利用雜訊合成之音訊編解碼器 |
SG185519A1 (en) | 2011-02-14 | 2012-12-28 | Fraunhofer Ges Forschung | Information signal representation using lapped transform |
JP5800915B2 (ja) | 2011-02-14 | 2015-10-28 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | オーディオ信号のトラックのパルス位置の符号化および復号化 |
PT2676270T (pt) | 2011-02-14 | 2017-05-02 | Fraunhofer Ges Forschung | Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade |
JP5625126B2 (ja) | 2011-02-14 | 2014-11-12 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム |
JP5849106B2 (ja) | 2011-02-14 | 2016-01-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法 |
MX2013009305A (es) | 2011-02-14 | 2013-10-03 | Fraunhofer Ges Forschung | Generacion de ruido en codecs de audio. |
RU2560788C2 (ru) | 2011-02-14 | 2015-08-20 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для обработки декодированного аудиосигнала в спектральной области |
JP2015525374A (ja) * | 2012-06-04 | 2015-09-03 | サムスン エレクトロニクス カンパニー リミテッド | オーディオ符号化方法及びその装置、オーディオ復号化方法及びその装置、並びにそれを採用するマルチメディア機器 |
EP2884884A1 (en) | 2012-08-16 | 2015-06-24 | École Polytechnique Fédérale de Lausanne (EPFL) | Method and apparatus for low complexity spectral analysis of bio-signals |
CN108269584B (zh) * | 2013-04-05 | 2022-03-25 | 杜比实验室特许公司 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN104240697A (zh) * | 2013-06-24 | 2014-12-24 | 浙江大华技术股份有限公司 | 一种音频数据的特征提取方法及装置 |
RU2643662C2 (ru) | 2013-08-23 | 2018-02-02 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для обработки звукового сигнала с использованием комбинирования в диапазоне перекрытия |
CN103745726B (zh) * | 2013-11-07 | 2016-08-17 | 中国电子科技集团公司第四十一研究所 | 一种自适应的变采样率音频采样方法 |
CN111312277B (zh) | 2014-03-03 | 2023-08-15 | 三星电子株式会社 | 用于带宽扩展的高频解码的方法及设备 |
EP3128514A4 (en) * | 2014-03-24 | 2017-11-01 | Samsung Electronics Co., Ltd. | High-band encoding method and device, and high-band decoding method and device |
CN106409304B (zh) | 2014-06-12 | 2020-08-25 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
CN112967727A (zh) * | 2014-12-09 | 2021-06-15 | 杜比国际公司 | Mdct域错误掩盖 |
ES2755489T3 (es) | 2015-03-17 | 2020-04-22 | Zynaptiq Gmbh | Métodos de extensión de transformadas de frecuencia para resolver características en el dominio espaciotemporal |
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
US9837089B2 (en) * | 2015-06-18 | 2017-12-05 | Qualcomm Incorporated | High-band signal generation |
EP3276620A1 (en) * | 2016-07-29 | 2018-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis |
JP6486978B2 (ja) * | 2017-02-10 | 2019-03-20 | 三菱重工業株式会社 | 積層部材、並びに、これを用いた羽根車、圧縮機及びエンジン |
US10699723B2 (en) * | 2017-04-25 | 2020-06-30 | Dts, Inc. | Encoding and decoding of digital audio signals using variable alphabet size |
KR102632136B1 (ko) * | 2017-04-28 | 2024-01-31 | 디티에스, 인코포레이티드 | 오디오 코더 윈도우 사이즈 및 시간-주파수 변환 |
CN112255456B (zh) * | 2020-12-22 | 2021-03-16 | 深圳市鼎阳科技股份有限公司 | 一种用于频谱分析仪的扫频方法和扫频装置 |
WO2022177481A1 (en) * | 2021-02-18 | 2022-08-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Encoding and decoding complex data |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5297236A (en) * | 1989-01-27 | 1994-03-22 | Dolby Laboratories Licensing Corporation | Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder |
CN1062963C (zh) * | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
ATE323377T1 (de) * | 1998-05-27 | 2006-04-15 | Microsoft Corp | Skalierbarer audiokodierer und dekodierer |
US6115689A (en) * | 1998-05-27 | 2000-09-05 | Microsoft Corporation | Scalable audio coder and decoder |
JP2000134105A (ja) * | 1998-10-29 | 2000-05-12 | Matsushita Electric Ind Co Ltd | オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法 |
US6233549B1 (en) * | 1998-11-23 | 2001-05-15 | Qualcomm, Inc. | Low frequency spectral enhancement system and method |
US6226608B1 (en) * | 1999-01-28 | 2001-05-01 | Dolby Laboratories Licensing Corporation | Data framing for adaptive-block-length coding system |
US6430529B1 (en) * | 1999-02-26 | 2002-08-06 | Sony Corporation | System and method for efficient time-domain aliasing cancellation |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
JP3753956B2 (ja) * | 2001-06-21 | 2006-03-08 | シャープ株式会社 | 符号化装置 |
JP3815323B2 (ja) * | 2001-12-28 | 2006-08-30 | 日本ビクター株式会社 | 周波数変換ブロック長適応変換装置及びプログラム |
US7275036B2 (en) | 2002-04-18 | 2007-09-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data |
DE10217297A1 (de) * | 2002-04-18 | 2003-11-06 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten |
CN1460992A (zh) * | 2003-07-01 | 2003-12-10 | 北京阜国数字技术有限公司 | 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组 |
US7516064B2 (en) * | 2004-02-19 | 2009-04-07 | Dolby Laboratories Licensing Corporation | Adaptive hybrid transform for signal analysis and synthesis |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
EP1895511B1 (en) * | 2005-06-23 | 2011-09-07 | Panasonic Corporation | Audio encoding apparatus, audio decoding apparatus and audio encoding information transmitting apparatus |
EP2015293A1 (en) * | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
-
2008
- 2008-08-25 WO PCT/SE2008/050959 patent/WO2009029032A2/en active Application Filing
- 2008-08-25 ES ES19175094T patent/ES2823560T3/es active Active
- 2008-08-25 ES ES17194762T patent/ES2748843T3/es active Active
- 2008-08-25 PT PT191750942T patent/PT3550564T/pt unknown
- 2008-08-25 MX MX2010001763A patent/MX2010001763A/es active IP Right Grant
- 2008-08-25 ES ES08828335.3T patent/ES2658942T3/es active Active
- 2008-08-25 EP EP19175094.2A patent/EP3550564B1/en active Active
- 2008-08-25 CA CA2698039A patent/CA2698039C/en active Active
- 2008-08-25 EP EP17194762.5A patent/EP3288028B1/en active Active
- 2008-08-25 JP JP2010522865A patent/JP5140730B2/ja active Active
- 2008-08-25 EP EP08828335.3A patent/EP2186088B1/en active Active
- 2008-08-25 DK DK17194762.5T patent/DK3288028T3/da active
- 2008-08-25 CN CN201310553487.1A patent/CN103594090B/zh active Active
- 2008-08-25 DK DK08828335.3T patent/DK2186088T3/en active
- 2008-08-25 CN CN2008801048320A patent/CN101878504B/zh active Active
- 2008-08-25 US US12/675,461 patent/US8392202B2/en active Active
- 2008-08-25 BR BRPI0816136-4A patent/BRPI0816136B1/pt active IP Right Grant
-
2013
- 2013-02-05 US US13/759,748 patent/US8706511B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3550564B1 (en) | 2020-07-22 |
CN103594090A (zh) | 2014-02-19 |
DK3288028T3 (da) | 2019-09-02 |
WO2009029032A2 (en) | 2009-03-05 |
JP2010538314A (ja) | 2010-12-09 |
MX2010001763A (es) | 2010-03-10 |
EP2186088A4 (en) | 2015-05-06 |
CA2698039A1 (en) | 2009-03-05 |
WO2009029032A3 (en) | 2009-04-23 |
CA2698039C (en) | 2016-05-17 |
EP3288028B1 (en) | 2019-07-03 |
PT3550564T (pt) | 2020-08-18 |
EP3550564A1 (en) | 2019-10-09 |
ES2823560T3 (es) | 2021-05-07 |
ES2748843T3 (es) | 2020-03-18 |
JP5140730B2 (ja) | 2013-02-13 |
BRPI0816136A2 (pt) | 2015-02-24 |
US8392202B2 (en) | 2013-03-05 |
CN103594090B (zh) | 2017-10-10 |
DK2186088T3 (en) | 2018-01-15 |
CN101878504A (zh) | 2010-11-03 |
US20100250265A1 (en) | 2010-09-30 |
EP2186088B1 (en) | 2017-11-15 |
US8706511B2 (en) | 2014-04-22 |
EP3288028A1 (en) | 2018-02-28 |
EP2186088A2 (en) | 2010-05-19 |
CN101878504B (zh) | 2013-12-04 |
US20130246074A1 (en) | 2013-09-19 |
BRPI0816136B1 (pt) | 2020-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2658942T3 (es) | Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable | |
ES2825032T3 (es) | Cancelación de solapamiento de dominio de tiempo directo con aplicación en dominio de señal original o ponderado | |
ES2950286T3 (es) | Decodificador para decodificar una señal de audio codificada y codificador para codificar una señal de audio | |
ES2354743T3 (es) | Dispositivo y método para el procesamiento posterior de valores espectrales y codificador y decodificador para señales de audio. | |
ES2273268T3 (es) | Dispositivo y procedimiento para convertir en una representacion transformada o para convertir de manera inversa la representacion transformada. | |
BR112012009249B1 (pt) | Aparelho e método para gerar um sinal de áudio de alta frequência usando sobreamostragem conformável | |
ES2526774T3 (es) | Procesador de señal y procedimiento para procesar una señal | |
US20110087494A1 (en) | Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme | |
ES2400987T3 (es) | Atenuación de pre-ecos en una señal de audio digital | |
ES2666719T3 (es) | Codificación/decodificación por transformada, con ventanas adaptativas | |
ES2650747T3 (es) | Codificación de audio de dominio de frecuencia que soporta conmutación de longitud de transformada | |
ES2826324T3 (es) | Transposición armónica mejorada | |
US20230360657A1 (en) | Downscaled decoding | |
ES2360898T3 (es) | Codificación por transformada, utilizando ventanas de ponderación y con retardo pequeño. | |
Thiagarajan et al. | MDCT | |
Thiagarajan et al. | Decoder |