ES2658942T3 - Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable - Google Patents

Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable Download PDF

Info

Publication number
ES2658942T3
ES2658942T3 ES08828335.3T ES08828335T ES2658942T3 ES 2658942 T3 ES2658942 T3 ES 2658942T3 ES 08828335 T ES08828335 T ES 08828335T ES 2658942 T3 ES2658942 T3 ES 2658942T3
Authority
ES
Spain
Prior art keywords
time domain
frame
time
segments
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES08828335.3T
Other languages
English (en)
Inventor
Anisse Taleb
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2658942T3 publication Critical patent/ES2658942T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

Un procedimiento para procesamiento de señal que actúa sobre tramas solapadas de una señal de audio en el dominio de tiempo, comprendiendo dicho procedimiento las etapas de: - llevar a cabo (S2) un repliegue en el dominio de tiempo (TDA) en base a una trama solapada, que tiene una longitud de 2N, para generar una correspondiente trama replegada en el dominio de tiempo (x) con una longitud N; dicho procedimiento, caracterizado por: - reordenar (13) la trama replegada en el dominio de tiempo (x) para generar una trama replegada en el dominio de tiempo reordenada (v); - llevar a cabo (S4) segmentación en tiempo, que comprende relleno de ceros de la trama replegada en el dominio de tiempo reordenada (v) de longitud N para producir una trama que tiene una longitud mayor que N, y dividir a continuación la trama producida resultante por lo menos en dos segmentos solapados que tienen cada uno una longitud igual o menor que N; y - llevar a cabo (S5) análisis espectral en base a dichos por lo menos dos segmentos solapados aplicando, en cada uno de dichos por lo menos dos segmentos solapados, una transformada de coseno discreta modificada (MDCT) al segmento para obtener, para cada segmento, un conjunto correspondiente de coeficientes representativos del contenido de frecuencias del segmento.

Description

imagen1
imagen2
imagen3
imagen4
imagen5
10
15
20
25
30
35
40
de salida de la transformada inversa yn. En principio, xn y yn podrían utilizar ventanas diferentes, pero por simplicidad se considera solamente el caso de ventanas idénticas.
Existen varias ventanas ortogonales y bi-ortogonales de propósito general. En el caso ortogonal, las condiciones de reconstrucción perfecta (PR) generalizadas se pueden reducir a restricciones Nyquist y de fase lineal sobre la ventana, es decir:
imagen6
Cualquier ventana que satisfaga las condiciones de reconstrucción perfecta (PR) puede ser utilizada para generar el banco de filtros. Sin embargo, para obtener una alta ganancia de codificación, la respuesta de frecuencia resultante del banco de filtros debería ser lo más selectiva posible.
La referencia [2] designa mediante MLT (Modulated Lapped Transform, transformada traslapada modulada) el banco de filtros MDCT que hace uso de la ventana seno, que se define como:
imagen7
Esta ventana particular, la denominada ventana seno, es la más popular en codificación de audio. Aparece, por ejemplo, en el banco de filtros híbridos MPEG-1 capa III (MP3), así como en MPEG-2/4 AAC.
Una de las propiedades atractivas que ha contribuido a la utilización generalizada de la MDCT para codificación de audio es la disponibilidad de algoritmos rápidos basados en FFT. Esto hace de la MDCT un banco de filtros viable para implementaciones en tiempo real.
Es bien sabido que la MDCT con una longitud de ventana de 2N se puede descomponer en dos fases en cascada. La primera fase consiste en la operación de repliegue en el dominio de tiempo (TDA) seguida por una segunda fase basada en la DCT de tipo IV, tal como se muestra en la figura 5.
La operación TDA está dada explícitamente por la siguiente operación matricial:
imagen8
donde xw indica la trama de entrada en el dominio de tiempo en ventana:
imagen9
las matrices IN y JN designan la identidad y las matrices de inversión temporal de orden N.
imagen10
Un primer aspecto de la invención se refiere al procesamiento de señal que actúa sobre tramas solapadas de una señal de entrada. Un concepto clave es utilizar una trama replegada en el dominio de tiempo como base para la segmentación en tiempo y el análisis espectral, y llevar a cabo la segmentación en tiempo en base a la trama replegada en el dominio de tiempo y el análisis espectral en base a los segmentos de tiempo resultantes. Los segmentos de tiempo, o segmentos para abreviar, se denominan asimismo subtramas. Esto es lo lógico dado que un segmento en una trama se puede denominar una subtrama. Las expresiones "segmento" y "subtrama" se utilizarán, en general, de manera intercambiable a lo largo de la descripción.
La figura 6 es un diagrama de flujo esquemático que muestra un ejemplo de un procedimiento para procesamiento de señal de acuerdo con una realización preferida a modo de ejemplo de la invención. Tal como se indica en la etapa S1, el procedimiento puede involucrar una etapa opcional de pre-procesamiento, tal como se explicará y ejemplificará más adelante. En la etapa S2, se lleva a cabo una operación de repliegue en el dominio de tiempo (TDA) en base a una seleccionada de las tramas solapadas para generar una denominada trama TDA correspondiente que puede, opcionalmente, ser procesada en una o varias fases, tal como se indica en S3, antes de que se lleve a cabo la segmentación en tiempo. En cualquier caso, la segmentación en tiempo se lleva a cabo en base a la trama replegada en el dominio de tiempo (que puede haber sido procesada) para generar por lo menos dos segmentos de tiempo, tal como se indica en la etapa S4. En la etapa S5, se ejecuta el denominado análisis
imagen11
10
15
20
25
30
35
40
45
50
tiempo reconstruida. Se puede hacer referencia, por ejemplo, a las operaciones generales de solapar-sumar de la figura 4B.
Preferentemente, el procesamiento de señal inverso incluye por lo menos una de síntesis de señal y descodificación de audio. El análisis espectral inverso se puede basar en cualquiera de una serie de diferentes transformadas inversas, preferentemente transformadas traslapadas. Por ejemplo, en aplicaciones de descodificación de audio, es beneficioso utilizar la transformada MDCT inversa.
A continuación se explica una visión general más detallada y una explicación de la cadena inversa de operaciones así como implementaciones preferidas.
La figura 8 es un diagrama de bloques esquemático de un dispositivo de acuerdo con otra realización preferida a modo de ejemplo de la invención. Además de los bloques básicos de la figura 7, el dispositivo de la figura 8 incluye además una o varias unidades de procesamiento, tales como la unidad de aplicación de función ventana 11 y la unidad de reordenamiento 13.
En el ejemplo de la figura 8, la unidad opcional de aplicación de la función ventana 11 lleva a cabo la aplicación de la función ventana en base a una de las tramas solapadas para generar una trama en ventana, que se envía a la unidad TDA 12 para el repliegue en el dominio de tiempo. Básicamente, la aplicación de la función ventana se puede llevar a cabo para mejorar las propiedades de selectividad en frecuencias de la transformada. La forma de la ventana se puede optimizar para satisfacer determinados criterios de selectividad en frecuencias, se pueden utilizar diversas técnicas de optimización y estas son bien conocidas por los expertos en la materia.
Para mantener una coherencia temporal completa de la señal de entrada, es beneficioso aplicar un reordenamiento del repliegue en el dominio de tiempo. Por esta razón, puede estar dispuesta una unidad de reordenamiento 13 para reordenar la trama replegada en el dominio de tiempo con el fin de generar una trama replegada en el dominio de tiempo reordenada, que se envía a la unidad de segmentación 14. De este modo, se puede llevar a cabo segmentación en base a la trama replegada en el dominio de tiempo reordenada. El analizador espectral 16 funciona preferentemente sobre los segmentos generados a partir de la unidad de segmentación en tiempo 14 para obtener un análisis espectral segmentado con una resolución temporal superior a la normal.
La figura 9 es un diagrama de bloques esquemático de un dispositivo de acuerdo con otra realización preferida a modo de ejemplo de la invención. El ejemplo de la figura 9 es similar al de la figura 8, excepto en que en la figura 9 se indica explícitamente que la segmentación en tiempo está basada en un conjunto de funciones ventana adecuadas, y que el análisis espectral está basado en la aplicación de transformada sobre segmentos de la trama replegada en el dominio de tiempo reordenada.
En un ejemplo particular, la segmentación involucra añadir relleno de ceros a la trama replegada en el dominio de tiempo reordenada y dividir la señal resultante en segmentos relativamente cortos y preferentemente solapados.
Preferentemente, el análisis espectral se basa en aplicar una transformada traslapada, tal como MDCT o MLT, a cada uno de dichos segmentos solapados.
A continuación se describirá la invención haciendo referencia a otras realizaciones ejemplares y no limitativas.
Tal como se ha mencionado, la invención se basa en el concepto de utilizar la señal replegada en el tiempo (salida de la operación de repliegue en el dominio de tiempo) como una nueva trama de señal en la que se aplica el análisis espectral. Al cambiar la resolución temporal de la transformada que se aplica después del repliegue temporal para obtener el coeficiente (por ejemplo, MDCT), por ejemplo el DCTIV, la invención permite obtener un análisis espectral sobre segmentos de tiempo arbitrarios con muy poca sobrecarga en complejidad, así como instantáneamente, es decir, sin retardo adicional.
Para obtener un análisis de señal con una resolución temporal predeterminada es suficiente aplicar directamente las transformadas ortogonales de longitudes apropiadas preferentemente sobre segmentos solapados de la señal de entrada en ventana, replegada temporalmente.
La salida de cada una de esas transformadas de menor longitud conducirá a un conjunto de coeficientes representativo del contenido de frecuencia de cada segmento en cuestión. El conjunto de coeficientes para todos los segmentos proporcionará instantáneamente un mosaico de tiempo-frecuencia arbitrario de la trama de señal original.
Esta descomposición instantánea puede ser utilizada para atenuar el efecto de pre-eco, por ejemplo en el caso de transitorios, así como para proporcionar una representación eficiente de la señal que permita una codificación eficiente en velocidad binaria, de la trama en cuestión.
Los segmentos solapados de la señal en ventana replegada en tiempo no tienen que tener la misma longitud. Debido a la correspondencia temporal entre segmentos en el dominio replegado en tiempo y el dominio de tiempo normal, el nivel deseado del análisis de resolución temporal determinará el número de segmentos así como la longitud de cada uno de los segmentos sobre los que se lleva a cabo el análisis de frecuencia.
10
15
20
25
30
35
40
45
50
55
La mejor aplicación de la invención es junto con un detector de transitorios y/o en el contexto de codificación mediante medir la ganancia de codificación obtenida para un conjunto dado de segmentaciones en tiempo, incluyendo esto estimaciones de ganancia de codificación tanto en lazo abierto como en lazo cerrado para cada prueba de segmentación en tiempo.
La invención es útil, por ejemplo, junto con el estándar ITU-T G.722.1, y especialmente para el estándar "ITU-T
G.722.1 fullband extension for 20 kHz full-band audio", ahora renombrado el estándar ITU-T G.719, tanto para codificación como para descodificación, tal como se ejemplificará más adelante.
La invención permite una conmutación instantánea de la resolución temporal de la transformada global (por ejemplo, en base a MDCT). Por lo tanto, a diferencia de la conmutación entre ventanas, la invención no requiere ningún retardo.
La invención tiene una complejidad muy baja y no se requiere ningún banco de filtros adicional. La invención utiliza preferentemente la misma transformada que la MDCT, es decir DCT de tipo IV. La invención gestiona de manera eficiente la supresión de artefactos de pre-eco mediante conmutar instantáneamente a una mayor resolución temporal.
La invención permitiría asimismo construir esquemas de codificación de lazo cerrado/abierto basados en segmentaciones en tiempo adaptativas de señal.
Para una mejor comprensión de la invención, se describirán a continuación ejemplos más detallados de operaciones individuales (posiblemente opcionales) de procesamiento de señal así como otros ejemplos de implementaciones globales.
Si existen requisitos estrictos sobre coherencia temporal, se recomienda el denominado reordenamiento.
Reordenamiento TDA
Para mantener la coherencia temporal de la señal de entrada, la salida de la operación de repliegue en el dominio de tiempo tiene que ser reordenada antes de su posterior procesamiento. La operación de ordenamiento es necesaria, sin ordenamiento las funciones base del banco de filtros resultante tendrán respuestas incoherentes en tiempo y frecuencia. Se muestra un ejemplo de operación de reordenamiento en la figura 10, e implica intercambiar las mitades superior e inferior de la señal de salida TDA x̃(n). Este reordenamiento es solamente conceptual y en realidad no hay cálculos involucrados. La invención no se limita al ejemplo mostrado en la figura 10. Por supuesto, se pueden implementar otros tipos de reordenamiento.
Realización simple -mejora de la resolución temporal
Una primera realización simple muestra cómo duplicar la resolución temporal según la presente invención. Por consiguiente, se aplica un análisis de tiempo-frecuencia v(n), para duplicar la resolución temporal, v(n) se divide en dos segmentos preferentemente en solapamiento. Dado que v(n) es una señal limitada en el tiempo, se añade una cantidad de relleno de ceros al comienzo y al final de v(n). Preferentemente, la señal de entrada es una señal en ventana replegada en el tiempo reordenada, de longitud N. La longitud del relleno de ceros depende de la longitud de la señal v(n) y de la cantidad deseada de segmentos, en este caso, dado que se desean dos segmentos solapados, la longitud del relleno de ceros es igual a la cuarta parte de la longitud de v(n) y se añaden al inicio y al final de v(n). Utilizar dicho relleno de ceros conduce a dos segmentos solapados al 50 % de la misma longitud que la longitud de v(n).
Preferentemente, los segmentos solapados resultantes son sometidos a función ventana, tal como se ejemplifica en la figura 11. Se debe observar que aunque la forma de la ventana se puede optimizar hasta cierto punto para la aplicación deseada, ésta tiene que observar los requisitos de reconstrucción perfecta. Esto se puede ver en la figura 11, donde la mitad derecha de la ventana del segundo segmento tiene un valor 1 para la parte que aplica a la señal v(n) y el valor 0 para el relleno de ceros añadido.
Cada uno de los segmentos obtenidos tiene una longitud de exactamente N. Aplicar la MDCT sobre cada segmento conduce a N/2 coeficientes; es decir, un total de N coeficientes, por lo que el banco de filtros resultante está muestreado críticamente, ver la figura 11. Debido a las limitaciones sobre las formas de las ventanas, la operación es invertible y aplicar las operaciones inversas sobre los dos conjuntos de coeficientes MDCT (coeficientes MDCT de los segmentos 1 y 2) conducirá de nuevo a la señal v(n).
Para esta realización, las funciones base del banco de filtros resultantes tienen una localización temporal mejorada pero pierden en la localización en frecuencia, lo que es una consecuencia bien conocida del principio de incertidumbre tiempo-frecuencia.
La figura 12 muestra las dos funciones básicas que están relacionadas con la frecuencia normalizada a 0,25. Claramente, la dispersión temporal se limita bastante, si bien se observa asimismo que existe una propagación de la dispersión temporal que se debe al solapamiento de las dos secciones de la señal replegado en el tiempo. Esta propagación en el dominio de tiempo es una consecuencia de la cancelación del repliegue en el dominio de tiempo y
10
15
20
25
30
35
40
45
50
55
estaría siempre presente. Sin embargo, se puede atenuar mediante una elección adecuada (optimización numérica) de las funciones ventana. La figura 12 muestra asimismo las respuestas de frecuencia. A modo de comparación, las funciones base MDCT originales se muestran en la figura 13, si bien éstas corresponden a un muestreo mucho más estrecho del dominio de frecuencia, y su extensión temporal es mucho mayor. La figura 13 muestra las funciones base originales correspondientes al banco de filtros MLT (MDCT + ventana seno).
Resoluciones temporales superiores
Se puede obtener una mayor resolución temporal dividiendo en más segmentos la señal replegada en tiempo reordenada. Las figuras 14 y 15 muestran cómo se consigue esto para cuatro y ocho segmentos, respectivamente. La figura 14 muestra una resolución temporal superior mediante división en cuatro segmentos, y la figura 15 muestra una resolución temporal superior mediante división en ocho segmentos. Tal como se comprenderá, se puede utilizar cualquier número adecuado de segmentos de tiempo, dependiendo de la resolución temporal deseada.
En general, la unidad de segmentación en tiempo está configurada para generar un número seleccionable de N de segmentos en base a una trama replegada en el dominio de tiempo, donde N es un entero igual o mayor que 2.
Para el caso de cuatro segmentos, la figura 16 muestra una realización de la transformada global resultante. La aplicación de la función ventana sobre una trama de entrada se lleva a cabo en una unidad 11 de aplicación de la función ventana, el repliegue en tiempo se lleva a cabo en una unidad 12 de repliegue en el dominio de tiempo, y el reordenamiento opcional se lleva a cabo en una unidad de reordenamiento 13. A continuación se realiza un análisis espectral segmentado aplicando la post-función ventana sobre cuatro segmentos utilizando unidades de postfunción ventana 14 y transformadas segmentadas mediante las unidades de transformada 16. Preferentemente, la transformada segmentada global se basa en MDCT segmentada, utilizando repliegue temporal y DCTIV para cada segmento.
Mosaico no uniforme en el dominio de tiempo
Con esta invención es posible asimismo obtener segmentaciones en tiempo no uniformes, según el mismo concepto. Existen por lo menos dos posibles maneras de llevar a cabo dicha operación. Un primer procedimiento está basado en una segmentación en tiempo no uniforme de la señal replegada en el tiempo reordenada. De este modo, las ventanas utilizadas para segmentar la señal tienen longitudes diferentes.
Un segundo procedimiento está basado en un enfoque jerárquico. La idea es aplicar en primer lugar segmentación en tiempo gruesa y a continuación volver a aplicar la invención a los segmentos gruesos resultantes hasta que se obtiene el mosaico deseado.
La figura 17 muestra un ejemplo de cómo se puede implementar este segundo procedimiento. Para este ejemplo, en primer lugar la señal se divide en dos segmentos de tiempo según la presente invención; a continuación uno de los segmentos se vuelve a dividir en dos segmentos. Un ejemplo de una transformada adecuada es la transformada MDCT, utilizando repliegue en tiempo y DCTIV para cada segmento considerado.
Funcionamiento con detección de transitorios
La invención puede ser utilizada para atenuar los artefactos de pre-eco y es en este caso donde se asocia mejor con un detector de transitorios, tal como se ejemplifica en la figura 18. Al detectar un transitorio, el detector de transitorios activaría un indicador (IsTransient (es transitorio)). El indicador del detector de transitorios utilizaría a continuación el mecanismo de conmutación 17 para conmutar instantáneamente de un proceso normal de resolución de todas las frecuencias (análisis espectral no segmentado) a una resolución temporal superior (análisis espectral segmentado), tal como se representa en la figura 18. Con esta realización es posible entonces analizar señales transitorias con una resolución temporal mucho más fina, eliminando por lo tanto los molestos artefactos de pre-eco.
Operaciones de codificación en lazo cerrado/lazo cerrado.
La invención se puede utilizar asimismo como un medio para encontrar el mosaico de tiempo-frecuencia óptimo para el análisis de una señal antes de la codificación. Se pueden utilizar dos modos como ejemplo, lazo cerrado y lazo abierto. En un funcionamiento en lazo abierto, un dispositivo externo decidiría el mejor mosaico (en términos de eficiencia de codificación) de tiempo-frecuencia para una trama de señal determinada, y utilizaría la invención para analizar la señal según el mosaico óptimo. En un funcionamiento en lazo cerrado, se utiliza un conjunto de mosaicos predefinidos, se analiza la señal para cada uno de estos mosaicos y ésta se codifica según el mosaico. Para cada mosaico se calcula una medida de la fidelidad. Se selecciona el mosaico que conduce a la mejor fidelidad. El mosaico seleccionado, junto con los coeficientes codificados correspondientes a este mosaico, se transmiten al descodificador.
Tal como se ha mencionado, los principios y conceptos descritos anteriormente para el procedimiento directo permiten a un experto en la materia realizar una cadena inversa de operaciones en un procedimiento inverso.
La figura 19 es un diagrama de bloques que muestra un ejemplo básico de un dispositivo de procesamiento de señal para funcionamiento basado en coeficientes espectrales representativos de una señal en el dominio de tiempo. El
imagen12
10
15
20
25
30
35
40
45
Se puede utilizar un índice de ajuste del nivel de ruido para ajustar el nivel de los coeficientes regenerados. Los coeficientes espectrales no codificados de alta frecuencia son regenerados preferentemente utilizando extensión del ancho de banda.
Los coeficientes espectrales descodificados y los coeficientes espectrales regenerados se mezclan, y conducen a un espectro normalizado. Se aplica la envolvente espectral descodificada, conduciendo un espectro de banda completa descodificado.
Finalmente, se aplica la transformada inversa para recuperar la señal descodificada en el dominio de tiempo. Esto se realiza preferentemente aplicando la transformada de coseno discreta modificada inversa (IMDCT) para modos estacionarios, o bien la inversa de la transformada de mayor resolución temporal para el modo transitorio.
El algoritmo adaptado para extensión de banda completa está basado en tecnología de codificación de transformada adaptativa. Funciona en tramas de 20 ms de audio de entrada y de salida. Debido a que la ventana de transformada (longitud de función base) es de 40 ms y se utiliza un solape del 50 por ciento entre sucesivas tramas de entrada y salida, el tamaño de la memoria tampón anticipada es de 20 ms. Por lo tanto, el retardo algorítmico global es de 40 ms, que es la suma del tamaño de la trama más el tamaño anticipado. Todos los demás retardos adicionales experimentados en la utilización de un códec de banda completa G.722.1 son debidos a retardos computacionales y/o de transmisión de la red.
La figura 22 es un diagrama de bloques esquemático de un ejemplo particular de un transformador inverso y la implementación asociada para segmentación en tiempo inversa y reordenamiento opcional de acuerdo con una realización preferida de la invención. El transformador inverso está basado en DCTimagen13IV en cascada con repliegue
temporal inverso. Cuatro denominados sub-espectros
donde l = 0, 1, 2, 3, son procesados por el transformador inverso, y cada sub-espectro es, en primer lugar, sometido a transformada inversa por medio de un respectivo DCTIV en el dominio replegado del dominio de tiempo, y a continuación sometidos a repliegue temporal inverso, es decir sometidos a repliegue inverso en el dominio de tiempo, para proporcionar una transformada de tipo imagen14
MDCT inversa global para cada sub-espectro. La longitud de la señal resultante
para cada índice de subtrama l es igual al doble de la longitud del espectro de entrada, es decir L/2.
Las señales sometidas a repliegue inverso en el dominio de tiempo resultantes para cada subtrama l son sometidas a función ventana utilizando la misma configuración de ventanas que las del codificador. Las señales en ventana resultantes se suman solapadas. Se debe observar que la ventana para la primera m = 0 y la última m = 3 subtramas es cero. Esto se debe a que se utiliza relleno de ceros en el codificador. Estos dos bordes de trama tienen que ser calculados y en la práctica se desechan. La señal resultante de las operaciones de sumar-solapar de todas las subtramas vq(n) se reordena utilizando la operación inversa llevada a cabo en el codificador, lo que conduce a la señal x̃q(n), n=0,...,L-1.
La salida de la transformada inversa, en modo estacionario o transitorio, es de longitud L. Antes de someter la señal a una función ventana (no mostrada en la figura 22) es primero sometida a repliegue inverso en el dominio de tiempo (ITDA, inverse time domain realiased), conduciendo a una señal de longitud 2L, según:
imagen15
La señal resultante se somete a función ventana para cada trama r, según:
imagen16
donde h(n) es una función ventana.
Finalmente, la señal de banda completa de salida se construye sumando con solapamiento las señales x̃(r)(n) para dos tramas consecutivas:
imagen17
Las realizaciones descritas anteriormente se proporcionan tan solo como ejemplos, y se deberá entender que la presente invención no se limita a las mismas.
Referencias
[1] B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen" Frequenz, páginas 252-256, 1989.
13
imagen18

Claims (1)

  1. imagen1
ES08828335.3T 2007-08-27 2008-08-25 Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable Active ES2658942T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US96812507P 2007-08-27 2007-08-27
US968125P 2007-08-27
PCT/SE2008/050959 WO2009029032A2 (en) 2007-08-27 2008-08-25 Low-complexity spectral analysis/synthesis using selectable time resolution

Publications (1)

Publication Number Publication Date
ES2658942T3 true ES2658942T3 (es) 2018-03-13

Family

ID=40388070

Family Applications (3)

Application Number Title Priority Date Filing Date
ES19175094T Active ES2823560T3 (es) 2007-08-27 2008-08-25 Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable
ES17194762T Active ES2748843T3 (es) 2007-08-27 2008-08-25 Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable
ES08828335.3T Active ES2658942T3 (es) 2007-08-27 2008-08-25 Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES19175094T Active ES2823560T3 (es) 2007-08-27 2008-08-25 Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable
ES17194762T Active ES2748843T3 (es) 2007-08-27 2008-08-25 Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable

Country Status (11)

Country Link
US (2) US8392202B2 (es)
EP (3) EP3550564B1 (es)
JP (1) JP5140730B2 (es)
CN (2) CN103594090B (es)
BR (1) BRPI0816136B1 (es)
CA (1) CA2698039C (es)
DK (2) DK3288028T3 (es)
ES (3) ES2823560T3 (es)
MX (1) MX2010001763A (es)
PT (1) PT3550564T (es)
WO (1) WO2009029032A2 (es)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2526333T3 (es) 2007-08-27 2015-01-09 Telefonaktiebolaget L M Ericsson (Publ) Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda
PT2186090T (pt) 2007-08-27 2017-03-07 ERICSSON TELEFON AB L M (publ) Detetor de transitórios e método para suportar codificação de um sinal de áudio
US8548815B2 (en) * 2007-09-19 2013-10-01 Qualcomm Incorporated Efficient design of MDCT / IMDCT filterbanks for speech and audio coding applications
US9189250B2 (en) * 2008-01-16 2015-11-17 Honeywell International Inc. Method and system for re-invoking displays
ES2906255T3 (es) 2009-01-28 2022-04-13 Dolby Int Ab Transposición armónica mejorada
AU2010209673B2 (en) 2009-01-28 2013-05-16 Dolby International Ab Improved harmonic transposition
JP5433022B2 (ja) 2009-09-18 2014-03-05 ドルビー インターナショナル アーベー 高調波転換
EP2372705A1 (en) * 2010-03-24 2011-10-05 Thomson Licensing Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
CN103282958B (zh) * 2010-10-15 2016-03-30 华为技术有限公司 信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
CN105304090B (zh) 2011-02-14 2019-04-09 弗劳恩霍夫应用研究促进协会 使用对齐的前瞻部分将音频信号编码及解码的装置与方法
TWI480857B (zh) 2011-02-14 2015-04-11 Fraunhofer Ges Forschung 在不活動階段期間利用雜訊合成之音訊編解碼器
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
JP5800915B2 (ja) 2011-02-14 2015-10-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号のトラックのパルス位置の符号化および復号化
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
JP5849106B2 (ja) 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
MX2013009305A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio.
RU2560788C2 (ru) 2011-02-14 2015-08-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для обработки декодированного аудиосигнала в спектральной области
JP2015525374A (ja) * 2012-06-04 2015-09-03 サムスン エレクトロニクス カンパニー リミテッド オーディオ符号化方法及びその装置、オーディオ復号化方法及びその装置、並びにそれを採用するマルチメディア機器
EP2884884A1 (en) 2012-08-16 2015-06-24 École Polytechnique Fédérale de Lausanne (EPFL) Method and apparatus for low complexity spectral analysis of bio-signals
CN108269584B (zh) * 2013-04-05 2022-03-25 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
CN104240697A (zh) * 2013-06-24 2014-12-24 浙江大华技术股份有限公司 一种音频数据的特征提取方法及装置
RU2643662C2 (ru) 2013-08-23 2018-02-02 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для обработки звукового сигнала с использованием комбинирования в диапазоне перекрытия
CN103745726B (zh) * 2013-11-07 2016-08-17 中国电子科技集团公司第四十一研究所 一种自适应的变采样率音频采样方法
CN111312277B (zh) 2014-03-03 2023-08-15 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
EP3128514A4 (en) * 2014-03-24 2017-11-01 Samsung Electronics Co., Ltd. High-band encoding method and device, and high-band decoding method and device
CN106409304B (zh) 2014-06-12 2020-08-25 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
CN112967727A (zh) * 2014-12-09 2021-06-15 杜比国际公司 Mdct域错误掩盖
ES2755489T3 (es) 2015-03-17 2020-04-22 Zynaptiq Gmbh Métodos de extensión de transformadas de frecuencia para resolver características en el dominio espaciotemporal
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
EP3276620A1 (en) * 2016-07-29 2018-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis
JP6486978B2 (ja) * 2017-02-10 2019-03-20 三菱重工業株式会社 積層部材、並びに、これを用いた羽根車、圧縮機及びエンジン
US10699723B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using variable alphabet size
KR102632136B1 (ko) * 2017-04-28 2024-01-31 디티에스, 인코포레이티드 오디오 코더 윈도우 사이즈 및 시간-주파수 변환
CN112255456B (zh) * 2020-12-22 2021-03-16 深圳市鼎阳科技股份有限公司 一种用于频谱分析仪的扫频方法和扫频装置
WO2022177481A1 (en) * 2021-02-18 2022-08-25 Telefonaktiebolaget Lm Ericsson (Publ) Encoding and decoding complex data

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
ATE323377T1 (de) * 1998-05-27 2006-04-15 Microsoft Corp Skalierbarer audiokodierer und dekodierer
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP2000134105A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US6430529B1 (en) * 1999-02-26 2002-08-06 Sony Corporation System and method for efficient time-domain aliasing cancellation
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
JP3753956B2 (ja) * 2001-06-21 2006-03-08 シャープ株式会社 符号化装置
JP3815323B2 (ja) * 2001-12-28 2006-08-30 日本ビクター株式会社 周波数変換ブロック長適応変換装置及びプログラム
US7275036B2 (en) 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
DE10217297A1 (de) * 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
CN1460992A (zh) * 2003-07-01 2003-12-10 北京阜国数字技术有限公司 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
EP1895511B1 (en) * 2005-06-23 2011-09-07 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus and audio encoding information transmitting apparatus
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain

Also Published As

Publication number Publication date
EP3550564B1 (en) 2020-07-22
CN103594090A (zh) 2014-02-19
DK3288028T3 (da) 2019-09-02
WO2009029032A2 (en) 2009-03-05
JP2010538314A (ja) 2010-12-09
MX2010001763A (es) 2010-03-10
EP2186088A4 (en) 2015-05-06
CA2698039A1 (en) 2009-03-05
WO2009029032A3 (en) 2009-04-23
CA2698039C (en) 2016-05-17
EP3288028B1 (en) 2019-07-03
PT3550564T (pt) 2020-08-18
EP3550564A1 (en) 2019-10-09
ES2823560T3 (es) 2021-05-07
ES2748843T3 (es) 2020-03-18
JP5140730B2 (ja) 2013-02-13
BRPI0816136A2 (pt) 2015-02-24
US8392202B2 (en) 2013-03-05
CN103594090B (zh) 2017-10-10
DK2186088T3 (en) 2018-01-15
CN101878504A (zh) 2010-11-03
US20100250265A1 (en) 2010-09-30
EP2186088B1 (en) 2017-11-15
US8706511B2 (en) 2014-04-22
EP3288028A1 (en) 2018-02-28
EP2186088A2 (en) 2010-05-19
CN101878504B (zh) 2013-12-04
US20130246074A1 (en) 2013-09-19
BRPI0816136B1 (pt) 2020-03-03

Similar Documents

Publication Publication Date Title
ES2658942T3 (es) Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable
ES2825032T3 (es) Cancelación de solapamiento de dominio de tiempo directo con aplicación en dominio de señal original o ponderado
ES2950286T3 (es) Decodificador para decodificar una señal de audio codificada y codificador para codificar una señal de audio
ES2354743T3 (es) Dispositivo y método para el procesamiento posterior de valores espectrales y codificador y decodificador para señales de audio.
ES2273268T3 (es) Dispositivo y procedimiento para convertir en una representacion transformada o para convertir de manera inversa la representacion transformada.
BR112012009249B1 (pt) Aparelho e método para gerar um sinal de áudio de alta frequência usando sobreamostragem conformável
ES2526774T3 (es) Procesador de señal y procedimiento para procesar una señal
US20110087494A1 (en) Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
ES2400987T3 (es) Atenuación de pre-ecos en una señal de audio digital
ES2666719T3 (es) Codificación/decodificación por transformada, con ventanas adaptativas
ES2650747T3 (es) Codificación de audio de dominio de frecuencia que soporta conmutación de longitud de transformada
ES2826324T3 (es) Transposición armónica mejorada
US20230360657A1 (en) Downscaled decoding
ES2360898T3 (es) Codificación por transformada, utilizando ventanas de ponderación y con retardo pequeño.
Thiagarajan et al. MDCT
Thiagarajan et al. Decoder