ES2639716T3 - Transposición armónica mejorada - Google Patents

Transposición armónica mejorada Download PDF

Info

Publication number
ES2639716T3
ES2639716T3 ES15176581.5T ES15176581T ES2639716T3 ES 2639716 T3 ES2639716 T3 ES 2639716T3 ES 15176581 T ES15176581 T ES 15176581T ES 2639716 T3 ES2639716 T3 ES 2639716T3
Authority
ES
Spain
Prior art keywords
analysis
synthesis
transposition
signal
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES15176581.5T
Other languages
English (en)
Inventor
Per Ekstrand
Lars Falck Villemoes
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2639716T3 publication Critical patent/ES2639716T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Abstract

Un sistema para transponer una señal de audio de entrada (312) según un factor de transposición T, comprendiendo el sistema: - medios (601, 602) para extraer una trama de L muestras de dominio de tiempo de la señal de entrada (312) usando una ventana de análisis (311) que tiene la función - medios (603) para transformar las L muestras de dominio de tiempo en M coeficientes complejos de dominio de frecuencia; - una unidad de procesamiento no lineal (604) para modificar una fase de los coeficientes complejos de dominio de frecuencia usando el factor de transposición T; - medios (605) para transformar los M coeficientes complejos modificados de dominio de frecuencia en M muestras modificadas de dominio de tiempo; y - medios (606) para generar una trama de L muestras de salida de dominio de tiempo a partir de las M muestras modificadas de dominio de tiempo usando una ventana de síntesis (321); donde M>=F*L, siendo F mayor que o igual a (T+1)/2.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Transposicion armonica mejorada Campo tecnico
La presente invencion se refiere a la transposicion de senales en frecuencia y/o al estiramiento/compresion de una senal en el tiempo y, en particular, a la codificacion de senales de audio. Dicho de otro modo, la presente invencion se refiere a una modificacion en la escala de tiempo y/o en la escala de frecuencia. Mas en particular, la presente invencion se refiere a procedimientos de reconstruccion de altas frecuencias (HFR), incluido un reemisor armonico de dominio de frecuencia.
Antecedentes de la invencion
Las tecnologfas HFR, tales como la tecnologfa de replicacion de banda espectral (SBR), permiten mejorar significativamente la eficiencia de codificacion de los codecs de audio perceptuales tradicionales. En combinacion con la codificacion de audio avanzada (AAC) de MPEG-4, la tecnologfa HFR crea un codec de audio muy eficiente, que ya se usa en el sistema de Radio por Satelite XM y en la Radio Digital Mundial, y tambien normalizado en el 3GPP, el Forum DVD, y otros. La combinacion de AAC y SBR se denomina aacPlus. Es parte de la norma MPEG-4, en la que se denomina perfil AAC de alta eficiencia (HE-AAC). En general, la tecnologfa HFR puede combinarse con cualquier codec de audio perceptual de manera compatible con versiones anteriores y nuevas, ofreciendo asf la posibilidad de actualizar sistemas de difusion ya establecidos, como la Capa 2 de MPEG usada en el sistema Eureka DAB. Los procedimientos de transposicion HFR tambien pueden combinarse con codecs de voz para permitir voz de banda ancha a velocidades binarias ultrabajas.
La idea basica subyacente en la HRF es la observacion de que, normalmente, hay una estrecha correlacion entre las caractensticas de la gama de altas frecuencias de una senal y las caractensticas de la gama de bajas frecuencias de la misma senal. Por tanto, una buena aproximacion para la representacion de la gama de altas frecuencias de entrada original de una senal puede conseguirse mediante una transposicion de senal desde la gama de bajas frecuencias a la gama de altas frecuencias.
Este concepto de transposicion se establecio en el documento WO 98/57436 como un procedimiento para recrear una banda de altas frecuencias a partir de una banda de frecuencias mas bajas de una senal de audio. Puede lograrse un ahorro sustancial en la velocidad binaria usando este concepto de codificacion de audio y/o codificacion de voz. A continuacion se hara referencia a la codificacion de audio, pero debe apreciarse que los procedimientos y sistemas descritos pueden aplicarse igualmente a la codificacion de voz y a la codificacion de voz y audio unificada (USAC).
En un sistema de codificacion de audio basado en HFR, una senal de bajo ancho de banda se presenta a un codificador de forma de onda central para su codificacion, y frecuencias mas altas se regeneran en el lado del descodificador usando la transposicion de la senal de bajo ancho de banda e informacion lateral adicional, que se codifica normalmente a velocidades binarias muy bajas y que describe la forma espectral objetivo. Para velocidades binarias bajas, donde el ancho de banda de la senal codificada central es estrecho, cada vez es mas importante reproducir o sintetizar una banda alta, es decir, la gama de altas frecuencias de la senal de audio, con caractensticas perceptivamente agradables.
En la tecnica anterior hay varios procedimientos para la reconstruccion de altas frecuencias que usan, por ejemplo, transposicion armonica o estiramiento de tiempo. Un procedimiento esta basado en vocodificadores de fase que funcionan segun el principio de llevar a cabo un analisis de frecuencia con una resolucion de frecuencias suficientemente altas. Una modificacion de senal se lleva a cabo en el dominio de frecuencia antes de volver a sintetizar la senal. La modificacion de senales puede ser una operacion de estiramiento en el tiempo o de transposicion.
Uno de los problemas subyacentes que existen con estos procedimientos son las contradictorias restricciones de una resolucion de alta frecuencia prevista con el fin de conseguir una transposicion de alta calidad para sonidos estacionarios y la respuesta de tiempo del sistema para sonidos transitorios o percutivos. Dicho de otro modo, mientras que el uso de una resolucion de alta frecuencia es beneficioso para la transposicion de senales estacionarias, tal resolucion de alta frecuencia requiere normalmente grandes tamanos de ventana, los cuales son perjudiciales cuando se tratan partes transitorias de una senal. Un enfoque para abordar este problema puede ser cambiar de manera adaptativa las ventanas del reemisor, por ejemplo usando conmutacion de ventanas, en funcion de las caractensticas de las senales de entrada. Normalmente, ventanas largas se usaran para partes estacionarias de una senal, con el fin de conseguir una resolucion de alta frecuencia, mientras que ventanas cortas se usaran para partes transitorias de la senal, con el fin de implementar una buena respuesta transitoria, es decir, una buena resolucion temporal, del reemisor. Sin embargo, este enfoque tiene la desventaja de que es necesario incorporar medidas de analisis de senales, tales como la deteccion de transitorios o similares, en el sistema de transposicion. Tales medidas de analisis de senales implican con frecuencia una etapa de decision, por ejemplo una decision
5
10
15
20
25
30
35
40
45
50
55
60
65
acerca de la presencia de un transitorio, que activa la conmutacion del procesamiento de senales. Ademas, tales medidas afectan normalmente a la fiabilidad del sistema y pueden introducir artefactos de senal cuando conmuta el procesamiento de senales, por ejemplo cuando se conmuta entre tamanos de ventana.
La presente invencion soluciona los problemas antes mencionados relativos al rendimiento transitorio de la transposicion armonica sin necesidad de conmutar ventanas. Ademas, la transposicion armonica mejorada se consigue con una baja complejidad adicional.
Resumen de la invencion
La presente invencion se refiere al problema del rendimiento transitorio mejorado para una transposicion armonica, asf como a diversas mejoras en procedimientos conocidos de transposicion armonica. Ademas, la presente invencion indica como la complejidad adicional puede ser minima a la vez que se consiguen las mejoras propuestas. La invencion esta especificada en las reivindicaciones independientes. Formas de realizacion adicionales se describen en las reivindicaciones dependientes.
Entre otras cosas, la presente invencion puede comprender al menos uno de los siguientes aspectos:
• sobremuestrear en frecuencia mediante un factor en funcion del factor de transposicion del punto de funcionamiento del reemisor;
• elegir de manera apropiada la combinacion de ventanas de analisis y smtesis; y
• garantizar una alineacion de tiempo de diferentes senales transpuestas para los casos en que tales senales estan combinadas.
Segun un aspecto de la invencion, se describe un sistema para generar una senal de salida transpuesta a partir de una senal de entrada usando un factor de transposicion T. La senal de salida transpuesta puede ser una version estirada en el tiempo y/o desplazada en frecuencia de la senal de entrada. Con respecto a la senal de entrada, la senal de salida transpuesta puede estirarse en el tiempo mediante el factor de transposicion T. Como alternativa, las componentes de frecuencia de la senal de salida transpuesta puede desplazarse de manera ascendente mediante el factor de transposicion T.
El sistema puede comprender una ventana de analisis de longitud L que extrae L muestras de la senal de entrada. Normalmente, las L muestras de las senales de entrada son muestras de la senal de entrada, por ejemplo, una senal de audio, en el dominio de tiempo. Las L muestras extrafdas se denominan trama de la senal de entrada. El sistema comprende ademas una unidad de transformacion de analisis de orden M = F*L que transforma las L muestras de dominio de tiempo en M coeficientes complejos, donde F es un factor de sobremuestreo de frecuencia. Los M coeficientes complejos son normalmente coeficientes en el dominio de frecuencia. La transformacion de analisis puede ser una transformada de Fourier, una transformada rapida de Fourier, una transformada discreta de Fourier, una transformada de ondmulas o una etapa de analisis de un banco de filtros (posiblemente modulado). El factor de sobremuestreo F esta basado en o es una funcion del factor de transposicion T.
La operacion de sobremuestreo tambien puede denominarse relleno con ceros de la ventana de analisis mediante (F-1)*L ceros adicionales. Tambien puede considerarse como la eleccion de un tamano de una transformacion de analisis M que es mayor que el tamano de la ventana de analisis en un factor F.
El sistema puede comprender ademas una unidad de procesamiento no lineal que modifica la fase de los coeficientes complejos usando el factor de transposicion T. La modificacion de la fase puede comprender multiplicar la fase de los coeficientes complejos por el factor de transposicion T. Ademas, el sistema puede comprender una unidad de transformacion de smtesis de orden M que transforma los coeficientes modificados en M muestras modificadas y una ventana de smtesis de longitud L para generar la senal de salida. La transformada de smtesis puede ser una transformada de Fourier inversa, una transformada rapida de Fourier inversa, una transformada discreta de Fourier inversa, una transformada de ondmulas inversa o una etapa de smtesis de un banco de filtros (posiblemente) modulado. Normalmente, la transformada de analisis y la transformada de smtesis estan relacionadas entre sf, por ejemplo para conseguir una reconstruccion perfecta de una senal de entrada cuando el factor de transposicion T es igual a 1.
Segun otro aspecto de la invencion, el factor de sobremuestreo F es proporcional al factor de transposicion T. En particular, el factor de sobremuestreo F puede ser mayor que o igual a (T+1)/2. Esta seleccion del factor de sobremuestreo F garantiza que artefactos de senal no deseados, por ejemplo, ecos previos y posteriores, que pueden haberse generado por la transposicion, sean rechazados por la ventana de smtesis.
Debe observarse que, en terminos mas generales, la longitud de la ventana de analisis puede ser La y la longitud de la ventana de smtesis puede ser Ls. Ademas, en tales casos, puede ser beneficioso seleccionar el orden de la unidad de transformacion M segun el orden de transposicion T, es decir, como una funcion del orden de transposicion T. Ademas, puede ser beneficioso seleccionar M de modo que sea mayor que la longitud media de la
5
10
15
20
25
30
35
40
45
50
55
60
ventana de analisis y de la ventana de smtesis, es decir, mayor que (La+Ls)/2. En una forma de realizacion, la diferencia entre el orden de la unidad de transformacion M y la longitud de ventana media es proporcional a (T-1). En una forma de realizacion adicional, M se selecciona de modo que sea mayor que o igual a (TLa+Ls)/2. Debe observarse que el caso en que la longitud de la ventana de analisis y de la ventana de smtesis es igual, es decir, La=Ls=L, es un caso especial del caso generico anterior. En lo que respecta al caso generico, el factor de sobremuestreo F puede ser
imagen1
El sistema puede comprender ademas una unidad de avance de analisis que desplaza la ventana de analisis en un avance de analisis de Sa muestras a lo largo de la senal de entrada. Como resultado de la unidad de avance de analisis se genera una sucesion de tramas de la senal de entrada. Ademas, el sistema puede comprender una unidad de avance de smtesis que desplaza la ventana de smtesis y/o tramas sucesivas de la senal de salida en un avance de smtesis de Ss muestras. Como resultado, se genera una sucesion de tramas desplazadas de la senal de salida que puede solaparse y sumarse en una unidad de solapamiento y suma.
Dicho de otro modo, la ventana de analisis puede extraer o aislar L, o de manera mas generica La, muestras de la senal de entrada, por ejemplo multiplicando un conjunto de L muestras de la senal de entrada por coeficientes de ventana distintos de cero. Tal conjunto de L muestras puede denominarse trama de senal de entrada o trama de la senal de entrada. La unidad de avance de analisis desplaza la ventana de analisis a lo largo de la senal de entrada y, por lo tanto, selecciona una trama diferente de la senal de entrada, es decir, genera una secuencia de tramas de la senal de entrada. La distancia de las muestras entre tramas sucesivas viene dada por el avance de analisis. De manera similar, la unidad de avance de smtesis desplaza la ventana de smtesis y/o las tramas de la senal de salida, es decir, genera una secuencia de tramas desplazadas de la senal de salida. La distancia de las muestras entre tramas sucesivas de la senal de salida viene dada por el avance de smtesis. La senal de salida puede determinarse solapando la secuencia de tramas de la senal de salida y sumando valores de muestra que coinciden en el tiempo.
Segun un aspecto adicional de la invencion, el avance de smtesis es T veces el avance de analisis. En tales casos, la senal de salida corresponde a la senal de entrada estirada en el tiempo mediante el factor de transposicion T. Dicho de otro modo, al seleccionar que el avance de smtesis sea T veces mayor que el avance de analisis, puede obtenerse un desplazamiento de tiempo o estiramiento de tiempo de la senal de salida con respecto a la senal de entrada. Este desplazamiento de tiempo es de orden T.
Dicho de otro modo, el sistema antes mencionado puede describirse de la siguiente manera: Usando una unidad de ventana de analisis, una unidad de transformacion de analisis y una unidad de avance de analisis con un avance de analisis Sa, una serie o secuencia de conjuntos de M coeficientes complejos puede determinarse a partir de una senal de entrada. El avance de analisis define el numero de muestras por la que la ventana de analisis se desplaza a lo largo de la senal de entrada. Puesto que el tiempo transcurrido entre dos muestras sucesivas viene dado por la velocidad de muestreo, el avance de analisis tambien define el tiempo transcurrido entre dos tramas de la senal de entrada. En consecuencia, tambien el tiempo transcurrido entre dos conjuntos sucesivos de M coeficientes complejos viene dado por el avance de analisis Sa.
Tras pasar por la unidad de procesamiento no lineal en la que la fase de los coeficientes complejos puede modificarse, por ejemplo multiplicandose por el factor de transposicion T, la serie o secuencia de conjuntos de M coeficientes complejos puede volverse a convertir al dominio de tiempo. Cada conjunto de M coeficientes complejos modificados puede transformarse en M muestras modificadas usando la unidad de transformacion de smtesis. En una operacion de solapamiento y suma subsiguiente que implica a la unidad de ventana de smtesis y la unidad de avance de smtesis con un avance de smtesis Ss, la serie de conjuntos de M muestras modificadas puede solaparse y sumarse para formar la senal de salida. En esta operacion de solapamiento y suma, conjuntos sucesivos de M muestras modificadas pueden desplazarse Ss muestras entre sf antes de que puedan multiplicarse por la ventana de smtesis y posteriormente sumarse para proporcionar la senal de salida. Por consiguiente, si el avance de smtesis Ss es T veces el avance de analisis Sa, la senal puede estirarse en el tiempo conforme a un factor T.
Segun un aspecto adicional de la invencion, la ventana de smtesis se obtiene a partir de la ventana de analisis y el avance de smtesis. En particular, la ventana de smtesis puede venir dada por la formula:
vs(«) = vjn)
f ,r- \->
~ k -At)f
\k- x J
donde vs (n) es la ventana de smtesis, Va(n) es la ventana de analisis y At es el avance de smtesis Ss. La ventana de analisis y/o smtesis puede ser una de entre una ventana gaussiana, una ventana de coseno, una ventana de Hamming, una ventana de Hann, una ventana rectangular, una ventana de Bartlett, una ventana de Blackman y una
5
10
15
20
25
30
35
40
45
50
55
60
v(n) = sin — {n + 0.5) 1,0 <n<L,
ventana que tiene la funcion ) donde en el caso de diferentes longitudes de la
ventana de analisis y la ventana de smtesis, L puede ser La o Ls, respectivamente.
Segun otro aspecto de la invencion, el sistema comprende ademas una unidad de contraccion que lleva a cabo, por ejemplo, una conversion de velocidad de la senal de salida segun el orden de transposicion T, obteniendose as^ una senal de salida transpuesta. Seleccionando que el avance de smtesis sea T veces el avance de analisis, puede obtenerse una senal de salida estirada en el tiempo como se ha descrito anteriormente. Si la velocidad de muestreo de la senal estirada en el tiempo aumenta en un factor T, o si la senal estirada en el tiempo se submuestrea en un factor T, puede generarse una senal de salida transpuesta que corresponde a la senal de entrada, desplazada en frecuencia segun el factor de transposicion T. La operacion de submuestreo puede comprender la etapa de seleccionar solamente un subconjunto de muestras de la senal de salida. Normalmente, solo se conserva cada T- esima muestra de la senal de salida. Como alternativa, la velocidad de muestreo puede aumentar en un factor T, es decir, se interpreta que la velocidad de muestreo es T veces mayor. Dicho de otro modo, el remuestreo o la conversion de la velocidad de muestreo significa que la velocidad de muestreo ha cambiado, o bien a un valor superior o un valor inferior. Submuestreo significa una conversion de velocidad a un valor inferior.
Segun un aspecto adicional de la invencion, el sistema puede generar una segunda senal de salida a partir de la senal de entrada. El sistema puede comprender una segunda unidad de procesamiento no lineal que modifica la fase de los coeficientes complejos usando un segundo factor de transposicion T2 y una segunda unidad de avance de smtesis que desplaza la ventana de smtesis y/o las tramas de la segunda senal de salida conforme un segundo avance de smtesis. Modificar la fase puede comprender multiplicar la fase por un factor T2. Las tramas de la segunda senal de salida pueden generarse a partir de una trama de la senal de entrada modificando la fase de los coeficientes complejos usando el segundo factor de transposicion y transformando los segundos coeficientes modificados en M segundas muestras modificadas y aplicando la ventana de smtesis. La segunda senal de salida puede generarse en la senal de solapamiento y suma aplicando el segundo avance de smtesis a la secuencia de tramas de la segunda senal de salida.
La segunda senal de salida puede contraerse en una segunda unidad de contraccion que lleva a cabo, por ejemplo, una conversion de velocidad de la segunda senal de salida mediante el segundo orden de transposicion T2. Esto proporciona una segunda senal de salida transpuesta. En resumen, una primera senal de salida transpuesta puede generarse usando el primer factor de transposicion T y una segunda senal de salida transpuesta puede generarse usando el segundo factor de transposicion T2. Estas dos senales de salida transpuestas pueden fusionarse despues en una unidad de combinacion para proporcionar la senal de salida transpuesta global. La operacion de fusion puede comprender sumar las dos senales de salida transpuestas. Tal generacion y combinacion de una pluralidad de senales de salida transpuestas puede ser beneficiosa para obtener buenas aproximaciones de la componente de senal de alta frecuencia que va a sintetizarse. Debe observarse que cualquier numero de senales de salida transpuestas puede generarse usando una pluralidad de ordenes de transposicion. Esta pluralidad de senales de salida transpuestas puede fusionarse despues, por ejemplo sumarse, en una unidad de combinacion para proporcionar una senal de salida transpuesta global.
Puede ser beneficioso que la unidad de combinacion pondere la primera y la segunda senal de salida transpuestas antes de su fusion. La ponderacion puede llevarse a cabo de manera que la energfa o la energfa por ancho de banda de la primera y la segunda senal de salida transpuestas corresponda a la energfa o energfa por ancho de banda de la senal de entrada, respectivamente.
Segun un aspecto adicional de la invencion, el sistema puede comprender una unidad de alineamiento que aplica un desfase de tiempo a la primera y la segunda senal de salida transpuestas antes de que se introduzcan en la unidad de combinacion. Tal desfase de tiempo puede comprender el desplazamiento de las dos senales de salida transpuestas entre si en el dominio de tiempo. El desfase de tiempo puede depender del orden de transposicion y/o de la longitud de las ventanas. En particular, el desfase de tiempo puede determinarse como
(T - 2) L 4 '
Segun otro aspecto de la invencion, el sistema de transposicion antes descrito puede incluirse en un sistema que descodifica una senal multimedia recibida que comprende una senal de audio. El sistema de descodificacion puede comprender una unidad de transposicion que corresponde al sistema antes descrito, donde la senal de entrada es normalmente una componente de baja frecuencia de la senal de audio y la senal de salida es una componente de alta frecuencia de la senal de audio. Dicho de otro modo, la senal de entrada es normalmente una senal paso bajo con un determinado ancho de banda, y la senal de salida es una senal paso banda de normalmente un ancho de banda mayor. Ademas, puede comprender un descodificador central para descodificar la componente de baja frecuencia de la senal de audio a partir del flujo de bits recibido. Tal descodificador central puede basarse en un esquema de codificacion tal como Dolby E, Dolby Digital o AAC. En particular, tal sistema de descodificacion puede
5
10
15
20
25
30
35
40
45
50
55
60
ser un descodificador que descodifica una senal multimedia recibida que comprende una senal de audio y otras senales, por ejemplo de v^deo.
Debe observarse que la presente invencion tambien describe un procedimiento para transponer una senal de entrada segun un factor de transposicion T. El procedimiento corresponde al sistema antes descrito y puede comprender cualquier combinacion de los aspectos antes mencionados. Puede comprender las etapas de extraer muestras de la senal de entrada usando una ventana de analisis de longitud L, y de seleccionar un factor de sobremuestreo F en funcion del factor de transposicion T. Puede comprender ademas las etapas de transformar las L muestras desde el dominio de tiempo al domino de frecuencia, proporcionando F*L coeficientes complejos, y de modificar la fase de los coeficientes complejos con el factor de transposicion T. En etapas adicionales, el procedimiento puede transformar los F * L coeficientes complejos modificados al dominio de tiempo, proporcionando F * L muestras modificadas, y puede generar la senal de salida usando una ventana de smtesis de longitud L. Debe observarse que el procedimiento tambien puede estar adaptado a longitudes generales de la ventana de analisis y smtesis, es decir, a La and Lsgenericas, como se ha indicado anteriormente.
Segun un aspecto adicional de la invencion, el procedimiento puede comprender las etapas de desplazar la ventana de analisis segun un avance de analisis de Sa muestras a lo largo de la senal de entrada, y/o de desplazar la ventana de smtesis y/o las tramas de la senal de salida segun un avance de smtesis de Ss muestras. La senal de salida puede estirarse en el tiempo con respecto a la senal de entrada segun un factor T seleccionando que el avance de smtesis sea T veces el avance de analisis. Cuando se ejecuta una etapa adicional que lleva a cabo una conversion de velocidad de la senal de salida segun el orden de transposicion T, puede obtenerse una senal de salida transpuesta. Tal senal de salida transpuesta puede comprender componentes de frecuencia que se han desplazado de manera ascendente segun un factor T con respecto a las componentes de frecuencia correspondientes de la senal de entrada.
El procedimiento puede comprender ademas etapas para generar una segunda senal de salida. Esto puede implementarse modificando la fase de los coeficientes complejos usando un segundo factor de transposicion T 2; desplazando la ventana de smtesis y/o las tramas de la segunda senal de salida segun un segundo avance de smtesis puede generarse una segunda senal de salida usando el segundo factor de transposicion T2 y el segundo avance de smtesis. Una segunda senal de salida transpuesta puede generarse realizando una conversion de velocidad de la segunda senal de salida segun el segundo orden de transposicion T2. Finalmente, fusionando la primera y la segunda senal de salida transpuestas puede obtenerse una senal de salida fusionada o transpuesta global que incluye componentes de senal de alta frecuencia generadas mediante dos o mas transposiciones con diferentes factores de transposicion.
Segun otros aspectos de la invencion, la invencion describe un programa de software adaptado para ejecutarse en un procesador y para realizar las etapas de procedimiento de la presente invencion cuando se lleva a cabo en un dispositivo informatico. La invencion describe ademas un medio de almacenamiento que comprende un programa de software adaptado para ejecutarse en un procesador y para realizar las etapas de procedimiento de la invencion cuando se lleva a cabo en un dispositivo informatico. Ademas, la invencion describe un producto de programa informatico que comprende instrucciones ejecutables para llevar a cabo el procedimiento de la invencion cuando se ejecutan en un ordenador.
Segun un aspecto adicional, se describe otro procedimiento y sistema para transponer una senal de entrada segun un factor de transposicion T. Este procedimiento y sistema puede usarse de manera autonoma o en combinacion con los procedimientos y sistemas antes descritos. Cualquiera de las caractensticas descritas en el presente documento puede aplicarse a este procedimiento/sistema y viceversa.
El procedimiento puede comprender la etapa de extraer una trama de muestras de la senal de entrada usando una ventana de analisis de longitud L. Despues, la trama de la senal de entrada puede transformarse desde el dominio de tiempo al dominio de frecuencia proporcionando M coeficientes complejos. La fase de los coeficientes complejos puede modificarse con el factor de transposicion T, y los M coeficientes complejos modificados pueden transformarse al dominio de tiempo proporcionando M muestras modificadas. Finalmente, una trama de una senal de salida puede generarse usando una ventana de smtesis de longitud L. El procedimiento y sistema puede usar una ventana de analisis y una ventana de smtesis que son diferentes entre sf. La ventana de analisis y la ventana de smtesis pueden ser diferentes en cuanto a su forma, su longitud, el numero de coeficientes que definen las ventanas y/o los valores de los coeficientes que definen las ventanas. De este modo pueden obtenerse grados de libertad adicionales en la seleccion de las ventanas de analisis y de smtesis, de modo puede reducirse o eliminarse el solapamiento de la senal de salida transpuesta.
Segun otro aspecto, la ventana de analisis y la ventana de smtesis son biortogonales entre sf. La ventana de smtesis vs(n) puede venir dada por:
imagen2
5
10
15
20
25
30
35
40
45
50
55
donde c es una constante, Va(n) es la ventana de analisis (311), Ats es un avance de tiempo de la ventana de smtesis y s(n) viene dado por:
/./(Ar,-I)
£ V0„ + Atj) 0Sjn<^
> *
El avance de tiempo de la ventana de sintesis Ats corresponde normalmente al avance de sintesis Ss.
Segun un aspecto adicional, la ventana de analisis puede seleccionarse de manera que su transformada z tenga dos ceros en el drculo unitario. Preferentemente, la transformada z de la ventana de analisis solo tiene dos ceros en el drculo unitario. A modo de ejemplo, la ventana de analisis puede ser una ventana de seno al cuadrado. En otro ejemplo, la ventana de analisis de longitud L puede determinarse convolucionando dos ventanas de seno de longitud L, lo que proporciona una ventana de seno al cuadrado de longitud 2L-1. En una etapa adicional se anade un cero a la ventana de seno al cuadrado, lo que proporciona una ventana base de longitud 2l. Finalmente, la ventana base puede remuestrearse usando interpolacion lineal, lo que proporciona una ventana de simetna par de longitud L como ventana de analisis.
Los procedimientos y sistemas descritos en el presente documento pueden implementarse como software, firmware y/o hardware. Determinados componentes pueden implementarse, por ejemplo, como software que se ejecuta en un procesador o microprocesador de senales digitales. Otro componente puede implementarse, por ejemplo, como hardware y/o como circuitos integrados de aplicacion espedfica. Las senales encontradas en los procedimientos y sistemas descritos pueden almacenarse en medios tales como memoria de acceso aleatorio o medios de almacenamiento optico. Pueden transferirse mediante redes, tales como redes radioelectricas, redes de satelites, redes inalambricas o redes cableadas, por ejemplo Internet. Dispositivos tfpicos que usan el procedimiento y sistema descritos en el presente documento son descodificadores u otros equipos en las instalaciones de los clientes que descodifiquen senales de audio. En el lado de la codificacion, el procedimiento y sistema puede usarse en estaciones de radiodifusion, por ejemplo en sistemas de distribucion de television o video.
Debe observarse que las formas de realizacion y los aspectos de la invencion descritos en este documento pueden combinarse de manera arbitraria. En particular, debe observarse que los aspectos descritos para un sistema tambien pueden aplicarse al procedimiento correspondiente perteneciente a la presente invencion.
Breve descripcion de los dibujos
A continuacion se describira la presente invencion a traves de ejemplos ilustrativos, haciendo referencia a los dibujos adjuntos, en los que:
la Fig. 1 ilustra un Dirac en una posicion particular tal y como aparece en las ventanas de analisis y de sintesis de un reemisor armonico;
la Fig. 2 ilustra un Dirac en una posicion diferente tal y como aparece en las ventanas de analisis y de sintesis de un reemisor armonico;
la Fig. 3 ilustra un Dirac para la posicion de la Fig. 2 tal y como aparece segun la presente invencion;
la Fig. 4 ilustra el funcionamiento de un descodificador de audio mejorado HFR;
la Fig. 5 ilustra el funcionamiento de un reemisor armonico usando varios ordenes;
la Fig. 6 ilustra el funcionamiento de un reemisor armonico de dominio de frecuencia (FD);
la Fig. 7 muestra una sucesion de ventanas de analisis y sintesis;
la Fig. 8 ilustra ventanas de analisis y sintesis con diferentes avances;
la Fig. 9 ilustra el efecto del remuestreo en el avance de sintesis de ventanas;
las Fig. 10 y 11 ilustran formas de realizacion de un codificador y un descodificador, respectivamente, usando los esquemas de transposicion armonica mejorada descritos en el presente documento; y
la Fig. 12 ilustra una forma de realizacion de una unidad de transposicion mostrada en las Fig. 10 y 11.
Descripcion detallada
Las formas de realizacion descritas a continuacion simplemente ilustran los principios de la presente invencion para lograr una transposicion armonica mejorada. Debe entenderse que modificaciones y variaciones de las disposiciones y de los detalles descritos en el presente documento resultaran evidentes a otros expertos en la tecnica. Por lo tanto, solo estaran limitados por el alcance de las reivindicaciones de patente adjuntas y no por los detalles espedficos presentados a modo de descripcion y ejemplo de las formas de realizacion en el presente documento.
5
10
15
20
25
30
35
40
45
50
55
A continuacion se describira el principio de transposicion armonica en el dominio de frecuencia y las mejoras propuestas proporcionadas por la presente invencion. Un elemento importante de la transposicion armonica es el estiramiento en el tiempo mediante un factor de transposicion entero T que conserva la frecuencia de las sinusoides. Dicho de otro modo, la transposicion armonica esta basada en el estiramiento en el tiempo de la senal subyacente segun un factor T. El estiramiento en el tiempo se lleva a cabo de manera que se mantengan las frecuencias de las sinusoides que conforman la senal de entrada. Tal estiramiento en el tiempo puede llevarse a cabo usando un vocodificador de fase. El vocodificador de fase esta basado en una representacion en el dominio de frecuencia mediante un banco de filtros DFT divididos en ventanas con una ventana de analisis Va(n) y una ventana de smtesis vs(n). Tal transformacion de analisis/smtesis tambien se denomina transformada corta de Fourier (STFT).
Una transformada corta de Fourier se lleva a cabo en una senal de entrada de dominio de tiempo para obtener una serie de tramas espectrales solapadas. Para minimizar posibles efectos de banda lateral, deben seleccionarse ventanas de analisis/smtesis apropiadas, por ejemplo ventanas gaussianas, ventanas de coseno, ventanas de Hamming, ventanas de Hann, ventanas rectangulares, ventanas de Bartlett, ventanas de Blackman y otras. El retardo de tiempo en que se capta cada trama espectral a partir de la senal de entrada se determina tamano de salto o avance. La STFT de la senal de entrada se denomina etapa de analisis y da lugar a una representacion en el dominio de frecuencia de la senal de entrada. La representacion en el dominio de frecuencia comprende una pluralidad de senales de subbanda, donde cada senal de subbanda representa una determinada componente de frecuencia de la senal de entrada.
La representacion en el dominio de frecuencia de la senal de entrada puede procesarse despues de la manera deseada. Con el fin de estirar en el tiempo la senal de entrada, cada senal de subbanda puede estirarse en el tiempo, por ejemplo retardando las muestras de senales de subbanda. Esto puede conseguirse usando un tamano de salto de smtesis mayor que el tamano de salto de analisis. La senal de dominio de tiempo puede reconstruirse llevando a cabo una transformada (rapida) de Fourier inversa en todas las tramas, seguido de una acumulacion sucesiva de las tramas. Esta operacion de la etapa de smtesis se denomina operacion de solapamiento y suma. La senal de salida resultante es una version estirada en el tiempo de la senal de entrada, que comprende las mismas componentes de frecuencia que la senal de entrada. Dicho de otro modo, la senal de salida resultante tiene la misma composicion espectral que la senal de entrada, pero es mas lenta que la senal de entrada, es decir, su progresion esta estirada en el tiempo.
La transposicion a frecuencias mas altas puede obtenerse posteriormente, o de manera integrada, mediante un submuestreo de las senales estiradas. Como resultado, la senal transpuesta tiene la longitud en el tiempo de la senal inicial, pero comprende componentes de frecuencia que estan desplazadas hacia arriba mediante un factor de transposicion predefinido.
En terminos matematicos, el vocodificador de fase puede describirse de la siguiente manera. Una senal de entrada x(t) se muestrea a una velocidad de muestreo R para proporcionar la senal de entrada discreta x(n). Durante la etapa de analisis, una STFT se determina para la senal de entrada x(n) en instantes de tiempo de analisis
tk
particulares “ para valores sucesivos k. Los instantes de tiempo de analisis se seleccionan p refe rente me nte de
manera uniforme mediante Afa, donde Ata es el factor de salto de analisis o el avance de analisis. En cada
tk
uno de estos instantes de tiempo de analisis ‘a ’ se calcula una transformada de Fourier en una parte dividida en
ventanas de la serial original x(n), donde la ventana de analisis va(t) esta centrada en torno a
es decir,
Esta parte dividida en ventanas de la senal de entrada x(n) se denomina trama. El resultado es la representacion STFT de la senal de entrada x(n), que puede denotarse como:
)*(«) expt-yXV7)
donde M es la frecuencia central de la m-esima serial de subbanda del analisis STFT y M es el tamano de
la transformada discreta de Fourier (DFT). En la practica, la funcion de ventana Va(n) tiene un lapso de tiempo limitado, es decir, solo cubre un numero limitado de muestras L, que es normalmente igual al tamano M de la DFT.
En consecuencia, la suma anterior tiene un numero finito de terminos. Las senales de subbanda son
tanto una funcion de tiempo, a traves del mdice k, como de frecuencia, a traves de la frecuencia central de subbanda
&m.
5
10
15
20
25
30
35
40
45
50
La etapa de sintesis puede llevarse a cabo en los instantes de tiempo de sintesis que estan normalmente
distribuidos de manera uniforme segun ^ donde Ats es el factor de salto de sintesis o avance de
sintesis. En cada uno de estos instantes de tiempo de sintesis, una serial de corta duracion y*(n) se obtiene
sometiendo a una transformada de Fourier inversa la serial de subbanda STFT ^ que puede ser identica a
en los instantes de tiempo de sintesis
Sin embargo, normalmente las senales de subbanda STFT
se modifican, por ejemplo se estiran en el tiempo y/o se modulan en fase y/o en amplitud, de modo que la serial de subbanda de analisis -rt'i.n.) es diferente de la senal de subbanda de sintesis
realizacion preferida, las senales de subbanda STFT se modulan en fase, es dedr, la fase de las senales de subbanda STFT esta modificada. La senal de sintesis de corta duracion y<(n) puede denotarse como
1
yk («) = — Z Y (fLQJexP CA.») ■
M m-0
La senal de corta duracion y^n) puede considerarse como una componente de la serial de salida global y(n) que
comprende las senales de subbanda de sintesis
tk
para m = 0,...,iW-1, en el instante de tiempo de sintesis
\ Es decir, la serial de corta duracion y<(n) es la DFT inversa para una trama de serial especifica. La serial de salida global y(n) puede obtenerse solapando y sumando senales de corta duracion y*(n) divididas en ventanas en
todos los instantes de tiempo de sintesis \ Es decir, la serial de salida y(n) puede denotarse como
imagen3
v,(n-
<)
donde >' *' es la ventana de sintesis centrada en torno al instante de tiempo de sintesis •. Debe
entenderse que la ventana de sintesis tiene normalmente un numero limitado de muestras L, de modo que la suma antes mencionada solo comprende un numero limitado de terminos.
A continuacion se describe la implementacion del estiramiento en el tiempo en el dominio de frecuencia. Un punto de partida adecuado para describir los aspectos del estirador en el tiempo es considerar el caso en que T =1, es decir, el caso en que el factor de transposicion T es igual a 1 y en el que no se produce ningun estiramiento. Suponiendo que el avance de tiempo de analisis Afa y el avance de tiempo de sintesis Ats del banco de filtros DFT son iguales, es decir, Ata = Ats = At, el efecto combinado de analisis seguido de sintesis es el de una modulacion de amplitud con la funcion periodica At
K(n)= - kAt),
(1)
donde q(n) = Va(n)vs(n) es el producto basado en puntos de las dos ventanas, es decir, el producto basado en puntos de la ventana de analisis y de la ventana de sintesis. Resulta ventajoso elegir las ventanas de modo que K(n) =1 u otro valor constante, ya que asf el banco de filtros DFT divido en ventanas consigue una reconstruccion perfecta. Si se proporciona la ventana de analisis Va(n), y si la ventana de analisis tiene una duracion suficientemente larga en comparacion con el avance At, puede obtenerse una reconstruccion perfecta eligiendo la ventana de sintesis segun
imagen4
Para T > 1, es decir, para un factor de transposicion mayor que 1, un estiramiento en el tiempo puede obtenerse
, At
K=—
realizando el analisis en el avance i , mientras que el avance de sintesis se mantiene en Ats = At. Dicho de
otro modo, un estiramiento en el tiempo segun un factor T puede obtenerse aplicando un factor de salto o avance en la etapa de analisis que es T veces mas pequeno que el factor de salto o avance en la etapa de sintesis. Como puede observarse en las formulas proporcionadas anteriormente, el uso de un avance de sintesis que es T veces mayor que el avance de analisis desplazara las senales de sintesis de corta duracion y< (n) en intervalos T veces mayores en la operacion de solapamiento y suma. Esto dara finalmente como resultado un estiramiento en el tiempo de la senal de salida y(n).
5
10
15
20
25
30
35
40
45
50
55
60
Debe observarse que el estiramiento en el tiempo mediante el factor T puede implicar ademas una multiplicacion de fase por un factor T entre el analisis y la smtesis. Dicho de otro modo, el estiramiento en el tiempo mediante un factor T implica una multiplicacion de fase por un factor T de las senales de subbanda.
A continuacion se describe como la operacion de estiramiento en el tiempo descrita anteriormente puede convertirse en una operacion de transposicion armonica. La modificacion de la escala de tonos o transposicion armonica puede obtenerse llevando a cabo una conversion de velocidad de muestras de la senal de salida estirada en el tiempo y(n). Para llevar a cabo una transposicion armonica mediante un factor T, una senal de salida y(n), que es una version estirada en el tiempo segun el factor T dela senal de entrada x(n), puede obtenerse usando el procedimiento de vocodificacion de fase descrito anteriormente. La transposicion armonica puede obtenerse entonces submuestreando la senal de salida y(n) segun un factor T o convirtiendo la velocidad de muestreo de R a TR. Dicho de otro modo, en lugar de interpretar que la senal de salida y(n) tiene la misma velocidad de muestreo que la senal de entrada x(n) pero con una duracion de T veces, puede interpretarse que la senal de salida y(n) tiene la misma duracion pero de T veces la velocidad de muestreo. Puede interpretarse entonces que el submuestreo subsiguiente de T consiste en hacer que la velocidad de muestreo de salida sea igual a la velocidad de muestreo de entrada de
modo que las senales puedan sumarse finalmente. Durante estas operaciones, debe tenerse cuidado cuando se
submuestree la senal transpuesta para que no se produzcan solapamientos.
Cuando se supone que la senal de entrada x(n) es una sinusoide y cuando se utiliza una ventana de analisis simetrica Va(n), el procedimiento de estiramiento en el tiempo basado en el vocodificador de fase antes descrito funcionara correctamente para valores impares de T y dara como resultado una version estirada en el tiempo de la senal de entrada x(n), que presenta la misma frecuencia. En combinacion con un submuestreo subsiguiente, se
obtendra una sinusoide y(n) con una frecuencia que es T veces la frecuencia de la senal de entrada x(n).
Para valores pares de T, el procedimiento de estiramiento en el tiempo/transposicion armonica descrito anteriormente sera mas aproximado, ya que lobulos laterales de valor negativo de la respuesta de frecuencia de la ventana de analisis Va(n) se reproduciran con diferente fidelidad mediante la multiplicacion de fase. Los lobulos laterales negativos se deben normalmente a que la mayona de ventanas practicas (o filtros de prototipo) tienen numerosos ceros discretos ubicados en el cfrculo unitario, dando como resultado desfases de 180 grados. Cuando se multiplican los angulos de fase usando factores de transposicion pares, los desfases pasan a ser normalmente 0 (o, tambien, multiplos de 360) grados, dependiendo del factor de transposicion usado. Dicho de otro modo, cuando se usan factores de transposicion pares, los desfases desaparecen. Esto dara normalmente como resultado un solapamiento en la senal de salida transpuesta y(n). Un escenario particularmente desventajoso puede surgir cuando una sinusoide esta ubicada en una frecuencia correspondiente a la parte superior del primer lobulo lateral del filtro de analisis. Dependiendo del rechazo de este lobulo en la respuesta de magnitud, el solapamiento sera mas o menos audible en la senal de salida. Debe observarse que, para factores T pares, reducir el avance global At mejora normalmente el rendimiento del estirador en el tiempo a expensas de una mayor complejidad desde el punto de vista computacional.
En el documento EP0940015B1 / WO98/57436 titulado "Source coding enhancement using spectral band replication" se describe un procedimiento sobre como evitar el solapamiento que se produce con un reemisor armonico cuando se usan factores de transposicion pares. Este procedimiento, denominado bloqueo de fase relativa, evalua la diferencia de fase relativa entre canales adyacentes y determina si una sinusoide esta invertida en fase en cualquier canal. La deteccion se realiza usando la ecuacion (32) del documento EP0940015B1. Los canales detectados como invertidos en fase se corrigen despues de multiplicar los angulos de fase por el factor de transposicion real.
A continuacion se describe un procedimiento novedoso para evitar el solapamiento cuando se usan factores de transposicion T pares y/o impares. A diferencia del procedimiento de bloqueo de fase relativa del documento EP0940015B1, este procedimiento no requiere la deteccion y correccion de angulos de fase. La solucion novedosa al problema anterior utiliza ventanas de transformada de analisis y smtesis que no son identicas. En el caso de reconstruccion perfecta (PR), esto corresponde a una transformada biortogonal/banco de filtros en lugar de a una transformada ortogonal/banco de filtros.
Para obtener una transformada biortogonal dada una determinada ventana de analisis Va(n), la ventana de smtesis vs(n) se elige de la siguiente manera:
+ A^;)v, (m + At i) - c, 0 < m < Ats
i- o
donde c es una constante, Ats es el avance de tiempo de smtesis y L es la longitud de ventana. Si la secuencia s(n) se define como
imagen5
5
10
15
20
25
30
35
40
45
50
es decir, Va(n) = vs(n) se usa para una division en ventanas de analisis y de smtesis, entonces la condicion para una transformada ortogonal es
s(/n) = c , 0 < m < Ats.
Sin embargo, a continuacion se introduce otra secuencia w(n), donde w(n) es una medida de cuanto se desv^a la ventana de smtesis vs(n) con respecto a la ventana de analisis Va(n), es decir, en cuanto se diferencia la transformada biortogonal con respecto al caso ortogonal. La secuencia w(n) viene dada por
win) - , 0 <n<L.
vjn)
La condicion de la reconstruccion perfecta viene dada entonces por
MAL-l)
^ vj(m + AtJ)w(m + AtJ) = c, 0 < m < A/s.
;-o
Para una posible solucion, puede restringirse que w(n) sea periodica con el avance de tiempo de smtesis Ats, es decir, w(n) = w(n + Atsi), vi, n. Entonces, se obtiene
imagen6
La condicion en la ventana de smtesis vs(n) es por tanto
v>) = w(«(mod At, ))v„(.n) = c , 0 < « < L .
.v(/7(mod At,))
Obteniendo las ventanas de smtesis vs(n) de la manera antes descrita se consigue una libertad mucho mayor a la hora de disenar la ventana de analisis Va(n). Esta libertad adicional puede usarse para disenar un par de ventanas de analisis/smtesis que no presentan solapamiento de la senal transpuesta.
Para obtener un par de ventanas de analisis/smtesis que supriman el solapamiento con factores de transposicion pares, a continuacion se describen varias formas de realizacion. Segun una primera forma de realizacion, las ventanas o filtros de prototipo se crean lo bastante largos como para atenuar el nivel del primer lobulo lateral en la respuesta de frecuencia por debajo de un determinado nivel de "solapamiento". El avance de tiempo de analisis Ata sera en este caso solamente una (pequena) fraccion de la longitud de ventana L. Esto da normalmente como resultado una distribucion de transitorios, por ejemplo en senales percutivas.
Segun una segunda forma de realizacion, la ventana de analisis Va(n) se elige para que tenga dos ceros en el cfrculo unitario. La respuesta de fase resultante de dos ceros es un desfase de 360 grados. Estos desfases se mantienen cuando los angulos de fase se multiplican por los factores de transposicion, independientemente de si los factores de transposicion son pares o impares. Cuando se obtiene un filtro de analisis Va(n) apropiado y homogeneo, que presenta dos ceros en el cfrculo unitario, la ventana de smtesis se obtiene a partir de las ecuaciones descritas anteriormente.
En un ejemplo de la segunda forma de realizacion, el filtro de analisis / la ventana Va(n) es la "ventana de seno al cuadrado", es decir, la ventana de seno
imagen7
convolucionada con ella misma como Va(n) = v(n) 0 v(n). Sin embargo, debe observarse que el filtro/ la ventana Va(n) resultante tendra una simetria impar de longitud La=2L-1, es decir, un numero impar de coeficientes de filtro/ventana. Cuando un filtro/ventana con una longitud par es mas apropiado/a, en particular un filtro de simetna par, el filtro puede obtenerse convolucionando en primer lugar dos ventanas de seno de longitud L. Despues se anade un cero al
5
10
15
20
25
30
35
40
45
50
55
60
final del filtro resultante. Despues, el filtro de longitud 2L se remuestrea usando interpolacion lineal con respecto a un filtro de simetna par y longitud L que sigue teniendo dos ceros solamente en el drculo unitario.
Se ha descrito en terminos generales como puede seleccionarse un par de ventanas de analisis y de smtesis de manera que el solapamiento en la senal de salida transpuesta pueda evitarse o reducirse significativamente. El procedimiento es particularmente relevante cuando se usan factores de transposicion pares.
Otro aspecto a tener en cuenta en el contexto de reemisores armonicos basados en vocodificadores es el desenrollado de fase. Debe observarse que aunque debe tenerse mucho cuidado en relacion con los problemas de desenrollado de fase en los vocodificadores de fase de proposito general, el reemisor armonico tiene operaciones de fase definidas de manera no ambigua cuando se usan factores de transposicion enteros T. Por tanto, en formas de realizacion preferidas, el orden de transposicion T es un valor entero. En caso contrario pueden aplicarse tecnicas de desenrollado de fase, donde el desenrollado de fase es un proceso mediante el cual se usa el incremento de fase entre dos tramas consecutivas para estimar la frecuencia instantanea de una sinusoide cercana en cada canal.
Otro aspecto a tener en cuenta cuando se aborda la transposicion de senales de voz y/o audio, es el procesamiento de secciones de senal estacionarias y/o transitorias. Normalmente, para poder transponer senales de audio estacionarias sin artefactos de intermodulacion, la resolucion de frecuencia del banco de filtros DFT tiene que ser bastante alta y, por lo tanto, las ventanas son largas en comparacion con los transitorios de las senales de entrada x(n), concretamente senales de audio y/o voz. Como resultado, el reemisor tiene una mala respuesta transitoria. Sin embargo, como se describira a continuacion, este problema puede resolverse modificando los parametros de diseno de ventana, de tamano de transformada y de avance de tiempo. Por tanto, a diferencia de muchos procedimientos de ultima generacion para la mejora de la respuesta transitoria de vocodificadores de fase, la solucion propuesta no se basa en ninguna operacion de adaptacion de senal, tal como la deteccion de transitorios.
A continuacion se describe la transposicion armonica de senales transitorias usando vocodificadores. Como punto de partida, se tiene en cuenta una senal transitoria de prototipo, un pulso Dirac de tiempo discreto en el instante de tiempo t = to,
La transformada de Fourier de tal pulso proporcional a to.
de Dirac tiene una magnitud
unitaria y una fase lineal con una pendiente
= E <*(« “<o)c*P(-.A,») = cxp(-;Qj0).
Tal transformada de Fourier puede considerase como la etapa de analisis del vocodificador de fase descrito anteriormente, donde se usa una ventana de analisis plana Va(n) de duracion infinita. Para generar una senal de salida y(n) que esta estirada en el tiempo mediante un factor T, es decir, un pulso de Dirac 5(t -Tto) en el instante de tiempo t = Tto, la fase de las senales de subbanda de analisis debe multiplicarse por el factor T con el fin de obtener la senal de subbanda de smtesis Y(Qm) = exp(-/'QmTto) que proporciona el pulso de Dirac deseado S(t-Tto) como una salida de una transformada de Fourier inversa.
Esto muestra que el funcionamiento de la multiplicacion de fase de las senales de subbanda de analisis por un factor T da lugar al desplazamiento de tiempo deseado de un pulso de Dirac, es decir, de una senal de entrada transitoria. Debe observarse que para senales transitorias mas realistas que comprenden mas de una muestra distinta de cero, deben realizarse las operaciones adicionales de estiramiento en el tiempo de las senales de subbanda de analisis segun un factor T. Dicho de otro modo, deben usarse diferentes tamanos de salto en el lado de analisis y de smtesis.
Sin embargo, debe observarse que las consideraciones anteriores se refieren a una etapa de analisis/smtesis que usa ventanas de analisis y de smtesis de longitudes infinitas. De hecho, un reemisor teorico con una ventana de duracion infinita proporcionaria el estiramiento correcto de un pulso de Dirac 5(t - to). Para un analisis dividido en ventanas de duracion finita, la situacion se aleatoriza por el hecho de que cada bloque de analisis debe interpretarse como un intervalo de periodo de una senal periodica con un periodo igual al tamano de la DFT.
Esto se ilustra en la Fig. 1, que muestra el analisis y la smtesis loo de un pulso de Dirac 5(t - to). La parte superior de la Fig. 1 muestra la entrada en la etapa de analisis 1io, y la parte inferior de la Fig. 1 muestra la salida de la etapa de smtesis 12o. El grafico superior y el inferior representan el dominio de tiempo. La ventana de analisis estilizada 111 y la ventana de smtesis 121 se ilustran como ventanas triangulares (de Bartlett). El pulso de entrada 5(t -to) 112 en el instante de tiempo t = to se muestra en el grafico superior 11o como una flecha vertical. Se supone que el bloque de transformada DFT tiene un tamano M = L, es decir, el tamano de la transformada DFT se elige para que sea igual al tamano de las ventanas. La multiplicacion de fase de las senales de subbanda por el factor T producira el analisis DFT de un pulso de Dirac 5(t - Tto) en t = Tto, aunque periodizado con respecto a un tren de
5
10
15
20
25
30
35
40
45
50
55
60
pulsos de Dirac de periodo L. Esto se debe a la longitud finita de la ventana aplicada y la transformada de Fourier. El tren de pulsos periodizado de periodo L se ilustra mediante las flechas discontinuas 123, 124 en el grafico inferior.
En un sistema del mundo real, donde las ventanas de analisis y de smtesis tienen una longitud finita, el tren de pulsos solo contiene realmente algunos pulsos (dependiendo del factor de transposicion), un pulso principal, es decir, el termino deseado, algunos pulsos previos y algunos pulsos posteriores, es decir, los terminos no deseados. Los pulsos previos y los pulsos posteriores aparecen porque la dFt es periodica (con L). Cuando un pulso esta ubicado dentro de una ventana de analisis, de modo que la fase compleja queda enrollada cuando se multiplica por T (es decir, el pulso se desplaza fuera del final de la ventana y vuelve a enrollarse al principio), se produce un pulso no deseado. Los pulsos no deseados pueden tener, o no, la misma polaridad que el pulso de entrada, dependiendo de la ubicacion en la ventana de analisis y del factor de transposicion.
Esto puede observarse desde un punto de vista matematico cuando se transforma el pulso de Dirac 5(t - to) situado en el intervalo -L/2 < to < U2 usando una DFT de longitud L centrada en torno a t = 0,
l,:-i
= X<5(» -r0)cxp(-/Qm«) =cxp(-;Q„f0).
Li2
Las senales de subbanda de analisis se multiplican en fase por un factor T para obtener las senales de subbanda de smtesis Y(Qm)=exp(-/QmTfo). Despues, la DFT inversa se aplica para obtener la senal de smtesis periodica:
>’(«) = y Z exp(-yQ„i7’;(l)exp(yQ„ n) = Z S(n - Tt() + kL).
es decir, un tren de pulsos de Dirac de periodo L.
En el ejemplo de la Fig. 1, la division en ventanas de smtesis usa una ventana finita vs(n) 121.
La ventana de smtesis finita 121 capta el pulso deseado 5(t - Tto) en t = Tto ilustrado como una flecha continua 122, y cancela las otras contribuciones que se muestran como flechas discontinuas 123, 124.
A medida que la etapa de analisis y de smtesis se desplaza a lo largo del eje de tiempo segun el factor de salto o el avance de tiempo At, el pulso 5(t - to) 112 tendra otra posicion con respecto al centro de la ventana de analisis respectiva 111. Como se ha descrito anteriormente, la operacion para conseguir estiramiento en el tiempo consiste en desplazar el pulso 112 T veces su posicion con respecto al centro de la ventana. Siempre que esta posicion este dentro de la ventana 121, esta operacion de estiramiento en el tiempo garantiza que todas las contribuciones se sumen en un unico pulso sintetizado y estirado en el tiempo 5(t - Tto) en t = Tto.
Sin embargo, en la situacion de la Fig. 2 se produce el problema de que el pulso 5(t - to) 212 se aleja hacia el borde del bloque DFT. La Fig. 2 ilustra una configuracion de analisis/smtesis 2oo similar a la de la Fig. 1. El grafico superior 21o muestra la entrada en la etapa de analisis y la ventana de analisis 211, y el grafico inferior 22o ilustra la salida de la etapa de smtesis y de la ventana de smtesis 221. Cuando se estira en el tiempo el pulso de Dirac de entrada 212 segun un factor T, el pulso de Dirac estirado en el tiempo 222, es decir, 5(t - Tto), esta fuera de la ventana de smtesis 221. Al mismo tiempo, otro pulso de Dirac 224 del tren de pulsos, es decir, 5(t - Tto + L) en el instante de tiempo t = Tto - L, es captado por la ventana de smtesis. Dicho de otro modo, el pulso de Dirac de entrada 212 no esta retardado a un instante de tiempo T veces posterior, sino que se dirige hacia un instante de tiempo anterior al pulso de Dirac de entrada 212. El efecto final en la senal de audio es la aparicion de un echo previo en una distancia de tiempo de la escala de ventanas de transposicion muy largas, es decir, en un instante de tiempo t = Tto - L que es L-(T-1)to anterior al pulso de Dirac de entrada 212.
El principio de la solucion propuesta por la presente invencion se describe con referencia a la Fig. 3. La Fig. 3 ilustra un escenario de analisis/smtesis 3oo similar al de la Fig. 2. El grafico superior 31o muestra la entrada en la etapa de analisis con la ventana de analisis 311, y el grafico inferior 32o muestra la salida de la etapa de smtesis con la ventana de smtesis 321. La idea basica de la invencion es adaptar el tamano de la DFT para evitar ecos previos. Esto puede conseguirse fijando el tamano M de la DFT de manera que la ventana de smtesis no capte imagenes de pulsos de Dirac no deseados del tren de pulsos resultante. El tamano de la transformada DFT 3o1 aumenta a M = FL, donde L es la longitud de la funcion de ventana 3o2 y el factor F es un factor de sobremuestreo en el dominio de frecuencia. Dicho de otro modo, el tamano de la transformada DFT 3o1 se selecciona para que sea mayor que el tamano de ventana 3o2. En particular, el tamano de la transformada DFT 3o1 puede seleccionarse para que sea mayor que el tamano de ventana 3o2 de la ventana de smtesis. Debido a la mayor longitud 3o1 de la transformada DFT, el periodo del tren de pulsos que comprende los pulsos de Dirac 322, 324 es FL. Al seleccionar un valor suficientemente grande de F, es decir, al seleccionar un factor de sobremuestreo en el dominio de frecuencia suficientemente grande, pueden cancelarse contribuciones no deseadas al estiramiento de pulsos. Esto se muestra en la FIG. 3, donde el pulso de Dirac 324 en el instante de tiempo t = Tto-FL esta fuera de la ventana de smtesis 321.
5
10
15
20
25
30
35
40
45
50
55
Por lo tanto, la ventana de smtesis 321 no capta el pulso de Dirac 324 y, como consecuencia, pueden evitarse ecos previos.
Debe observarse que en una forma de realizacion preferida, la ventana de smtesis y la ventana de analisis tienen las mismas longitudes "nominales". Sin embargo, cuando se usa un remuestreo impl^cito de la senal de salida descartando o insertando muestras en las bandas de frecuencia de la transformada o banco de filtros, el tamano de la ventana de smtesis sera normalmente diferente del tamano de analisis, dependiendo del remuestreo o del factor de transposicion.
El valor mmimo de F, es decir, el factor mmimo de sobremuestreo en el dominio de frecuencia, puede deducirse a partir de la Fig. 3. La condicion de no captar imagenes de pulsos de Dirac no deseados puede formularse de la
siguiente manera: Para cualquier pulso de entrada 5(t - to) en la posicion * es decir, para cualquier pulso
de entrada comprendido dentro de la ventana de analisis 311, la imagen no deseada 6(t - Tto + FL) en el instante de
tiempo t = Tto - FL debe estar ubicada a la izquierda del borde izquierdo de la ventana de smtesis en
T — -FL < ——
Asimismo, debe satisfacerse la condicion 2 2 , lo que da lugar a la regia
_L ~ n '
imagen8
Como puede observarse en la formula (3), el factor mmimo F de sobremuestreo en el dominio de frecuencia es una funcion del factor T de transposicion/estiramiento en el tiempo. Mas espedficamente, el factor mmimo F de sobremuestreo en el dominio de frecuencia es proporcional al factor T de transposicion/estiramiento en el tiempo.
Repitiendo la lmea de pensamiento anterior para el caso en que las ventanas de analisis y de smtesis tienen longitudes diferentes, se obtiene una formula mas general. Sean La y Ls las longitudes de las ventanas de analisis y de smtesis, respectivamente, y sea M el tamano de DFT utilizado. La regla que amplfa la formula (3) es entonces
imagen9
El que esta regla sea una extension de (3) puede verificarse insertando M = FL, y La = Ls = L en (4) y dividiendo por L en ambos lados de la ecuacion resultante.
El anterior analisis se lleva a cabo para un modelo bastante especial de un transitorio, es decir, un pulso de Dirac. Sin embargo, el razonamiento puede extenderse para mostrar que cuando se usa el esquema de estiramiento en el tiempo descrito anteriormente, senales de entrada que tienen una envolvente espectral casi plana y que se desvanecen fuera de un intervalo de tiempo [a,b] se estiraran para formar senales de salida que son pequenas fuera del intervalo [Ta,Tb]. Tambien puede comprobarse estudiando espectrogramas de senales de audio y/o voz reales en los que los ecos previos desaparecen en las senales estiradas cuando se respeta la regla antes descrita para seleccionar un factor de sobremuestreo de dominio de frecuencia apropiado. Un analisis mas cuantitativo tambien revela que los ecos previos se reducen cuando se usan factores de sobremuestreo de dominio de frecuencia que son ligeramente inferiores al valor impuesto por la condicion de la formula (3). Esto se debe a que funciones de ventana tfpicas vs(n) son pequenas cerca de sus bordes, lo que atenua ecos previos no deseados situados cerca de los bordes de las funciones de ventana.
En resumen, la presente invencion describe una nueva manera de mejorar la respuesta transitoria de reemisores armonicos de dominio de frecuencia, o estiradores de tiempo, introduciendo una transformada sobremuestreada, donde la cantidad de sobremuestreo depende del factor de transposicion elegido.
A continuacion se describe en mayor detalle la aplicacion de una transposicion armonica segun la invencion en descodificadores de audio. Un caso de uso comun de un reemisor armonico se produce en un sistema de codecs de audio/voz que utiliza la denomina extension de ancho de banda o regeneracion de alta frecuencia (HFR). Debe observarse que aunque puede hacerse referencia a la codificacion de audio, los procedimientos y sistemas descritos pueden aplicarse igualmente en la codificacion de voz y en la codificacion de voz y audio unificada (USAC).
En tales sistemas HFR, el reemisor puede usarse para generar una componente de senal de alta frecuencia a partir de una componente de senal de baja frecuencia proporcionada por el denominado descodificador central. La envolvente de la componente de alta frecuencia puede conformarse en tiempo y frecuencia en funcion de la informacion lateral transportada en el flujo de bits.
5
10
15
20
25
30
35
40
45
50
55
60
65
La Fig. 4 ilustra el funcionamiento de un descodificador de audio mejorado HFR. El descodificador de audio central 401 proporciona una senal de audio de bajo ancho de banda que se introduce en un muestreador ascendente 404 que puede ser necesario para producir una contribucion de salida de audio final con la velocidad de muestreo total deseada. Tal muestreo ascendente se requiere en sistemas de doble velocidad, donde el codec de audio central de banda limitada funciona a la mitad de la velocidad de muestreo de audio externa, mientras que la parte HFR se procesa a la frecuencia de muestreo total. Por consiguiente, en un sistema de una sola velocidad se omite este muestreador ascendente 404. La salida de bajo ancho de banda de 401 tambien se envfa al reemisor o unidad de transposicion 402, que proporciona una senal transpuesta, es decir, una senal que comprende la gama de altas frecuencias deseada. La senal transpuesta puede conformarse en tiempo y frecuencia mediante el ajustador de envolvente 403. La salida de audio final es la suma de la senal central de bajo ancho de banda y de la senal transpuesta de envolvente ajustada.
Como se ha descrito en el contexto de la Fig. 4, la senal de salida del descodificador central puede sobremuestrearse como una etapa de preprocesamiento mediante un factor de 2 en la unidad de transposicion 402. Una transposicion segun un factor T da como resultado una senal que tiene T veces la longitud de la senal no transpuesta, en caso de estiramiento en el tiempo. Para conseguir el desplazamiento de tono deseado o la transposicion de frecuencia a frecuencias T veces superiores, se realiza posteriormente un submuestreo o una conversion de velocidad de la senal estirada en el tiempo. Como se ha mencionado anteriormente, esta operacion puede conseguirse usando diferentes avances de analisis y smtesis en el vocodificador de fase.
El orden de transposicion global puede obtenerse de diferentes maneras. Una primera posibilidad es sobremuestrear la senal de salida del descodificador mediante un factor de 2 en la entrada del reemisor, como se ha indicado anteriormente. En tales casos, la senal estirada en el tiempo necesitana submuestrearse en un factor T con el fin de obtener la senal de salida deseada, cuya frecuencia esta transpuesta segun un factor T. Una segunda posibilidad sena omitir la etapa de preprocesamiento y llevar a cabo directamente las operaciones de estiramiento en el tiempo en la senal de salida del descodificador central. En tales casos, las senales transpuestas deben submuestrearse en un factor T/2 para mantener el factor de muestreo ascendente global de 2 y para conseguir una transposicion de frecuencia segun un factor T. Dicho de otro modo, el muestreo ascendente de la senal del descodificador central puede omitirse cuando se lleva a cabo un submuestreo de la senal de salida del reemisor 402 de T/2 en lugar de T. Sin embargo, debe observarse que la senal central sigue necesitando sobremuestrearse en el muestreador ascendente 404 antes de combinar la senal con la senal transpuesta.
Tambien debe observarse que el reemisor 402 puede usar diferentes factores de transposicion enteros con el fin de generar la componente de alta frecuencia. Esto se muestra en la Fig. 5, que ilustra el funcionamiento de un reemisor armonico 501, que corresponde al reemisor 402 de la Fig. 4, que comprende varios reemisores de diferente orden de transposicion o de diferente factor de transposicion T. La senal que va a transponerse se transfiere al banco de reemisores individuales 501-2, 501-3, ... , 501-Tmax que tienen ordenes de transposicion T=2,3,...,Tmax, respectivamente. Normalmente, un orden de transposicion Tmax=4 satisface la mayona de aplicaciones de codificacion de audio. Las contribuciones de los diferentes reemisores 501-2, 501-3, ... , 501-Tmax se suman en 502 para proporcionar la salida de reemisor combinada. En una primera forma de realizacion, esta operacion de suma puede comprender la adicion de las contribuciones individuales. En otra forma de realizacion, las contribuciones se ponderan con diferentes pesos, de manera que se mitiga el efecto de anadir multiples contribuciones a determinadas frecuencias. Por ejemplo, la contribucion de tercer orden puede anadirse con una ganancia mas baja que la contribucion de segundo orden. Finalmente, la unidad de suma 502 puede anadir las contribuciones de manera selectiva dependiendo de la frecuencia de salida. Por ejemplo, la transposicion de segundo orden puede usarse en una primera gama de frecuencias objetivo mas baja, y la transposicion de tercer orden puede usarse en una segunda gama de frecuencias objetivo mas alta.
La Fig. 6 ilustra el funcionamiento de un reemisor armonico, tal como uno de los bloques individuales de 501, es decir, uno de los reemisores 501-T de orden de transposicion T. Una unidad de avance de analisis 601 selecciona tramas sucesivas de la senal de entrada que va a transponerse. Estas tramas se superponen, por ejemplo se multiplican, en una unidad de ventana de analisis 602 con una ventana de analisis. Debe observarse que las operaciones de seleccionar tramas de una senal de entrada y de multiplicar las muestras de la senal de entrada con una funcion de ventana de analisis puede llevarse a cabo en una unica etapa, por ejemplo usando una funcion de ventana que se desplaza a lo largo de la senal de entrada segun el avance de analisis. En la unidad de transformacion de analisis 603, las tramas divididas en ventanas de la senal de entrada se transforman al dominio de frecuencia. La unidad de transformacion de analisis 603 puede, por ejemplo, realizar una DFT. El tamano de la DFT se selecciona para que sea F veces mayor que el tamano L de la ventana de analisis, generandose asf M=F*L coeficientes complejos en el dominio de frecuencia. Estos coeficientes complejos se modifican en la unidad de procesamiento no lineal 604, por ejemplo multiplicando su fase por el factor de transposicion T. La secuencia de coeficientes complejos de dominio de frecuencia, es decir, los coeficientes complejos de la secuencia de tramas de la senal de entrada, pueden considerarse como senales de subbanda. La combinacion de la unidad de avance de analisis 601, la unidad de ventana de analisis 602 y la unidad de transformacion de analisis 603 puede considerase como una etapa de analisis combinada o banco de filtros de analisis.
5
10
15
20
25
30
35
40
45
50
55
60
65
Los coeficientes modificados o las senales de subbanda modificadas se transforman de nuevo en el dominio de tiempo usando la unidad de transformacion de smtesis 605. Para cada conjunto de coeficientes complejos modificados, esto proporciona una trama de muestras modificadas, es decir, un conjunto de M muestras modificadas. Usando la unidad de ventana de smtesis 606 pueden extraerse L muestras de cada conjunto de muestras modificadas, lo que proporciona una trama de la senal de salida. En general, una secuencia de tramas de la senal de salda puede generarse para la secuencia de tramas de la senal de entrada. Estas diversas tramas se desplazan entre sf segun el avance de smtesis en la unidad de avance de smtesis 607. El avance de smtesis puede ser T veces mayor que el avance de analisis. La senal de salida se genera en la unidad de solapamiento y suma 608, donde las tramas desplazadas de la senal de salida estan solapadas y las muestras del mismo instante de tiempo se suman. Al recorrer el sistema anterior, la senal de entrada puede estirarse en el tiempo en un factor T, es decir, la senal de salida puede ser una version estirada en el tiempo de la senal de entrada.
Finalmente, la senal de salida puede contraerse en el tiempo usando la unidad de contraccion 609. La unidad de contraccion 609 puede realizar una conversion de velocidad de muestreo de orden T, es decir, puede aumentar la velocidad de muestreo de la senal de salida en un factor T, manteniendo al mismo tiempo el numero de muestras inalteradas. Esto proporciona una senal de salida transpuesta que tiene la misma longitud en el tiempo que la senal de entrada, pero que comprende componentes de frecuencia que se han desplazado de manera ascendente en un factor T con respecto a la senal de entrada. La unidad de combinacion 609 tambien puede realizar una operacion de submuestreo segun un factor T, es decir, solo puede conservar cada T-esima muestra, donde las otras muestras se descartan. Esta operacion de submuestreo tambien puede ir acompanada de una operacion de filtro paso bajo. Si la velocidad de muestreo global no vana, entonces la senal de salida transpuesta comprende componentes de frecuencia que se han desplazado de manera ascendente segun un factor T con respecto a las componentes de frecuencia de la senal de entrada.
Debe observarse que la unidad de contraccion 609 puede llevar a cabo una combinacion de conversion de velocidad y de submuestreo. A modo de ejemplo, la velocidad de muestreo puede aumentarse en un factor de 2. Al mismo tiempo, la senal puede submuestrearse en un factor T/2. En general, tal combinacion de conversion de velocidad y de submuestreo tambien genera una senal de salida que es una transposicion armonica de la senal de entrada
segun un factor T. En general, puede decirse que la unidad de contraccion 609 realiza una combinacion de
conversion de velocidad y/o de submuestreo con el fin de conseguir una transposicion armonica segun el orden de transposicion T. Esto es particularmente util cuando se lleva a cabo una transposicion armonica de la salida de bajo ancho de banda del descodificador de audio central 401. Como se ha descrito anteriormente, tal salida de bajo
ancho de banda puede haberse submuestreado en un factor de 2 en el descodificador y, por lo tanto, puede
necesitar un muestro ascendente en la unidad de muestreo ascendente 404 antes de fusionarse con la componente de alta frecuencia reconstruida. Sin embargo, puede ser beneficioso para reducir la complejidad de calculo a la hora de realizar una transposicion armonica en la unidad de transposicion 402 usando la salida de bajo ancho de banda "no sobremuestreada". En tales casos, la unidad de contraccion 609 de la unidad de transposicion 402 puede realizar una conversion de velocidad de orden 2 y, de ese modo, realizar de manera implfcita la operacion de muestreo ascendente requerida de la componente de alta frecuencia. En consecuencia, las senales de salida transpuestas de orden T se submuestrean en la unidad de contraccion 609 segun el factor T/2.
En el caso de multiples reemisores paralelos de diferentes ordenes de transposicion, tales como los mostrados en la Fig. 5, algunas operaciones de transformacion o de banco de filtros pueden compartirse entre diferentes reemisores 501-2, 501-3, ... , 501-Tmax. La comparticion de operaciones de banco de filtros puede realizarse preferentemente para el analisis con el fin de obtener implementaciones mas eficaces de las unidades de transposicion 402. Debe observarse que una manera preferida de remuestrear las salidas de diferentes reemisores consiste en descartar bins DFT o canales de subbanda antes de la etapa de smtesis. De esta manera pueden omitirse los filtros de remuestreo y reducirse la complejidad cuando se lleva a cabo una DFT inversa/ banco de filtros de smtesis de tamano mas pequeno.
Como se acaba de mencionar, la ventana de analisis puede ser comun para las senales de diferentes factores de transposicion. Cuando se usa una ventana de analisis comun, un ejemplo del avance de ventanas 700 aplicado a la senal de banda baja se muestra en la Fig. 7. La Fig. 7 muestra un avance de ventanas de analisis 701, 702, 703 y 704, que estan desplazadas entre sf segun el factor de salto de analisis o el avance de tiempo de analisis Ata.
Un ejemplo del avance de ventanas aplicado a la senal de banda baja, por ejemplo, la senal de salida del descodificador central, se muestra en la Fig. 8(a). El avance con el que la ventana de analisis de longitud L se mueve para cada transformada de analisis se denota como Ata. Cada transformada de analisis de este tipo y la parte dividida en ventanas de la senal de entrada tambien se denominan trama. La transformada de analisis convierte/transforma la trama de senales de entrada en un conjunto de coeficientes FFT complejos. Despues de la transformada de analisis, los coeficientes FFT complejos pueden transformarse de coordenadas cartesianas a coordenada polares. El conjunto de coeficientes FFT para tramas subsiguientes conforma las senales de subbanda de analisis. Para cada uno de los factores de transposicion T = 2,3,...,Tmax usados, los angulos de fase de los coeficientes FFT se multiplican por el factor de transposicion respectivo T y vuelven a transformarse a coordenadas cartesianas. Por tanto, habra un conjunto diferente de coeficientes FFT complejos que representan una trama particular para cada factor de transposicion T. Dicho de otro modo, para cada uno de los factores de transposicion T
5
10
15
20
25
30
35
40
45
50
= 2,3,, Tmax y para cada trama, se determina un conjunto independiente de coeficientes FFT. En consecuencia,
para cada orden de transposicion T se genera un conjunto diferente de senales de subbanda de smtesis
En las etapas de smtesis, los avances de smtesis Ats de las ventanas de smtesis se determinan en funcion del orden de transposicion T usado en el reemisor respectivo. Como se ha descrito anteriormente, la operacion de estiramiento en el tiempo tambien implica estiramiento en el tiempo de las senales de subbanda, es decir, el estiramiento en el tiempo del conjunto de tramas. Esta operacion puede realizarse eligiendo un factor de salto de smtesis o avance de smtesis Ats que es mayor que el avance de analisis Ata en un factor T. Por consiguiente, el avance de smtesis Atsr para el reemisor de orden T viene dado por Atsj = TAta. Las Fig. 8(b) y 8(c) muestran el avance de smtesis Atsj de ventanas de smtesis para los factores de transposicion T=2 y T=3, respectivamente, donde AtS2 = 2Ata y Ats3 =3Ata.
La Fig. 8 indica ademas el tiempo de referencia tr que se ha "estirado" por un factor T=2 y T=3 en las Fig. 8(b) y 8(c) en comparacion con la Fig. 8(a), respectivamente. Sin embargo, en las salidas este tiempo de referencia tr tiene que alinearse para los dos factores de transposicion. Para alinear la salida, la senal transpuesta de tercer orden, es decir, la Fig. 8(c), tiene que submuestrearse o su velocidad tiene que convertirse con el factor 3/2. Este submuestreo da lugar a una transposicion armonica con respecto a la senal transpuesta de segundo orden. La Fig. 9 ilustra el efecto del remuestreo en el avance de smtesis de ventanas para T = 3. Si se supone que la senal analizada es la senal de salida de un descodificador central que no se ha sobremuestreado, entonces la senal de la Fig. 8(b) se ha transpuesto en frecuencia de manera eficaz segun un factor de 2 y la senal de la Fig. 8(c) se ha transpuesto en frecuencia de manea eficaz segun un factor de 3.
A continuacion se aborda el aspecto del alineamiento de tiempo de secuencias transpuestas de diferentes factores de transposicion cuando se usan ventanas de analisis comunes. Dicho de otro modo, se aborda el aspecto de alinear las senales de salida de los reemisores de frecuencia que utilizan un orden de transposicion diferente. Cuando se usan los procedimientos descritos anteriormente, las funciones de Dirac 5(t - to) se estiran en el tiempo, es decir, se desplazan a lo largo del eje de tiempo, segun la cantidad de tiempo dada por el factor de transposicion T aplicado. Con el fin de convertir la operacion de estiramiento en el tiempo en una operacion de desplazamiento de frecuencia, se lleva a cabo un diezmado o submuestreo usando el mismo factor de transposicion T. Si tal diezmado segun el factor de transposicion u orden de transposicion T se lleva a cabo en la funcion de Dirac estirada en el tiempo 5(t - Tto), el pulso de Dirac submuestreado se alineara en el tiempo con respecto al tiempo de referencia cero 710 en la parte central de la primera ventana de analisis 701. Esto se ilustra en la Fig. 7.
Sin embargo, cuando se usan diferentes ordenes de transposicion T, los diezmados daran como resultado diferentes desfases para la referencia cero, a no ser que la referencia cero este alineada con el tiempo "cero" de la senal de entrada. En consecuencia, es necesario realizar un ajuste de desfase de tiempo de las senales transpuestas diezmadas antes de que puedan sumarse en la unidad de suma 502. Como ejemplo, se supone un primer reemisor de orden T = 3 y un segundo reemisor de orden T = 4. Ademas, se supone que la senal de salida del descodificador central no esta sobremuestreada. Despues, el reemisor diezma la senal de tercer orden estirada en el tiempo segun un factor de 3/2 y la senal de cuarto orden estirada en el tiempo segun un factor de 2. Se interpretara simplemente que la senal de segundo orden estirada en el tiempo, es decir T = 2, presenta una frecuencia de muestreo mas alta en comparacion con la senal de entrada, es decir, una frecuencia de muestreo mas alta de factor 2, lo que hace que el tono de la senal de salida este desplazado en un factor de 2.
imagen10
Puede observarse que con el fin de alinear las senales transpuestas y submuestreadas, es necesario aplicar (T-2)L
desfases de tiempo de 4 a la senales transpuestas antes del diezmado, es decir, para transposiciones de
L L
tercer y cuarto orden deben aplicarse, respectivamente, desfases de ^ y -. Para verificar esto en un ejemplo concrete, se supondra que la referencia cero para una serial de segundo orden estirada en el tiempo corresponde al
L_
^ *
instante de tiempo o muestra ~ es decir, a la referencia cero 710 de la Fig. 7. Esto se debe a que no se lleva a cabo ningun diezmado. Para una serial de tercer orden estirada en el tiempo, la referencia se convertira en
L( 2^ L 3
3 ‘
v-v
debido a un submuestreo segun un factor de
Si el desfase de tiempo segun la regia antes
L L
----1----
2 4
V-V
L
2
Esto significa que la
mencionada se anade antes del diezmado, la referencia se convertira en referencia de la serial transpuesta submuestreada esta alineada con la referencia cero 710. De manera similar, para
L (1 "j L
la transposicion de cuarto orden sin desfase, la referencia cero corresponde a
pero cuando se usa el
5
10
15
20
25
30
35
40
45
50
55
60
desfase propuesto, la referencia se convierte en
imagen11
que esta alineada de nuevo con la referencia
cero de segundo orden 710, es decir, la referencia cero para la senal transpuesta usando T = 2.
Otro aspecto a tener en cuenta cuando se usan simultaneamente multiples ordenes de transposicion se refiere a las ganancias aplicadas a las secuencias transpuestas de diferentes factores de transposicion. Dicho de otro modo, se aborda el aspecto de combinar las senales de salida de los reemisores de diferente orden de transposicion. Hay dos principios a la hora de seleccionar la ganancia de las senales transpuestas, los cuales pueden tenerse en cuenta bajo diferentes enfoques teoricos. En primer lugar, se supone que las senales transpuestas conservan la energfa, lo que significa que se conserva la energfa total en la senal de banda baja que posteriormente se transpone para formar una senal de banda alta transpuesta segun un factor T. En este caso, la energfa por ancho de banda debe reducirse en el factor de transposicion T ya que la senal esta estirada en frecuencia en la misma cantidad T. Sin embargo, las sinusoides, cuya energfa esta dentro de un ancho de banda infinitamente pequeno, conservaran su energfa tras la transposicion. Esto se debe a que de la misma manera que un pulso de Dirac se mueve en el tiempo mediante el reemisor cuando se estira en el tiempo, es decir, de la misma manera que la duracion en el tiempo del pulso no vana mediante la operacion de estiramiento en el tiempo, una sinusoide se desplaza en frecuencia cuando se transpone, es decir, la duracion en frecuencia (dicho de otro modo, el ancho de banda) no vana por la operacion de transposicion de frecuencia. Es decir, aunque la energfa por ancho de banda se reduzca en T, la sinusoide tiene toda su energfa en un punto de frecuencia, de modo que se conserva la energfa de un punto.
La otra opcion a la hora de seleccionar la ganancia de las senales transpuestas es mantener la energfa por ancho de banda despues de la transposicion. En este caso, el ruido blanco de banda ancha y los transitorios mostraran una respuesta de frecuencia plana despues de la transposicion, mientras que la energfa de los sinusoides aumentara en un factor T.
Un aspecto adicional de la invencion es la eleccion de ventanas de vocodificador de fase de analisis y de smtesis cuando se usan ventanas de analisis comunes. Resulta beneficioso elegir con cuidado las ventanas de vocodificador de fase de analisis y de smtesis, es decir Va(n) y vs(n). No solo la ventana de smtesis vs(n) cumple la formula 2, antes mencionada, con el fin de permitir una reconstruccion perfecta. Ademas, la ventana de analisis Va(n) tambien debe rechazar de manera adecuada los niveles de lobulo lateral. En caso contrario, los terminos de "solapamiento" no deseados se oiran normalmente como interferencias con los terminos principales para sinusoides de frecuencia variable. Tales terminos de "solapamiento" no deseados tambien apareceran en sinusoides estacionarias en el caso de factores de transposicion pares, como se ha mencionado anteriormente.
La presente invencion propone el uso de ventanas de seno debido a su buen porcentaje de rechazo de lobulos laterales. Por tanto, se propone que la ventana de analisis sea
imagen12
Las ventanas de smtesis vs(n) seran o bien identicas a la ventana de analisis Va(n) o vendran dadas por la anterior formula (2) si al tamano de salto de smtesis Ats no es un factor de la longitud de ventana de analisis L, es decir, si la longitud de ventana de analisis L no es divisible por numeros enteros que representan el tamano de salto de smtesis. A modo de ejemplo, si L=1024 y Ats = 384, entonces 1024/384 = 2,667 no es un numero entero. Debe observarse que tambien es posible seleccionar un par de ventanas de analisis y de smtesis biortogonales como las descritas anteriormente. Esto puede ser beneficioso para la reduccion del solapamiento de la senal de salida, en particular cuando se usan ordenes de transposicion pares T.
A continuacion se hace referencia a la Fig. 10 y a la Fig. 11, que ilustran un codificador 1000 a modo de ejemplo y un descodificador 1100 a modo de ejemplo, respectivamente, para la codificacion de voz y audio unificada (USAC). La estructura general del codificador USAC 1000 y del descodificador 1100 se describe de la siguiente manera: En primer lugar, puede haber un procesamiento previo/posterior comun que consiste en que una unidad funcional MPEG Surround (MPEGS) gestione un procesamiento estereo o multicanal y que unidades de replicacion de banda espectral mejorada (eSBR) 1001 y 1101, respectivamente, gestionen la representacion parametrica de las frecuencias de audio superiores en la senal de entrada y usen los procedimientos de transposicion armonica descritos en el presente documento. Por tanto hay dos enfoques, uno que consiste en una trayectoria de herramienta de codificacion de audio avanzada (AAC) modificada y otro que consiste en una trayectoria basada en codificacion de prediccion lineal (dominio LP o LPC) que, a su vez, incluye una representacion en el dominio de frecuencia o una representacion en el dominio de tiempo del residuo LPC. Todos los espectros transmitidos para AAC y LPC pueden representarse en el dominio MDCT seguido de cuantificacion y codificacion aritmetica. La representacion en el dominio de tiempo puede usar un esquema de codificacion de excitacion ACELP.
La unidad de replicacion de banda espectral mejorada (eSBR) 1001 del codificador 1000 puede comprender componentes de reconstruccion de alta frecuencia descritos en el presente documento. En algunas formas de
5
10
15
20
25
30
35
40
45
50
55
realizacion, la unidad eSBR 1001 puede comprender una unidad de transposicion descrita en el contexto de las Fig. 4, 5 y 6. Los datos codificados relacionados con la transposicion armonica, por ejemplo el orden de transposicion usado, la cantidad de sobremuestreo de dominio de frecuencia necesario o las ganancias utilizadas, pueden obtenerse en el codificador 1000, fusionarse con la otra informacion codificada en un multiplexor de flujo de bits y reenviarse como un flujo de audio codificado a un descodificador 1100 correspondiente.
El descodificador 1100 mostrado en la Fig. 11 comprende ademas una unidad de replicacion de ancho de banda espectral mejorada (eSBR) 1101. Esta unidad eSBR 1101 recibe el flujo de bits de audio codificado o la senal codificada desde el codificador 1000 y usa los procedimientos descritos en el presente documento para generar una componente de alta frecuencia o banda alta de la senal, que se fusiona con la componente de baja frecuencia descodificada o banda baja para proporcionar una senal descodificada. La unidad eSBR 1101 puede comprender las diferentes componentes descritas en el presente documento. En particular, puede comprender la unidad de transposicion descrita en el contexto de las Fig. 4, 5 y 6. La unidad eSBR 1101 puede usar informacion de la componente de alta frecuencia proporcionada por el codificador 1000 a traves del flujo de bits con el fin de llevar a cabo la reconstruccion de alta frecuencia. Tal informacion puede ser la envolvente espectral de la componente de alta frecuencia original para generar las senales de subbanda de smtesis y, en ultima instancia, la componente de alta frecuencia de la senal descodificada, asf como el orden de transposicion usado, la cantidad de sobremuestreo de dominio de frecuencia necesario o las ganancias utilizadas.
Ademas, las Fig. 10 y 11 ilustran posibles componentes adicionales de un codificador/descodificador USAC, tal como:
• una herramienta de desmultiplexacion de datos utiles de flujos de bits, que separa los datos utiles de flujos de bits en partes para cada herramienta, y proporciona a cada una de las herramientas informacion de datos utiles de flujos de bits relacionada con esa herramienta;
• una herramienta de descodificacion sin ruido de factor de escala, que toma informacion del desmultiplexor de datos utiles de flujos de bits, analiza esa informacion y descodifica las factores de escala codificados de Huffman y DPCM;
• una herramienta de descodificacion sin ruido espectral, que toma informacion del desmultiplexor de datos utiles de flujos de bits, analiza esa informacion, descodifica los datos codificados de manera aritmetica y reconstruye los espectros cuantificados;
• una herramienta de cuantificacion inversa, que toma los valores cuantificados para los espectros y
convierte los valores enteros en los espectros reconstruidos no escalados; este cuantificador es
preferentemente un cuantificador de compresion-expansion, cuyo factor de compresion-expansion depende del modo de codificacion principal elegido;
• una herramienta de relleno de ruido, que se usa para llenar huecos espectrales de los espectros descodificados que se producen cuando los valores espectral se cuantifican a cero, por ejemplo debido a una fuerte restriccion en la demanda de bits en el codificador;
• una herramienta de reescalado, que convierte la representacion de numeros enteros de los factores de escala a los valores reales, y multiplica los espectros cuantificados de manera inversa no escalados por los factores de escala pertinentes;
• una herramienta M/S, como la descrita en la norma ISO/IEC 14496-3;
• una herramienta de conformacion de ruido temporal (TNS), como la descrita en la norma ISO/IEC 14496-3;
• una herramienta de conmutacion de banco de filtros / bloques, que aplica la inversa de la correlacion de
frecuencia que se llevo a cabo en el codificador; una transformada discreta del coseno modificada e inversa (IMDCT) se usa preferentemente para la herramienta de banco de filtros;
• una herramienta de conmutacion de banco de filtros / bloques de distorsion de tiempo, que sustituye a la herramienta de conmutacion de banco de filtros / bloques normal cuando se habilita el modo de distorsion de tiempo; el banco de filtros es preferentemente el mismo (IMDCT) que el banco de filtros normal; ademas, las muestras de dominio de tiempo divididas en ventanas se correlacionan desde el dominio de tiempo distorsionado al dominio de tiempo lineal mediante un remuestreo variable en el tiempo;
• una herramienta MPEG Surround (MPEGS), que produce multiples senales a partir de una o mas senales de entrada aplicando un procedimiento sofisticado de mezcla ascendente en la(s) senal(es) de entrada controlada(s) por parametros espaciales apropiados; en el contexto USAC se usa preferentemente MPEGS para codificar una senal multicanal mediante la transmision de informacion lateral parametrica junto con una senal transmitida mezclada de manera descendente;
• una herramienta de clasificacion de senales, que analiza la senal de entrada original y genera a partir de la misma informacion de control que activa la seleccion de los diferentes modos de codificacion; el analisis de
5
10
15
20
25
30
35
40
45
la senal de entrada depende normalmente de la implementacion y tratara de elegir el modo de codificacion principal optimo para una trama de senal de entrada dada; la salida del clasificador de senales tambien puede usarse opcionalmente para influir en el comportamiento de otras herramientas, por ejemplo MPEG Surround, SBR mejorada, banco de filtros de distorsion de tiempo, et.;
• una herramienta de filtros LPC, que produce una senal de dominio de tiempo a partir de una senal de dominio de excitacion mediante el filtrado de la senal de excitacion reconstruida a traves de un filtro de smtesis de prediccion lineal; y
• una herramienta ACELP, que proporciona una manera de representar de manera eficiente una senal de excitacion de dominio de tiempo combinando un predictor a largo plazo (palabra de codigo adaptativa) con una secuencia a modo de pulsos (palabra de codigo de innovacion).
La Fig. 12 ilustra una forma de realizacion de las unidades eSBR mostradas en las Fig. 10 y 11. A continuacion se describira la unidad eSBR 1200 en el contexto de un descodificador, donde la entrada en la unidad eSBR 1200 es la componente de baja frecuencia, tambien conocida como banda baja, de una senal.
En la Fig. 12, la componente de baja frecuencia 1213 se introduce en un banco de filtros QMF con el fin de generar bandas de frecuencia QMF. Estas bandas de frecuencia QMF no deben confundirse con las subbandas de analisis descritas en este documento. Las bandas de frecuencia QMF se usan con el proposito de manipular y fusionar la componente de baja y alta frecuencia de la senal en el dominio de frecuencia, en lugar de en el dominio de tiempo. La componente de baja frecuencia 1214 se introduce en la unidad de transposicion 1204, que corresponde a los sistemas de reconstruccion de alta frecuencia descritos en el presente documento. La unidad de transposicion 1204 genera una componente de alta frecuencia 1212, tambien denominada banda alta, de la senal, que se transforma al dominio de frecuencia mediante un banco de filtros QMF 1203. Tanto la componente de baja frecuencia transformada QMF como la componente de alta frecuencia transformada QMF se introducen en una unidad de manipulacion y fusion 1205. Esta unidad 1205 puede llevar a cabo un ajuste de envolvente de la componente de alta frecuencia y combina la componente de alta frecuencia ajustada y la componente de baja frecuencia. La senal de salida combinada vuelve a transformarse al dominio de tiempo mediante un banco de filtros QMF inversos 1201.
Normalmente, el banco de filtros QMF 1202 comprende 32 bandas de frecuencia QMF. En tales casos, la componente de baja frecuencia 1213 tiene un ancho de banda de fs / 4, donde fs / 2 es la frecuencia de muestreo de la senal 1213. La componente de alta frecuencia 1212 tiene normalmente un ancho de banda de fs / 2 y se filtra a traves del banco QMF 1203, que comprende 64 bandas de frecuencia QMF.
En el presente documento se ha descrito un procedimiento de transposicion armonica. Este procedimiento de transposicion armonica esta muy adaptado particularmente a la transposicion de senales transitorias. Comprende la combinacion de sobremuestreo de dominio de frecuencia con la transposicion armonica usando vocodificadores. La operacion de transposicion depende de la combinacion de la ventana de analisis, del avance de ventana de analisis, del tamano de transformada, de la ventana de smtesis, del avance de ventana de smtesis, asf como de ajustes de fase de la senal analizada. Con este procedimiento pueden evitarse efectos no deseados, tales como ecos previos y posteriores. Ademas, el procedimiento no usa medidas de analisis de senales, tales como deteccion de transitorios, que normalmente introducen distorsiones de senal debido a discontinuidades en el procesamiento de las senales. Ademas, el procedimiento propuesto solo tiene una complejidad computacional reducida. El procedimiento de transposicion armonica segun la invencion puede mejorarse ademas mediante una seleccion apropiada de ventanas de analisis/smtesis, valores de ganancia y/o alineacion de tiempo.

Claims (15)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    REIVINDICACIONES
    1. Un sistema para transponer una senal de audio de entrada (312) segun un factor de transposicion T, comprendiendo el sistema:
    - medios (601, 602) para extraer una trama de L muestras de dominio de tiempo de la senal de entrada (312) usando una ventana de analisis (311) que tiene la funcion
    imagen1
    - medios (603) para transformar las L muestras de dominio de tiempo en M coeficientes complejos de dominio de frecuencia;
    - una unidad de procesamiento no lineal (604) para modificar una fase de los coeficientes complejos de dominio de frecuencia usando el factor de transposicion T;
    - medios (605) para transformar los M coeficientes complejos modificados de dominio de frecuencia en M muestras modificadas de dominio de tiempo; y
    - medios (606) para generar una trama de L muestras de salida de dominio de tiempo a partir de las M muestras modificadas de dominio de tiempo usando una ventana de smtesis (321);
    donde M=F*L, siendo F mayor que o igual a (T+1)/2.
  2. 2. El sistema segun la reivindicacion anterior, en el que la modificacion de la fase comprende multiplicar la fase por el factor de transposicion T.
  3. 3. El sistema segun cualquier reivindicacion anterior, en el que la ventana de analisis (311) tiene una longitud L con relleno de ceros mediante (F-1)*L ceros adicionales.
  4. 4. El sistema segun cualquier reivindicacion anterior, en el que los medios (605) de transformacion comprenden una unidad de transformacion de analisis (603) de tamano M para transformar las L muestras de dominio de tiempo en M coeficientes complejos de dominio de frecuencia.
  5. 5. El sistema segun cualquier reivindicacion anterior, que comprende ademas:
    - una unidad de avance de analisis (601) para desplazar la ventana de analisis segun un avance de analisis a lo largo de la senal de entrada, generandose asf tramas sucesivas de la senal de entrada;
    - una unidad de avance de smtesis (607) para desplazar tramas sucesivas de L muestras de salida de dominio de tiempo segun un avance de smtesis; y
    - una unidad de solapamiento y suma (608) para solapar y sumar las sucesivas tramas desplazadas de L muestras de salida de dominio de tiempo, generandose asf una senal de salida.
  6. 6. El sistema segun la reivindicacion 5, que comprende ademas una unidad de contraccion (609) para aumentar la velocidad de muestreo de la senal de salida segun el orden de transposicion T, obteniendose asf una senal de salida transpuesta.
  7. 7. El sistema segun la reivindicacion 6, en el que el avance de smtesis es T veces el avance de analisis.
  8. 8. El sistema segun la reivindicacion 6, que comprende ademas:
    - una segunda unidad de procesamiento no lineal para modificar la fase de los coeficientes complejos de dominio de frecuencia usando un segundo factor de transposicion T2, lo que proporciona una trama de L segundas muestras de salida de dominio de tiempo; y
    - una segunda unidad de avance de smtesis para desplazar tramas sucesivas de L segundas muestras de salida de dominio de tiempo segun un segundo avance de smtesis, lo que genera una segunda senal de salida en la unidad de solapamiento y suma.
  9. 9. El sistema segun la reivindicacion 8, que comprende ademas:
    - una segunda unidad de contraccion configurada para usar el segundo orden de transposicion T2, lo que proporciona una segunda senal de salida transpuesta; y
    5
    10
    15
    20
    25
    30
    35
    40
    - una unidad de combinacion para fusionar la senal de salida transpuesta y la segunda senal de salida transpuesta.
  10. 10. Un procedimiento para transponer una senal de audio de entrada (312) segun un factor de transposicion T, comprendiendo el procedimiento:
    - extraer una trama de L muestras de dominio de tiempo de la senal de entrada (312) usando una ventana de analisis (311) que tiene la funcion
    fn
    v(«) = sin — (« + 0.5)
    L
    ,0 <n<L
    - transformar las L muestras de dominio de tiempo en M coeficientes complejos de dominio de frecuencia;
    - modificar una fase de los coeficientes complejos de dominio de frecuencia usando el factor de transposicion T;
    - transformar los M coeficientes complejos modificados de dominio de frecuencia en M muestras modificadas de dominio de tiempo; y
    - generar una trama de L muestras de salida de dominio de tiempo a partir de las M muestras modificadas de dominio de tiempo usando una ventana de smtesis (321); donde M=F*L, siendo F mayor que o igual a (T+1)/2.
  11. 11. El procedimiento segun la reivindicacion 10, en el que transformar las L muestras de dominio de tiempo en M coeficientes complejos de dominio de frecuencia consiste en llevar a cabo una de entre una transformada de Fourier, una transformada rapida de Fourier, una transformada discreta de Fourier y una transformada de ondmulas.
  12. 12. El procedimiento segun la reivindicacion 10, que comprende ademas las etapas de:
    - desplazar la ventana de analisis segun un avance de analisis a lo largo de la senal de entrada, generandose asf tramas sucesivas de la senal de entrada (312);
    - desplazar tramas sucesivas de L muestras de salida de dominio de tiempo segun un avance de smtesis; y
    - solapar y sumar las sucesivas tramas desplazadas de L muestras de salida de dominio de tiempo, generandose asf una senal de salida.
  13. 13. El procedimiento segun la reivindicacion 12, que comprende ademas la etapa de llevar a cabo un submuestreo de la senal de salida segun el orden de transposicion T manteniendo al mismo tiempo la misma velocidad de muestreo, proporcionandose asf una senal de salida transpuesta.
  14. 14. El procedimiento segun la reivindicacion 10, en el que una transformada z de la ventana de analisis (311) tiene dos ceros en el cfrculo unitario.
  15. 15. Un medio de almacenamiento que comprende un programa de software adaptado para ejecutarse en un procesador y para realizar las etapas de procedimiento segun cualquiera de las reivindicaciones 10 a 14 cuando se lleva a cabo en un dispositivo informatico.
ES15176581.5T 2009-01-28 2010-03-12 Transposición armónica mejorada Active ES2639716T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
SE0900087 2009-01-28
SE0900087 2009-01-28
US24362409P 2009-09-18 2009-09-18
US243624P 2009-09-18

Publications (1)

Publication Number Publication Date
ES2639716T3 true ES2639716T3 (es) 2017-10-30

Family

ID=42136074

Family Applications (1)

Application Number Title Priority Date Filing Date
ES15176581.5T Active ES2639716T3 (es) 2009-01-28 2010-03-12 Transposición armónica mejorada

Country Status (8)

Country Link
US (4) US9236061B2 (es)
EP (5) EP2392005B1 (es)
AU (1) AU2010209673B2 (es)
CA (4) CA2749239C (es)
ES (1) ES2639716T3 (es)
PL (1) PL3246919T3 (es)
RU (1) RU2493618C2 (es)
WO (1) WO2010086461A1 (es)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2293294B1 (en) 2008-03-10 2019-07-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Device and method for manipulating an audio signal having a transient event
PT2359366T (pt) * 2008-12-15 2017-01-20 Fraunhofer Ges Forschung Codificador de áudio e descodificador de extensão de largura de banda
US8971551B2 (en) 2009-09-18 2015-03-03 Dolby International Ab Virtual bass synthesis using harmonic transposition
KR101410312B1 (ko) 2009-07-27 2014-06-27 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
KR101379261B1 (ko) * 2009-09-17 2014-04-02 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
JP5345737B2 (ja) 2009-10-21 2013-11-20 ドルビー インターナショナル アーベー 結合されたトランスポーザーフィルターバンクにおけるオーバーサンプリング
WO2011048792A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 音響信号処理装置、音響符号化装置および音響復号装置
RU2596033C2 (ru) 2010-03-09 2016-08-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ получения улучшенной частотной характеристики и временного фазирования способом расширения полосы аудио сигналов в фазовом вокодере
CN102934164B (zh) 2010-03-09 2015-12-09 弗兰霍菲尔运输应用研究公司 改变回放速度或音调时处理音频信号中瞬态声音事件的设备和方法
PL3570278T3 (pl) 2010-03-09 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja wysokiej częstotliwości wejściowego sygnału audio przy użyciu kaskadowych banków filtrów
MY176904A (en) 2010-06-09 2020-08-26 Panasonic Ip Corp America Bandwidth extension method, bandwidth extension apparatus, program, integrated circuit, and audio decoding apparatus
US8958510B1 (en) * 2010-06-10 2015-02-17 Fredric J. Harris Selectable bandwidth filter
US8948403B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Method of processing signal, encoding apparatus thereof, decoding apparatus thereof, and signal processing system
CN103270553B (zh) * 2010-08-12 2015-08-12 弗兰霍菲尔运输应用研究公司 对正交镜像滤波器式音频编译码器的输出信号的重新取样
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CA3067155C (en) * 2010-09-16 2021-01-19 Dolby International Ab Cross product enhanced subband block based harmonic transposition
JP6100164B2 (ja) * 2010-10-06 2017-03-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号を処理し、音声音響統合符号化方式(usac)のためにより高い時間粒度を供給するための装置および方法
CN106409305B (zh) * 2010-12-29 2019-12-10 三星电子株式会社 用于针对高频带宽扩展进行编码/解码的设备和方法
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
CN106157968B (zh) * 2011-06-30 2019-11-29 三星电子株式会社 用于产生带宽扩展信号的设备和方法
US9530424B2 (en) 2011-11-11 2016-12-27 Dolby International Ab Upsampling using oversampled SBR
KR20150012146A (ko) * 2012-07-24 2015-02-03 삼성전자주식회사 오디오 데이터를 처리하기 위한 방법 및 장치
ES2924427T3 (es) * 2013-01-29 2022-10-06 Fraunhofer Ges Forschung Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta
KR101757349B1 (ko) 2013-01-29 2017-07-14 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 부대역들의 시간적 평활을 이용하여 주파수 향상 신호를 발생시키는 장치 및 방법
IL294836A (en) 2013-04-05 2022-09-01 Dolby Int Ab Audio encoder and decoder
WO2014168777A1 (en) * 2013-04-10 2014-10-16 Dolby Laboratories Licensing Corporation Speech dereverberation methods, devices and systems
US9858932B2 (en) * 2013-07-08 2018-01-02 Dolby Laboratories Licensing Corporation Processing of time-varying metadata for lossless resampling
EP3044790B1 (en) * 2013-09-12 2018-10-03 Dolby International AB Time-alignment of qmf based processing data
US10580417B2 (en) * 2013-10-22 2020-03-03 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for binaural rendering audio signal using variable order filtering in frequency domain
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
DE102014003057B4 (de) * 2014-03-10 2018-06-14 Ask Industries Gmbh Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US10129659B2 (en) 2015-05-08 2018-11-13 Doly International AB Dialog enhancement complemented with frequency transposition
WO2017080835A1 (en) * 2015-11-10 2017-05-18 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
US9959877B2 (en) 2016-03-18 2018-05-01 Qualcomm Incorporated Multi channel coding
EP3246923A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
US10362423B2 (en) 2016-10-13 2019-07-23 Qualcomm Incorporated Parametric audio decoding
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
GB2561594A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Spatially extending in the elevation domain by spectral extension

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4246617A (en) * 1979-07-30 1981-01-20 Massachusetts Institute Of Technology Digital system for changing the rate of recorded speech
JPS638110A (ja) 1986-06-26 1988-01-13 Nakanishi Kinzoku Kogyo Kk ロ−ラ・コンベアのロ−ラ
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
JP3442974B2 (ja) 1997-07-30 2003-09-02 本田技研工業株式会社 吸収式冷凍機の精留装置
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
EP1039442B1 (en) * 1999-03-25 2006-03-01 Yamaha Corporation Method and apparatus for compressing and generating waveform
JP3638110B2 (ja) 2000-02-02 2005-04-13 富士電機システムズ株式会社 固体レーザ装置
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
AUPR141200A0 (en) * 2000-11-13 2000-12-07 Symons, Ian Robert Directional microphone
ATE353503T1 (de) 2001-04-24 2007-02-15 Nokia Corp Verfahren zum ändern der grösse eines zitlerpuffers zur zeitausrichtung, kommunikationssystem, empfängerseite und transcoder
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
WO2003027876A1 (en) * 2001-09-26 2003-04-03 Jodie Lynn Reynolds System and method for communicating media signals
US6912495B2 (en) * 2001-11-20 2005-06-28 Digital Voice Systems, Inc. Speech model and analysis, synthesis, and quantization methods
ES2237706T3 (es) 2001-11-29 2005-08-01 Coding Technologies Ab Reconstruccion de componentes de alta frecuencia.
KR20060132697A (ko) * 2004-02-16 2006-12-21 코닌클리케 필립스 일렉트로닉스 엔.브이. 트랜스코더 및 트랜스코딩 방법
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
PL1810281T3 (pl) 2004-11-02 2020-07-27 Koninklijke Philips N.V. Kodowanie i dekodowanie sygnałów audio z wykorzystaniem banków filtrów o wartościach zespolonych
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
AU2005201813B2 (en) * 2005-04-29 2011-03-24 Phonak Ag Sound processing with frequency transposition
JP5032314B2 (ja) * 2005-06-23 2012-09-26 パナソニック株式会社 オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
US7197453B2 (en) * 2005-07-29 2007-03-27 Texas Instruments Incorporated System and method for optimizing the operation of an oversampled discrete Fourier transform filter bank
CN101233506A (zh) 2005-07-29 2008-07-30 德克萨斯仪器股份有限公司 优化过采样离散傅立叶变换滤波器组的操作的系统和方法
US7565289B2 (en) * 2005-09-30 2009-07-21 Apple Inc. Echo avoidance in audio time stretching
US20070083377A1 (en) * 2005-10-12 2007-04-12 Steven Trautmann Time scale modification of audio using bark bands
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
TWI339991B (en) 2006-04-27 2011-04-01 Univ Nat Chiao Tung Method for virtual bass synthesis
US7818079B2 (en) * 2006-06-09 2010-10-19 Nokia Corporation Equalization based on digital signal processing in downsampled domains
EP1879293B1 (en) 2006-07-10 2019-02-20 Harman Becker Automotive Systems GmbH Partitioned fast convolution in the time and frequency domain
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
EP2076901B8 (en) * 2006-10-25 2017-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
ES2658942T3 (es) 2007-08-27 2018-03-13 Telefonaktiebolaget Lm Ericsson (Publ) Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable
US8121299B2 (en) * 2007-08-30 2012-02-21 Texas Instruments Incorporated Method and system for music detection
US8706496B2 (en) * 2007-09-13 2014-04-22 Universitat Pompeu Fabra Audio signal transforming by utilizing a computational cost function
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
EP2293294B1 (en) * 2008-03-10 2019-07-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Device and method for manipulating an audio signal having a transient event
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
ES2901735T3 (es) * 2009-01-16 2022-03-23 Dolby Int Ab Transposición armónica mejorada de productos de cruce
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
CO6440537A2 (es) * 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
US8971551B2 (en) 2009-09-18 2015-03-03 Dolby International Ab Virtual bass synthesis using harmonic transposition

Also Published As

Publication number Publication date
EP3751570B1 (en) 2021-12-22
AU2010209673B2 (en) 2013-05-16
US20200294516A1 (en) 2020-09-17
EP2953131A1 (en) 2015-12-09
EP3751570A1 (en) 2020-12-16
CA2749239C (en) 2017-06-06
EP2674943B1 (en) 2015-09-02
US20160035361A1 (en) 2016-02-04
EP2953131B1 (en) 2017-07-26
EP3246919B1 (en) 2020-08-26
US10600427B2 (en) 2020-03-24
CA3076203C (en) 2021-03-16
US20180315434A1 (en) 2018-11-01
CA2749239A1 (en) 2010-08-05
WO2010086461A1 (en) 2010-08-05
RU2493618C2 (ru) 2013-09-20
AU2010209673A1 (en) 2011-07-28
EP2674943A3 (en) 2014-03-19
US20110004479A1 (en) 2011-01-06
RU2011131717A (ru) 2013-02-20
PL3246919T3 (pl) 2021-03-08
CA3107567C (en) 2022-08-02
EP3246919A1 (en) 2017-11-22
US10043526B2 (en) 2018-08-07
EP2674943A2 (en) 2013-12-18
CA3076203A1 (en) 2010-08-05
US11100937B2 (en) 2021-08-24
WO2010086461A8 (en) 2011-11-24
CA2966469C (en) 2020-05-05
EP2392005A1 (en) 2011-12-07
US9236061B2 (en) 2016-01-12
CA3107567A1 (en) 2010-08-05
EP2392005B1 (en) 2013-10-16
CA2966469A1 (en) 2010-08-05

Similar Documents

Publication Publication Date Title
ES2639716T3 (es) Transposición armónica mejorada
JP7271616B2 (ja) 高調波転換
US11562755B2 (en) Harmonic transposition in an audio coding method and system
AU2021204779B2 (en) Improved Harmonic Transposition
AU2022291476B2 (en) Improved Harmonic Transposition