ES2298394T3 - Mejora de sesiones transitorias de sistemas de codificacion de señales de audiofrecuencia a baja velocidad de transferencia de bits por reduccion de preruidos. - Google Patents

Mejora de sesiones transitorias de sistemas de codificacion de señales de audiofrecuencia a baja velocidad de transferencia de bits por reduccion de preruidos. Download PDF

Info

Publication number
ES2298394T3
ES2298394T3 ES02769666T ES02769666T ES2298394T3 ES 2298394 T3 ES2298394 T3 ES 2298394T3 ES 02769666 T ES02769666 T ES 02769666T ES 02769666 T ES02769666 T ES 02769666T ES 2298394 T3 ES2298394 T3 ES 2298394T3
Authority
ES
Spain
Prior art keywords
audio frequency
transient
time
noise
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES02769666T
Other languages
English (en)
Inventor
Brett G. Crockett
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2298394T3 publication Critical patent/ES2298394T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Analogue/Digital Conversion (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Un método para reducir los artefactos de distorsión .que preceden a un transitorio de señal en un tren de señales de audiofrecuencia subsiguiente a una transformación inversa, en el descodificador o en un sistema de codificación de audiofrecuencia a baja velocidad de transferencia de bits basado en transformación, que emplea bloques de codificación, cuyo método comprende recibir información de metadatos que es útil en la reducción de la duración del pre-ruido del transitorio, cuya información de metadatos incluye la ubicación de transitorios, y alterar la duración de tiempo de al menos una parte de dichos artefactos de distorsión, en respuesta a dicha información de metadatos, de tal manera que se reduce la duración de tiempo de dichos artefactos de distorsión.

Description

Mejora de sesiones transitorias de sistemas de codificación de señales de audiofrecuencia a baja velocidad de transferencia de bits por reducción de pre-ruidos.
Campo técnico
El invento se refiere en general a la codificación de transformación digital a baja velocidad de transferencia de bis y a la descodificación de información que represente señales de audiofrecuencia tales como señales de música o señales vocales. Más particularmente, el invento se refiere a la reducción de artefactos de distorsión que preceden a un transitorio de señal ("pre-ruido")
Antecedentes en la técnica anterior Escalamiento de tiempo
El término "escalamiento de tiempo" se refiere a la alteración de la evolución o duración en el tiempo de una señal de audiofrecuencia al mismo tiempo que no se altera su contenido espectral (timbre percibido) o tono percibido (donde el tono es una característica en relación de asociación con señales periódicas de audiofrecuencia). El escalamiento de tono se refiere a la modificación del contenido espectral o tono percibido de una señal de audiofrecuencia mientras no se afecta a su evolución o duración el tiempo. El escalamiento de tiempo y el escalamiento de tono son métodos duales entre sí. Por ejemplo, un tono de señal de audiofrecuencia digitalizada se podría incrementar en un 5% sin afectar su duración en el tiempo mediante su escalamiento de tiempo en un 5% (es decir, incrementando la duración del tiempo de la señal) y luego la extracción de información de las muestras en una velocidad de variación de las muestras un 5% mayor (por ejemplo, por re-muestreo), manteniendo de ese modo su duración de tiempo original. La señal resultante tiene la misma duración de tiempo que la señal original, pero con un tono o unas características espectrales modificados. El re-muestreo no es una etapa esencial del escalamiento de tiempo o del escalamiento de tono, a no ser que se desee mantener una velocidad de muestreo de salida constante o mantener iguales las velocidades de muestreo de entrada y salida.
En aspectos del presente invento, se emplea el procesamiento de escalamiento de tiempo de trenes de señales de audiofrecuencia. Sin embargo, según se ha mencionado anteriormente, el escalamiento de tiempo se podría realizar también usando técnicas de escalamiento de tono, puesto que son duales entre sí. Así, aunque en la presente memoria se usa el término "escalamiento de tiempo", se podrían emplear también técnicas que empleen escalamiento de tono para obtener escalamiento de tiempo.
Codificación de señales de audiofrecuencia a baja velocidad de transferencia de bits
Entre los dedicados al campo del tratamiento de señales, existe un interés considerable en minimizar la cantidad de información requerida para representar una señal sin una pérdida perceptible en la calidad de la señal. Mediante la reducción de los requisitos de información, las señales imponen menos requisitos de capacidad de información sobre los canales de comunicación y medios de almacenamiento. Con respecto a las técnicas de codificación digital, los requisitos mínimos de información son sinónimos con los mínimos requisitos de bit binario.
Algunas técnicas anteriores para codificar señales de audiofrecuencia destinadas a la audición humana intentan reducir requisitos de información sin producir ninguna degradación audible mediante la explotación de efectos sico-acústicos. El oído humano presenta propiedades de análisis de frecuencias que se parecen a los filtros sintonizados muy asimétricos que tienen frecuencias centrales variables. La capacidad del oído humano para detectar tonos distintos aumenta en general cuando lo hace la diferencia de frecuencias entre los tonos; sin embargo, la capacidad de resolución del oído permanece sustancialmente constante para diferencias de frecuencias menores que el ancho de banda de los filtros anteriormente mencionados. Por tanto, la capacidad de resolución de frecuencias del oído humano varía según el ancho de banda de estos filtros a lo largo de todo el espectro de audiofrecuencias. Al ancho de banda eficaz de dicho filtro auditivo se hace referencia como una banda crítica. Una señal dominante dentro de una banda crítica tiene más probabilidades de enmascarar la audibilidad de otras señales en cualquier parte dentro de la banda crítica que otras señales en frecuencias exteriores a esa banda crítica. Una señal dominante podría enmascarar otras señales que se produzcan no sólo al mismo tiempo que la señal de enmascaramiento, sino que también ocurran antes y después que la señal de enmascaramiento La duración de los efectos de pre- y post-enmascaramiento dentro de una banda crítica depende de la amplitud de la señal de enmascaramiento, pero usualmente los efectos del pre-enmascaramiento son de una duración mucho menor que los efectos del post-enmascaramiento. Véase, con carácter general, el Manual de ingeniería de audiofrecuencia (Audio Engineering Handbook) K. Blair Benson editores, Mc-Graw-Hill, San Francisco 1988, páginas 1.40 -1.42 y 4.8-4.10
Las técnicas de registro y transmisión de señales que dividen el ancho de banda útil de la señal en bandas de frecuencias con anchos de banda que se aproximen a las bandas críticas del oído pueden aprovechar mejor los efectos sico-acústicos que las técnicas de banda más ancha. Las técnicas que explotan los efectos de enmascaramiento sico-acústico pueden codificar y reproducir una señal que sea indistinguible de la señal de entrada original usando una velocidad de transferencia de bits inferior a la requerida por la codificación con modulación por impulsos modificados (en adelante PCM).
Las técnicas de banda crítica comprenden dividir el ancho de banda de la señal en bandas de frecuencia, tratar la señal de cada banda de frecuencia, y reconstruir una réplica de la señal original a partir de la señal tratada de cada banda de frecuencia. Dos de dichas técnicas son la codificación sub-banda y la codificación de transformación. Los codificadores de sub-banda y transformación pueden reducir los requisitos de información transmitida en bandas particulares de frecuencia donde la imprecisión de codificación resultante (ruido) esté enmascarada en forma sico-acústica por componentes espectrales vecinos sin degradar la calidad subjetiva de la señal codificada.
Un banco de filtros de paso de banda digitales podría implementar codificación sub-banda. La codificación de transformación se podría implementar por alguna de varias de las transformaciones discretas de dominio de tiempo a dominio de frecuencia que implementa un banco de filtros de paso de banda digitales. La descripción restante se refiere más particularmente a códigos de transformación, por tanto el término "sub-banda" se refiere en este caso a partes seleccionadas del ancho de banda total de la señal, ya sea implementada por un codificador de sub-banda o por un codificador de transformación. Una sub-banda tal como se implementa por un codificador de transformación se define por un conjunto de uno o más de coeficientes de transformación adyacentes; de aquí que el ancho de banda de sub-banda es un múltiplo del ancho de banda del coeficiente de transformación, El ancho de banda de un coeficiente de transformación es directamente proporcional a la velocidad de muestreo de la señal de entrada e inversamente proporcional al número de coeficientes generados por la trasformación para representar la señal de entrada.
El enmascaramiento sico-acústico se podría llevar a cabo de un modo más sencillo mediante códigos de transformación si el ancho de banda de sub-banda a lo largo de todo el espectro audible es aproximadamente la mitad del ancho de banda crítico del oído humano en las mismas partes del espectro. Ello se debe a que las bandas críticas del oído humano tienen frecuencias centrales variables que se adaptan a estímulos auditivos, mientras que los codificadores de sub-banda y de transformación tienen típicamente frecuencias centrales de sub-banda fijas. Para optimizar la utilización de los efectos de enmascaramiento sico-acústico, cualesquiera artefactos de distorsión resultantes de la presencia de una señal dominante deberían limitarse a la sub-banda que contenga la señal dominante. Si el ancho de banda de la sub-banda es aproximadamente la mitad o menos de la mitad de la banda crítica y si la selectividad del filtro es suficientemente elevada, tendrá probabilidades de producirse un enmascaramiento efectivo de los productos de distorsión indeseables aún para señales cuya frecuencia esté cerca del borde del ancho de banda de paso de banda de la sub-banda. Si el ancho de banda de la sub-banda es más de la mitad que una banda crítica, hay una posibilidad de que la señal dominante pueda causar que la banda crítica del oído se descentre del codificador de sub-banda de tal manera que no se enmascaren algunos de los productos de distorsión indeseables situados en el exterior del ancho de banda crítico del oído. Este efecto es más objecionable en frecuencias bajas, en donde la banda crítica del oído es más estrecha.
La probabilidad de que una señal dominante pueda causar que la banda crítica del oído se descentre de una sub-banda de codificador y por tanto "descubra" otras señales de la misma sub-banda de codificador es generalmente mayor a bajas frecuencias, en donde la banda crítica del oído es más estrecha. En los códigos de transformación, la sub-banda más estrecha posible es un coeficiente de transformación, por lo que el enmascaramiento sico-acústico se podría realizar más fácilmente si el ancho de banda del coeficiente de transformación no sobrepasa la mitad del ancho de banda de la banda crítica de máxima estrechez del oído. Un aumento de la longitud de la transformación podría disminuir el ancho de banda del coeficiente de transformación. Un inconveniente de aumentar la longitud de la transformación es un aumento en la complejidad del tratamiento para calcular la transformación y en codificar números mayores de sub-bandas más estrechas. Otros inconvenientes se exponen más adelante.
Por supuesto, el enmascaramiento sico-acústico se podría obtener usando sub-bandas más anchas si la frecuencia central de estas sub-bandas se puede cambiar para que siga a los componentes de la señal dominante del mismo modo que cambia la frecuencia central de la banda crítica del oído.
La capacidad de un codificador de transformación para explotar los efectos de enmascaramiento sico-acústico depende también de la selectividad del banco de filtros implementado por la transformación. El término "selectividad" de filtro, tal como se usa en la presente memoria, se refiere a dos características de los filtros de paso de banda de sub-banda. La primera es el ancho de banda de las regiones situadas entre el paso de banda del filtro y las bandas atenuadas (la anchura de las bandas de transición). La segunda es el nivel de atenuación en las bandas atenuadas. De este modo, la selectividad de filtro se refiere al escarpe de la curva de respuesta del filtro dentro de las bandas de transición (escarpe de la atenuación progresiva de la banda de transición), y al nivel de atenuación en las bandas atenuadas (profundidad de rechazo de banda atenuada).
La selectividad del filtro está afectada directamente por numerosos factores incluyendo los tres factores que se exponen más adelante: longitud de bloque, funciones de ponderación de ventana, y transformaciones. En un sentido muy general, la longitud de bloque afecta a la resolución temporal y de frecuencia del codificador, y las ventanas y las transformaciones afectan a la ganancia de codificación.
Codificación de audiofrecuencia a baja velocidad de transferencia de bits/longitud de bloque
La señal de entrada a codificar se muestrea y segmenta en "bloques de muestra de señal" antes de la filtración de sub-banda. El número de muestras contenido en el bloque de muestras de señal es la longitud de bloque de la muestra de señal.
Es común que el número de coeficientes generados por un banco de filtros de transformación (longitud de transformación) sea igual a la longitud de bloque de muestras de señal, pero no es necesario. Se podría usar una transformación de bloque superpuesta, y a veces se describe en la técnica como una transformación de longitud N que transforma bloques de muestras de señal con 2N muestras. Se puede describir también como una transformación de longitud 2N que genera solamente coeficientes exclusivos N. Como se puede considerar que todas las transformaciones que se describen en la presente memoria tienen longitudes iguales a la longitud de bloque de muestras de señal, generalmente se usan en la presente memoria las dos longitudes como sinónimos una de otra.
La longitud de bloque de muestras de señal afecta a la resolución temporal y de frecuencia de un codificador de transformación. Los codificadores de transformación que usan longitudes de bloque más cortas tienen una resolución de frecuencia más deficiente, porque el ancho de banda del coeficiente discreto de transformación es más ancho y la selectividad de filtro es menor (menor velocidad de variación de la atenuación progresiva de la banda de transición y un nivel menor de rechazo de banda atenuada). Esta degradación en el comportamiento del filtro causa que la energía de un solo componente espectral se disperse en coeficientes de transformación vecinos. Esta dispersión indeseable de energía espectral es el resultado de un comportamiento degradado del filtro denominado "fugas de lóbulo lateral".
Los codificadores de transformación que usan mayores longitudes de bloque tienen una resolución temporal más deficiente, porque los errores de cuantificación causan que un sistema codificador/descodificador de transformación "manche" los componentes de frecuencia de una señal muestreada a través de toda la longitud del bloque de muestras de señal. Los artefactos de distorsión presentes en la señal recuperados de la transformación inversa son los más audibles como resultado de grandes cambios en la amplitud de la señal que ocurren durante un intervalo de tiempo mucho más corto que la longitud del bloque de muestras de señal. A estos cambios de amplitud se hace referencia en la presente memoria como "transitorios". Dicha distorsión se manifiesta como un ruido en la forma de un eco u oscilación transitoria justo antes (ruido de pre-transitorio o "pre-ruido") o justo después (ruido post-transitorio) del transitorio. El pre-ruido tiene un interés particular porque es muy audible y, a diferencia del ruido post-transitorio, está mínimamente enmascarado (un transitorio proporciona solamente un pre-enmascaramiento temporal mínimo). El pre-ruido se produce cuando los componentes de alta frecuencia del material de transitorios de audiofrecuencia se manchan temporalmente a través de la longitud del bloque de codificador de audiofrecuencia en el que ocurre. El presente invento concierne sustancialmente a la minimización del pre-ruido. El ruido post-transitorio típicamente está enmascarado de un modo sustancial. y no es el objeto de este invento.
Los codificadores s de transformación de longitud fija de bloque usan una longitud de bloque de compromiso que compensa la resolución temporal contra la resolución de frecuencia. Una longitud de bloque corta degrada la selectividad de filtro de sub-banda, que podría resultar en un ancho de banda nominal de filtro de banda de paso que exceda el ancho de banda crítico del oído a frecuencias más bajas o a todas las frecuencias. Incluso si el ancho de banda nominal de sub-banda es más estrecho que el ancho de banda crítico del oído, las características degradadas del filtro manifestadas como una banda de transición amplia y/o rechazo de banda atenuada deficiente podrían resultar en significativos artefactos de señal fuera del ancho de banda crítico del oído. Por el contrario, una longitud grande de bloque podría mejorar la selectividad del filtro, pero reduce la resolución temporal, lo cual podría dar lugar a que ocurriese una distorsión de señal audible fuera del intervalo de enmascaramiento sico-acústico temporal del
oído.
Función de ponderación de ventana
Las transformaciones discretas no producen un conjunto perfectamente preciso de coeficientes de frecuencia, porque trabajan con solamente un segmento de longitud finita de la señal, el bloque de muestras de señal. Estrictamente hablando, las transformaciones discretas producen una representación tiempo-frecuencia de la señal de entrada en el dominio del tiempo más bien que una representación verdadera en el dominio de la frecuencia, que requeriría infinitas longitudes de bloque de muestras de señal. Sin embargo, por conveniencia de la descripción, en la presente memoria a la salida de las transformaciones discretas se hace referencia como una representación en el dominio de la frecuencia. En realidad, la transformación discreta supone que la señal muestreada solamente tiene componentes de frecuencia cuyos períodos son un submúltiplo de la longitud de bloque de muestras de señal. Esto es equivalente a una hipótesis de que la señal de longitud finita es periódica. Por supuesto, la hipótesis en general no es cierta. La periodicidad supuesta crea discontinuidades en los bordes del bloque de muestras de señal que causan que la transformación cree componentes espectrales fantasmas.
Una técnica que minimiza este efecto es la reducción de la discontinuidad antes de la transformación mediante la ponderación de las muestras de señal de tal manera que las muestras situadas cerca de los bordes del bloque de muestras de señal sean cero o muy cerca de cero. Las muestras situadas en el centro del bloque de muestras de señal pasan generalmente sin cambiar, es decir, ponderadas por un factor de uno. Esta función de ponderación se denomina una "ventana de análisis". La forma de la ventana afecta directamente a la selectividad del filtro.
Tal como se usa en la presente memoria, el término "ventana de análisis" se refiere solamente a la función de selección de ventana realizada antes de la aplicación de la transformación directa. La ventana de análisis es una función de dominio en el tiempo. Si no se provee compensación por los efectos "ventana", la señal recuperada o "sintetizada" se distorsiona de acuerdo con la forma de la ventana de análisis En la técnica es bien conocido un método de compensación conocido como solapar-añadir. Este método requiere que el codificador transforme bloques solapados de muestras de señal de entrada. Diseñando cuidadosamente la ventana de análisis de tal manera que dos ventanas adyacentes se añadan a la unidad a través de la solapa, los efectos de la ventana se compensan exactamente. La forma de la ventana afecta significativamente. Véase en general el documento de Harris titulado "Sobre el uso de ventanas para análisis de armónicos con la transformada discreta de Fourier", Actas de l IEEE, volumen 66, enero, 1978, págs. 51-83. Como regla general, las ventanas de forma "más suave" y los intervalos mayores de solapa proporcionan una mejor selectividad, Por ejemplo, una ventana Kaisser- Bessel generalmente provee una selectividad de filtro mayor que una ventana rectangular estrechada progresivamente en forma
sinusoidal.
Cuando se usa con ciertos tipos de transformaciones tales como la transformada discreta de Laplace (en adelante DFT), el método de solapar-añadir aumenta el número de bits requeridos para representar la señal, porque la parte de la señal contenida en el intervalo de solapa se debe transformar y transmitir dos veces, una por cada uno de los dos bloques de muestras de señal solapado. El análisis/síntesis de señal para los sistemas que usan dicha transformación con solapar-añadir no es muestreado críticamente. El término "muestreado críticamente" se refiere a un análisis/síntesis de señal que sobre un período de tiempo genera el mismo número de coeficientes de frecuencia que el número de muestras de señal de entrada que recibe. De aquí que, para sistemas que se muestreen de forma no crítica, es conveniente diseñar la ventana con un intervalo de solapa tan pequeño como sea posible, para minimizar los requisitos de información de la señal codificada.
Algunas transformaciones requieren también que a la salida sintetizada de la transformación inversa se le practique una selección de ventana. La ventana de síntesis se usa para conformar cada bloque de señal sintetizada Por tanto, la señal sintetizada se pondera tanto mediante una ventana de análisis como por una ventana de síntesis. Esta ponderación en dos etapas es matemáticamente similar a ponderar la señal original una vez por una ventana cuya forma sea igual a un producto muestra por muestra de las ventanas de análisis y síntesis. Por tanto, con el fin de utilizar el método de solapar-añadir para compensar por distorsión de ventana, se deben diseñar ambas ventanas de tal manera que el producto de las dos sumas se unifique a través del intervalo de solapar-añadir.
Aunque no existe un criterio único que pueda usarse para establecer una optimización de ventana, una ventana en general se considera "buena" si la selectividad del filtro utilizado con la ventana se considera "buena". Por tanto, una ventana de análisis bien diseñada (para transformaciones que usen solamente una ventana de análisis) o un par de ventanas de análisis/síntesis (para transformaciones que usen una ventana de análisis y una ventana de síntesis) puede reducir las fugas de lóbulo lateral.
Conmutación de bloque
Una solución común que supera el compromiso entre la resolución temporal y la resolución de frecuencia en los codificadores de transformación de longitud fija de bloque es el uso de la detección de transitorios y la conmutación de longitud de bloque. En esta solución, la presencia y la ubicación de los transitorios de señales de audiofrecuencia se detectan usando varios métodos de detección de transitorios. Cuando se detectan señales transitorias de audiofrecuencia que tengan probabilidades de introducir pre-ruido cuando se codifiquen usando una gran longitud de bloque de codificador de audiofrecuencia, el codificador a baja velocidad de transferencia de bits se conmuta desde la longitud de bloque largo más eficiente a una longitud de bloque más corto menos eficiente. Aunque esto reduce la resolución de frecuencia y el rendimiento de la codificación de la señal de audiofrecuencia codificada, también reduce la longitud del pre-ruido de transitorio introducido por el proceso de codificación, mejorando la calidad percibida de la señal de audiofrecuencia tras la descodificación a baja velocidad de transferencia de bits. Las técnicas para la conmutación de longitudes de bloque se describen en las patentes de EE.UU. Números 5.394.473; 5.848.391; y 6.226.608. Aunque el presente invento reduce el pre-ruido sin la complejidad ni los inconvenientes de la conmutación de bloque, se podría emplear junto con - y además de - la conmutación de bloque.
El documento elaborado por Vafin R. y colaboradores, titulado "Modificación de transitorios para una codificación eficaz de audiofrecuencia", CONFERENCIA INTERNACIONAL DEL INSTITUTO DE INGENIEROS ELÉCTRICOS Y ELECTRÓNICOS (IEEE) DE 2001 SOBRE ACÚSTICA, TRATAMIENTO DE SEÑALES Y DE VOZ. ACTAS. 7-11 de mayo de 2001, páginas 3285-3288 describe la modificación, en un código paramétrico de audiofrecuencia, de la ubicación de transitorios estimados de tal manera que los transitorios puedan ocurrir solamente en lugares especificados por una rejilla. La rejilla se define por una segmentación restringida en la que los segmentos están definidos por múltiplos de números enteros de un tamaño mínimo predefinido de segmento.
El documento WO 00/45378 describe un método para codificación de envolvente espectral en el que, en la proximidad de transitorios, se aumenta la resolución temporal a expensas de la resolución de frecuencia. En el sistema de codificación que trata los segmentos de tiempo de una señal de entrada, esto se consigue cambiando la longitud de los segmentos de tiempo respectivos.
Descripción del invento
De acuerdo con un aspecto del presente invento, un método para reducir los artefactos de distorsión que preceden a un transitorio de señal en un tren de señales de audiofrecuencia subsiguiente a la transformación inversa en el descodificador de un sistema de codificación de audiofrecuencia de la velocidad de transferencia de bits basado en transformación que emplea bloques de codificación, comprende alterar la duración de tiempo de al menos una parte de los artefactos de distorsión, en respuesta a dicha información de metadatos, de tal manera que se reduce la duración de tiempo de los artefactos de distorsión. La información de metadatos incluye la ubicación de transitorios.
Mediante dicho tratamiento, al que en la presente memoria se hará referencia como "post-tratamiento", se podrían conseguir mejoras de calidad de audiofrecuencia tanto si se emplea pre-tratamiento como si no se emplea. Se podría analizar cualquier señal de audiofrecuencia que haya experimentado una codificación y descodificación de audiofrecuencia a baja velocidad de transferencia de bits para identificar la ubicación de señales transitorias y estimar la duración de artefactos de señales transitorias de pre-ruido. Entonces, se podría realizar un post-procesamiento escalado en el tiempo sobre la señal de audiofrecuencia con el fin de eliminar el pre-ruido de la señal transitoria o de reducir su duración.
Existen varias técnicas de compensación para reducir las alteraciones en la evolución en el tiempo de trenes de señales de audiofrecuencia. Estas técnicas de compensación escaladas en el tiempo tienen también el resultado beneficioso de mantener constante el número de muestras de audiofrecuencia.
Una primera técnica de compensación con escalamiento de tiempo, que es útil en relación con el pre-tratamiento, se aplica antes de la transformación directa. Aplica un escalamiento de compensación de tiempo al tren de señales de audiofrecuencia que sigue al transitorio, teniendo el escalamiento de tiempo un sentido contrario al sentido del escalamiento de tiempo empleado para cambiar la posición del transitorio y, preferiblemente, teniendo sustancialmente la misma duración que el escalamiento de tiempo del cambio de transitorio. Por conveniencia de la descripción, a este tipo de compensación se hará referencia en la presente memoria como "compensación de número de muestras", porque es capaz de mantener constante el número de muestras de señales de audiofrecuencia pero no lo es de restablecer totalmente la evolución temporal original del tren de señales de audiofrecuencia (deja temporalmente fuera de lugar a los transitorios y partes del tren de señales de audiofrecuencia que se encuentren cerca del transitorio). Preferiblemente, el escalamiento de tiempo que provee compensación de número de muestras sigue muy de cerca al transitorio, de tal manera que éste lo enmascara temporalmente.
Aunque la compensación de número de muestras deja al transitorio cambiado con respecto a su posición temporal original, el hecho es que restablece el tren de señales de audiofrecuencia que sigue al escalamiento de compensación de tiempo a su posición temporal relativa original. De este modo, se reduce la probabilidad de audibilidad del cambio de tiempo de transitorio, aunque no se elimina, porque el transitorio está todavía fuera de su posición original. Sin embargo, esto podría proveer una reducción significativa en audibilidad y tiene la ventaja de que se realiza antes de la codificación de audiofrecuencia a baja velocidad de transferencia de bits, lo que permite el uso de un descodificador estándar, sin modificar. Según se explica más adelante, solamente se puede cumplir una recuperación completa de la evolución en el tiempo del tren de señales de audiofrecuencia mediante el tratamiento en el descodificador o después del descodificador. Además de reducir la posibilidad del cambio de tiempo de transitorio, la compensación con escalamiento de tiempo antes de la transformación directa tiene la ventaja de mantener constante el número de muestras de señales de audiofrecuencia, lo cual podría ser importante para el tratamiento y/o para el funcionamiento del hardware que implementa el tratamiento.
Con el fin de proveer una compensación óptima con escalamiento de tiempo antes de la transformación directa, se debería emplear mediante el proceso de compensación una información en cuanto la ubicación del transitorio y la duración temporal del cambio de tiempo de transitorio.
Si se aplica el cambio de tiempo de transitorio después del bloqueo (pero antes de aplicar la transformación directa) es necesario emplear compensación de número de muestras dentro del mismo bloque en el que se realice el cambio de tiempo de transitorio con el fin de mantener igual la longitud de bloque. Por consiguiente, se prefiere realizar el cambio de tiempo de transitorio y la compensación del número de muestras antes de bloquear.
La compensación del número de muestras se podría emplear también después de la transformación inversa (bien en el descodificador o bien después de descodificar) en relación con el post-tratamiento. En este caso, se podría enviar información útil para realizar la compensación al proceso de compensación desde el descodificador (cuya información se podría haber originado en el codificador y/o en el descodificador).
Se podría realizar una recuperación más completa de la evolución temporal del tren de señales de audiofrecuencia junto con el restablecimiento del número original de muestras de audiofrecuencia después de la transformación inversa (bien sea en el descodificador o bien después de descodificar), mediante la aplicación de un escalamiento de tiempo de compensación al tren de señales de audiofrecuencia antes del transitorio en el sentido contrario al sentido del escalamiento de tiempo empleado para cambiar la posición del transitorio y, preferiblemente, de la misma duración sustancial que el escalamiento de tiempo del cambio de transitorio. Por conveniencia de la descripción, a este tipo de compensación se hará referencia de aquí en adelante en la presente memoria como "compensación de evolución en el tiempo". Esta compensación de escalamiento de tiempo tiene la ventaja significativa de restablecer la totalidad del tren de señales de audiofrecuencia, incluyendo el transitorio, a su posición temporal relativa original. De este modo, se reduce enormemente la probabilidad de audibilidad de los procesos de escalamiento de tiempo, aunque no se elimina, porque los dos procesos de escalamiento de tiempo por sí solos podrían causar artefactos
audibles.
Con el fin de proveer una compensación óptima de la evolución en el tiempo, es útil diversa información tal como la ubicación del transitorio, la ubicación de los extremos del bloque, la duración del cambio de tiempo de transitorio, o la duración del pre-ruido. La duración del pre-ruido es útil para asegurar que el escalamiento de tiempo de la compensación de evolución de tiempo no ocurre durante el pre-ruido, que posiblemente de ese modo ampliaría la duración temporal del pre-ruido. La duración del cambio de tiempo de transitorio es útil si se desea restablecer el tren de señales de radiofrecuencia a su posición original temporal relativa y mantener constante el número de muestras. La ubicación del transitorio es útil porque se podría determinar la duración del pre-ruido a partir de la ubicación original del transitorio con respecto a los extremos de los bloques de codificación. La duración del pre-ruido se podría estimar midiendo un parámetro de señal, tal como el contenido de alta frecuencia, o podría emplearse un valor por defecto. Si la compensación se realiza en el descodificador o después de descodificar, el codificador podría enviar información útil como metadatos junto con la señal de audiofrecuencia codificada. Cuando se realice después de la descodificación, se podrían enviar metadatos al proceso de compensación desde el descodificador (cuya información se podría haber originado en el codificador y/o en el descodificador).
Como se ha mencionado anteriormente, el post-tratamiento para reducir la duración del artefacto de pre-ruido se podría aplicar también como una etapa adicional a un codificador de señales de audiofrecuencia que realice pre-tratamiento de escalamiento de tiempo y, opcionalmente, proporcione información de metadatos. Dicho post-tratamiento actuaría como un medio adicional de perfeccionamiento de calidad mediante la reducción del pre-ruido que todavía pueda permanecer después del post-tratamiento.
Se podría preferir el pre-tratamiento en los sistemas de codificador que empleen codificadores profesionales en los que el coste, la complejidad y el retardo de tiempo son relativamente inmateriales en comparación con el post-tratamiento en relación con un descodificador, que típicamente es un dispositivo de consumidor con menos
complejidad.
La técnica de perfeccionamiento de calidad de un sistema de codificación de señales de audiofrecuencia con baja velocidad de transferencia de bits se podría implementar usando cualquier técnica actual adecuada de escalamiento de tiempo, Una técnica adecuada se describe en la solicitud de patente internacional PCT/US02/04317, presentada el 12 de febrero de 2002, con el título de "escalamiento de tiempo y escalamiento de tono de alta calidad de señales de audiofrecuencia". Dicha solicitud designa a los Estados Unidos y a otras entidades. Como se ha indicado anteriormente, dado que el escalamiento de tiempo y el cambio de tono son métodos duales entre sí, el escalamiento de tiempo se podría implementar también usando cualquier técnica adecuada de escalamiento de tono, así como cualquiera que pueda estar disponible en el futuro. Un escalamiento de tono seguido por una extracción de información de las muestras de señales de audiofrecuencia a una velocidad adecuada que sea diferente de la velocidad de variación de la muestra de entrada resulta en una versión escalada en el tiempo de la señal de audiofrecuencia con el mismo contenido espectral o tono de la señal de audiofrecuencia original, y es aplicable al presente
invento.
Según se ha indicado en el resumen de antecedentes de la codificación de señales de audiofrecuencia a baja velocidad de transferencia de bits, la selección de la duración de bloque en un sistema de codificación de señales de audiofrecuencia es un compromiso entre la resolución de frecuencia y la resolución temporal. En general se prefiere una duración mayor de bloque, puesto que proporciona un rendimiento mayor del codificador (en general provee una calidad mayor de señales de audiofrecuencia percibidas con un número reducido de bits de datos) en comparación con una duración menor de bloque. Sin embargo, las señales de transitorio y las señales de pre-ruido que generan contrarrestan la ganancia en calidad de duraciones de bloque mayores por introducir efectos perjudiciales audibles. Es por esta razón por lo que se usa la conmutación de bloque o las duraciones fijas menores de bloque en aplicaciones prácticas de codificadores de señales de audiofrecuencia a baja velocidad de transferencia de bits. Sin embargo, la aplicación del pre-tratamiento de escalamiento de tiempo de acuerdo con el presente invento a datos de audiofrecuencia que van a experimentar codificación de señales de audiofrecuencia a baja velocidad de transferencia de bits y/o que ha experimentado un post- tratamiento podría reducir la duración del pre-ruido de transitorios. Esto permite usar mayores duraciones de bloque de codificación de señales de audiofrecuencia, proporcionando con ello un mayor rendimiento de codificación y mejorando la calidad de la señal de audiofrecuencia percibida sin cambiar de forma adaptable las duraciones de bloque. Sin embargo, la reducción del pre-ruido de acuerdo con el presente invento se podría emplear también en sistemas de codificación que usen conmutación de duración de bloque. En dichos sistemas, podría existir cierto pre-ruido aún para el mínimo tamaño de ventana. Cuanto mayor sea la ventana, más largo y, por consiguiente, más audible es el pre-ruido. Los transitorios típicos proveen aproximadamente 5 mseg. de pre-enmascaramiento, que se traduce a 240 muestras a una velocidad de muestreo de 48 kHz. Si una ventana tiene más de 256 muestras, que es común en una disposición de conmutación de bloque, el invento aporta cierto
beneficio.
Codificación de audiofrecuencia de artefactos de pre-ruido de transitorios
Las Figuras 1a-1e muestran ejemplos de artefactos de pre-ruido de transitorios generados por un sistema codificador de audiofrecuencia de longitud de bloque fija. La Figura 1A presenta seis bloques, solapados en un 50%, de ventana seleccionada para codificación de audiofrecuencia y de longitud fija del 1 al 6. En esta figura y en todas las demás figuras de la presente memoria, cada ventana es contigua con un bloque de codificación de audiofrecuencia y a ella se hace referencia como "bloque con ventana", "ventana", o "bloque". En esta figura y en otras determinadas figuras de la presente memoria, las ventanas se presentan en general en la forma de una ventana de Kaiser-Bessel. Otras figuras muestran ventanas en forma de semicírculos para mayor sencillez en la presentación. La forma de la ventana no es crítica para el presente invento. Aunque la longitud de los bloques con ventana de la Figura 1a y de otras figuras no son críticas para el invento, los bloques con ventana de longitud fija se encuentran típicamente en el intervalo de 256 a 2048 muestras en longitud. Los cuatro ejemplos de señal de audiofrecuencia de la Figuras 1b a 1e ilustran, respectivamente, los efectos de las relaciones temporales entre los bloques con ventana para codificación de audiofrecuencia y los artefactos de pre-ruido de transitorio.
La Figura 1b ilustra la relación entre la ubicación de una señal de transitorio en un tren de señales de audiofrecuencia de entrada a codificar y los límites de los bloques con ventana solapados al 50%. Aunque se ha mostrado una longitud fija de bloque con solapa del 50%, el invento es aplicable a los dos sistemas de codificación de longitud de bloque fija y variable y a bloques que tengan una solapa distinta al 50%, incluyendo los bloques sin solapa según se describe más adelante en relación con las Figuras 2a hasta 5b.
La Figura 1c muestra la salida de un tren de señales de audiofrecuencia del sistema de codificación de audiofrecuencia para el caso de una entrada de tren de señales de audiofrecuencia como se ha mostrado en la Figura 1b. Como se muestra en las Figuras 1b y 1c, el transitorio está situado entre el extremo del bloque 3 con ventana y el extremo del bloque 4 con ventana. La Figura 1c ilustra la ubicación y la longitud del pre-ruido de transitorio introducido por el proceso de codificación de audiofrecuencia a baja velocidad de transferencia de bits en relación a la ubicación del transitorio y el extremo del bloque 2 con ventana. Nótese que el pre-ruido es anterior al transitorio y está limitado a los bloques 4 y 5 con ventana, bloques de muestras en los que está situado el transitorio. De ese modo, el pre-ruido se extiende hacia atrás hasta el comienzo del bloque 4 con ventana.
De un modo similar a las Figuras 1b y 1c, las Figuras 1d y 1e muestran, respectivamente, la relación entre un tren de señales de entrada de audiofrecuencia que contiene un transitorio situado entre el extremo del bloque 2 con ventana y el extremo del bloque 3 con ventana y el pre-ruido introducido en el tren de señales de salida de audiofrecuencia por el sistema de codificación de audiofrecuencia. Como el pre-ruido está limitado a los bloques 3 y 4 con ventana, dentro de los cuales se encuentra situado el transitorio, el pre-ruido se extiende hacia atrás hasta el principio del bloque 3 con ventana. En este caso, el pre-ruido tiene una duración mayor porque el transitorio está más cerca del extremo del bloque 3 con ventana que el transitorio de las Figuras 1b y 1c hasta el extremo del bloque 4 con ventana. La ubicación ideal del transitorio es siguiendo muy cerca al extremo del último bloque de tal manera que el pre-ruido se extienda hacia atrás solamente hasta el siguiente extremo del bloque anterior (aproximadamente la mitad de la longitud de bloque en el caso de este ejemplo de solapa de bloque del 50%).
Debe observarse que los ejemplos de las Figuras 1a-1e no tienen explícitamente en cuenta los efectos de la transición gradual en los límites de la ventana de codificación. En general, a medida que las ventanas de codificación de audiofrecuencia se van estrechando progresivamente, los artefactos de pre-ruido cambian de escala de acuerdo con ello, y se reduce su audibilidad. Para sencillez de la presentación, no se ha mostrado el escalamiento de los artefactos de pre-ruido en las formas de onda ideales de las figuras de la presente memoria.
Según se ha sugerido en las Figuras 1a-1e y mostrado con más detalle en las Figuras 2A, 2B, 3A, 3B, 4A, 4B, 5A y 5B, un artefacto de pre-ruido de transitorio de codificador de audiofrecuencia se podría minimizar si la ubicación de las señales transitorias se sitúa prudentemente antes de la codificación de audiofrecuencia.
Ejemplos del reposicionamiento de la ubicación de un transitorio con el fin de reducir el pre-ruido se muestran en las Figuras 2a, 2b, 3a, 3b, 4a, 4b, 5a y 5b para los casos de bloques no solapados (Figuras 2a y 2b), con solapa de bloque menor del 50% (Figuras 3a y 3b), con solapa de bloque del 50% (Figuras 4a y 4b), y solapa de bloque mayor del 50% (Figuras 5a y 5b). En cada caso, a no ser que la posición original del transitorio esté equidistante entre dos extremos de bloques sucesivos (en cuyo caso no hay preferencia), se prefiere cambiar el transitorio a una posición que siga muy de cerca al extremo de bloque más próximo. Tanto si el cambio es al extremo del bloque anterior como si lo es al extremo del bloque siguiente, y tanto si es al extremo de bloque más cercano como si no, el pre-ruido resultante es sustancialmente el mismo. Sin embargo, cambiando provisionalmente el transitorio a una ubicación que siga muy de cerca al extremo de bloque más próximo, se minimiza la interrupción a la evolución en el tiempo del tren de señales de audiofrecuencia. No obstante, en algunos casos, el cambio al extremo de bloque más distante podría ser también inaudible. Además, aún en el caso de que un cambio al extremo de bloque más distante sea audible, se podría emplear la compensación de evolución en el tiempo, como se indica más adelante, para reducir o eliminar dicha
audibilidad.
Las Figuras 2a y 2b presentan una serie de bloques ideales con ventanas que no se solapan. En la Figura 2a, una ubicación inicial de transitorio está, como se ha mostrado por una flecha con línea llena, más cerca del extremo de la última ventana de lo que está el extremo de la ventana siguiente. El pre-ruido para la ubicación inicial del transitorio se extiende hacia atrás en el tiempo hasta el extremo del comienzo de la ventana, como se ha mostrado. Si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la izquierda" (hacia atrás en el tiempo) hasta una ubicación que siga muy de cerca al extremo del último bloque con ventana, como se ha mostrado. Aunque el pre-ruido resultante todavía se extiende hacia atrás hasta el principio del bloque con ventana, esta longitud es muy corta comparada con el pre-ruido resultante de la ubicación inicial de transitorio. En ésta y en otras figuras, la distancia del transitorio cambiado desde el extremo de bloque con ventana se ha exagerado para mayor claridad de la presentación. En la Figura 2b, la posición inicial del transitorio está más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior. De este modo, si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la derecha" (más tarde en el tiempo) hasta una ubicación que siga muy de cerca al extremo del siguiente bloque con ventana, como se ha mostrado. Nótese que el perfeccionamiento en la reducción del pre-ruido aumenta cuando la posición inicial del transitorio se va a un tiempo posterior del bloque con
ventana.
Las Figuras 3a y 3b presentan una serie de bloques ideales con ventana que se solapan en menos del 50%. En la Figura 3a, una ubicación inicial de transitorio está, como se ha mostrado mediante una línea de trazo lleno, más cerca del extremo de la última ventana que del extremo de la ventana siguiente. El pre-ruido para la ubicación inicial del transitorio se extiende hacia atrás en el tiempo hasta el extremo del comienzo de la ventana, como se ha mostrado. Si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la izquierda" hasta una ubicación que siga muy de cerca al extremo del último bloque con ventana, según se ha mostrado. El pre-ruido resultante se extiende todavía hacia atrás hasta el comienzo del bloque con ventana, pero su longitud es corta comparada con el pre-ruido resultante de la ubicación inicial del transitorio. En la Figura 3b, la posición inicial del transitorio está más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior. De este modo, si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la derecha" hasta una ubicación que siga muy de cerca al extremo del siguiente bloque con ventana, como se ha mostrado. Nótese que el perfeccionamiento en la reducción del pre-ruido aumenta porque la posición inicial del transitorio está más tarde en el intervalo entre bloques con ventana sucesivos.
Las Figuras 4a y 4b presentan una serie de bloques con ventana ideales que se solapan en un 50%. En la Figura 4a, una ubicación inicial de transitorio está, como se muestra mediante la flecha dibujada con línea llena, más cerca del extremo de la última ventana que del extremo de la ventana siguiente. El pre-ruido para la ubicación inicial del transitorio se extiende hacia atrás en el tiempo hasta el extremo del comienzo de la ventana, como se ha mostrado. Si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la izquierda" hasta una ubicación que siga muy de cerca al extremo del último bloque con ventana, según se ha mostrado. El pre-ruido resultante se extiende todavía hacia atrás hasta el comienzo del bloque con ventana, pero su longitud es corta comparada con el pre-ruido resultante de la ubicación inicial del transitorio. En la Figura 4b, la posición inicial del transitorio está más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior. De este modo, si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la derecha" hasta una ubicación que siga muy de cerca al extremo del siguiente bloque con ventana, como se ha mostrado. Nótese que el perfeccionamiento en la reducción del pre-ruido aumenta porque la posición inicial del transitorio está más tarde en el intervalo entre bloques con ventana sucesivos, lo mismo que en el caso de bloques solapados en menos del
50%.
Las Figuras 5a y 5b presentan una serie de bloques con ventana ideales que se solapan en más de un 50%. En la Figura 5a, una ubicación inicial de transitorio está, como se muestra mediante la flecha dibujada con línea llena, más cerca del extremo de la última ventana que del extremo de la ventana siguiente. El pre-ruido para la ubicación inicial del transitorio se extiende hacia atrás en el tiempo hasta el extremo del comienzo de la ventana, como se ha mostrado. Si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la izquierda" hasta una ubicación que siga muy de cerca al extremo del último bloque con ventana, según se ha mostrado. El pre-ruido resultante se extiende todavía hacia atrás hasta el comienzo del bloque con ventana, pero esta longitud es todavía algo más corta que el pre-ruido resultante de la ubicación inicial del transitorio. En la Figura 5b, la posición inicial del transitorio está más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior. De este modo, si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la derecha" hasta una ubicación que siga muy de cerca al extremo del siguiente bloque con ventana, como se ha mostrado. Nótese que el perfeccionamiento en la reducción del pre-ruido aumenta porque la posición inicial del transitorio está más tarde en el intervalo entre extremos de bloques con ventana sucesivos, lo mismo que en el caso de bloques solapados en un
50%.
Nótese que el perfeccionamiento en la reducción del pre-ruido es el máximo para los bloques que no se solapan, y que disminuye a medida que aumenta la solapa del bloque.
Descripción de los dibujos
Las Figuras 1a-1e son una serie de formas de onda ideales que ilustran ejemplos de artefactos de pre-ruido de transitorio generados por un sistema codificador de señales de audiofrecuencia con longitud fija de bloque para dos casos de condiciones de señal de entrada.
Las Figuras 2a y 2b presentan una serie de bloques ideales con ventana que no se solapan, que ilustran las ubicaciones temporales inicial y con transitorio cambiado, junto con el pre-ruido para dichas ubicaciones, para el caso de una posición inicial que esté más cerca del extremo de la última ventana que del extremo de la ventana siguiente, y para el caso de una posición inicial que esté más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior, respectivamente.
Las Figuras 3a y 3b muestran una serie de bloques ideales con ventana y con una solapa menor del 50% que ilustra ubicaciones temporales inicial y de transitorio cambiado, junto con el pre-ruido para dichas ubicaciones, para el caso de una posición inicial que esté más cerca del extremo de la última ventana que del extremo de la ventana siguiente, y para el caso de una posición inicial que esté más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior, respectivamente.
Las Figuras 4a y 4b muestran una serie de bloques ideales con ventana y con una solapa del 50% que ilustra ubicaciones temporales inicial y de transitorio cambiado, junto con el pre-ruido para dichas ubicaciones, para el caso de una posición inicial que esté más cerca del extremo de la última ventana que del extremo de la ventana siguiente, y para el caso de una posición inicial que esté más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior, respectivamente.
Las Figuras 5a y 5b muestran una serie de bloques ideales con ventana y con una solapa mayor del 50% que ilustra ubicaciones temporales inicial y de transitorio cambiado, junto con el pre-ruido para dichas ubicaciones, para el caso de una posición inicial que esté más cerca del extremo de la última ventana que del extremo de la ventana siguiente, y para el caso de una posición inicial que esté más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior, respectivamente.
La Figura 6 es un diagrama de flujo que muestra las etapas a realizar para reducir los artefactos de pre-ruido de transitorio mediante un escalamiento de tiempo antes de la codificación a baja velocidad de transferencia de bits.
La Figura 7 es una representación conceptual de una memoria intermedia de datos de entrada utilizada para la detección de transitorios.
Las Figuras 8a-8e son una serie de formas de onda ideales que ilustran un ejemplo de pre-tratamiento de audiofrecuencia con escalamiento de tiempo de acuerdo con aspectos del presente invento cuando existe un transitorio en un bloque de codificación de audiofrecuencia y está situado más cerca del extremo del último bloque con ventana que del extremo del siguiente bloque con ventana.
Las Figuras 9a-9e son una serie de formas de onda ideales que ilustran un ejemplo de tratamiento de audiofrecuencia con escalamiento de tiempo cuando existe un transitorio en un bloque de codificación de audiofrecuencia con ventana y está situado aproximadamente T muestras por delante de un extremo de bloque.
Las Figuras 10a-10d son una serie de formas de onda ideales que ilustran el escalamiento de tiempo para el caso de múltiples transitorios.
Las Figuras 11a-11f son una serie de formas de onda ideales que ilustran una compensación inteligente de evolución con el tiempo de escalamiento de tiempo usando metadatos transportados en un tren de señales de radiofrecuencia.
La Figura 12 es un diagrama de flujo de un post-tratamiento con escalamiento de tiempo en conjunción con un descodificador de audiofrecuencia a baja velocidad de transferencia de bits.
Las Figuras 13a-13c son una serie de formas de onda ideales que ilustran un ejemplo de post-tratamiento para un solo transitorio con el fin de reducir los artefactos de pre-ruido presentes después de descodificar.
La Figura 14 es un diagrama de flujo de un proceso de post-tratamiento para mejorar la calidad percibida de audiofrecuencia que ha experimentado una codificación a baja velocidad de transferencia de bits sin pre-tratamiento con escalamiento de tiempo.
Las Figuras 15a-15c son una serie de formas de onda ideales que demuestran la técnica de usar un valor por defecto para escalar en el tiempo la señal de audiofrecuencia antes de cada transitorio con el fin de reducir el pre-ruido sin realizar una compensación del número de muestras.
Las Figuras 16a-16c son una serie de formas de onda ideales que demuestran la técnica de usar una duración calculada de pre-ruido para escalar en el tiempo la señal de audiofrecuencia antes de cada transitorio, con el fin de reducir la duración de pre- ruido con compensación de número de muestras y de evolución con el tiempo.
Modo óptimo para realizar el invento Visión de conjunto del pre-tratamiento con escalamiento de tiempo
La Figura 6 es un diagrama de flujo que ilustra un método para escalar en el tiempo las señales de audiofrecuencia antes de la codificación de audiofrecuencia a baja velocidad de transferencia de bits con el fin de reducir la cantidad de pre-ruido de transitorios (es decir, "pre-tratamiento"). Este método trata las señales de audiofrecuencia de entrada en bloques de N muestras, donde N podría corresponder a un número mayor que o igual al número de muestras de audiofrecuencia usadas en el bloque de codificación de audiofrecuencia. Los tamaños de tratamiento con N mayor que el tamaño del bloque de codificación de audiofrecuencia podrían ser convenientes para proporcionar datos adicionales de audiofrecuencia fuera del bloque de codificación de audiofrecuencia para uso en el tratamiento con escalamiento de tiempo. Estos datos adicionales se podrían usar, por ejemplo, para compensar por número de muestras para el tratamiento con escalamiento de tiempo realizado con el fin de mejorar la ubicación de un transitorio.
La primera etapa 202 en el proceso de la Figura 6 comprueba la disponibilidad de N muestras de datos de audiofrecuencia para tratamiento con escalamiento de tiempo. Estas muestras de datos de audiofrecuencia podrían ser, por ejemplo, un archivo de un disco duro basado en PC o una memoria intermedia de datos en un dispositivo de hardware. Los datos de audio se podrían haber provisto también mediante un proceso de codificación de audiofrecuencia a baja velocidad de transferencia de bits que llama al procesador con escalamiento de tiempo antes de la codificación de audiofrecuencia Si se dispone de N muestras de datos de audiofrecuencia, se pasan (etapa 204) y luego se usan por el proceso de pre-tratamiento con escalamiento de tiempo en las etapas siguientes.
La tercera etapa 206 en el proceso de pre-tratamiento es detectar la ubicación de señales transitorias de datos de audiofrecuencia que tengan probabilidades de introducir artefactos de pre-ruido. Se dispone de muchos procesos diferentes para realizar esta función, y su implementación específica no es crítica siempre que proporcione una detección precisa de señales transitorias que tengan probabilidades de introducir artefactos de pre-ruido. Hay muchos procesos de codificación de audiofrecuencias que realizan la detección de transitorios de señales de audiofrecuencia, y esta etapa se puede pasar por alto si el proceso de codificación de audiofrecuencia proporciona la información de transitorios al bloque subsiguiente 210 de tratamiento con escalamiento de tiempo junto con los datos de audiofrecuencia de
entrada.
Detección de transitorios
Un método adecuado para realizar detección de transitorios de señales de audiofrecuencia es el siguiente. La primera etapa en el análisis de la detección de transitorios es filtrar los datos de entrada (tratando las muestras de datos como una función de tiempo). Los datos de entrada podrían por ejemplo, filtrarse con un filtro de paso alto de armónicos de 2º orden con una frecuencia de corte a 3 dB de aproximadamente 8kHz. Las características del filtro no son críticas. Estos datos filtrados se usan luego en el análisis de transitorios. La filtración de los datos de entrada aísla los transitorios de alta frecuencia y los hace más fáciles de identificar. A continuación, los datos de entrada filtrados se tratan en sesenta y cuatro sub-bloques (en el caso de un bloque de muestras de señal de 4.096 muestras) de aproximadamente 1,5 mseg. (o 64 muestras a 44,1 kHz) como se muestra en la Figura 7. Aunque el tamaño real del sub-bloque que se trata no se limita a 1,5 mseg. y podría variar, este tamaño aporta un buen compromiso entre los requisitos de tratamiento en tiempo real (porque los tamaños de bloque mayores requieren menos gastos generales de tratamiento) y la resolución de la ubicación de transitorios (los bloques más pequeños proporcionan una información más detallada sobre la ubicación de transitorios). El uso de bloques de muestras de señales de 4.096 muestras y el uso de sub-bloques de 64 muestras es simplemente un ejemplo y no es crítico para el
invento.
La etapa siguiente del tratamiento de detección de transitorios es realizar una filtración de paso bajo de los valores de los máximos datos absolutos contenidos en cada sub-bloque de 64 muestras. Este tratamiento se realiza para suavizar los máximos datos absolutos y proporcionar una indicación general de los valores medios de cresta en la memoria intermedia de entrada a los que se puede comparar el valor real de cresta de la sub-memoria intermedia. El método descrito más adelante es un método de hacer la suavización.
Para suavizar los datos, se explora cada sub-bloque de 64 muestras para el valor de señal de máximos datos absolutos. El valor de señal de máximos datos absolutos se usa luego para calcular un valor de cresta de media móvil suavizado. Las medias móviles de alta frecuencia, filtradas, para cada sub-memoria intermedia k-ésima hi_mavg (k) respectivamente, se calculan usando las ecuaciones 1 y 2.
\vskip1.000000\baselineskip
100
\vskip1.000000\baselineskip
donde hi_mavg (0) se ajusta igual a hi_mavg (64) de la memoria intermedia de entrada anterior para tratamiento continuo. En la implementación actual, el parámetro AVG:WHT se ajusta igual a 0,25. Este valor se decidió después de seguir un análisis experimental usando un amplio intervalo de material común de audiofrecuencia.
A continuación el proceso de detección de transitorios compara el valor de cresta en cada sub-bloque con el conjunto de valores de cresta de medias móviles suavizados para determinar si existe un transitorio. Aunque existen una serie de métodos para comparar estas dos medidas, la solución indicada más adelante se tomó porque permite sintonizar la comparación mediante el uso de un factor de escala que se ha configurado para realizar en condiciones óptimas según se determine mediante un análisis de una amplia gama de señales de audiofrecuencia.
El valor de cresta en el sub-bloque k-ésimo, para los datos filtrados, se multiplica por el valor de escalamiento de alta frecuencia HI_FREQ_SCALE, y se compara con el valor de cresta medio móvil calculado suavizado de cada k. Si un valor de cresta escalado de sub-bloque es mayor que el valor medio móvil, se señaliza un transitorio como que está presente. Estas comparaciones se esquematizan más adelante en las Ecuaciones 3 y 4.
101
A continuación de la detección de transitorios, se hicieron varias comprobaciones correctoras para determinar si la señalización de transitorio para un sub-bloque de 64 muestras debería eliminarse (reposición de VERDADERO a FALSO). Estas comprobaciones se realizaron con el fin de reducir las detecciones de transitorios falsos. En primer lugar, si los valores de cresta de alta frecuencia caen por debajo de un valor de cresta mínimo, entonces se elimina el transitorio (para atender a transitorios de bajo nivel). En segundo lugar, si el valor de cresta en un sub-bloque dispara un transitorio, pero no es significativamente mayor que el sub-bloque anterior, que también habría disparado una señalización de transitorio, entonces se elimina el transitorio presente en el sub-bloque actual. Esto reduce un deterioro de la información en la ubicación de un transitorio.
Refiriéndose otra vez a la Figura 6, la etapa siguiente 208 en el proceso es determinar si existen transitorios en el grupo de datos de entrada de N muestras actuales. Si no existen transitorios, los datos de entrada se podrían descargar como salida (o volverse a pasar hacia atrás a un codificador de audiofrecuencia de baja velocidad de transferencia de datos) sin realizarse un tratamiento de escalamiento en el tiempo. Si los transitorios sí existen, el número de transitorios que existen en las N muestras actuales de datos de audiofrecuencia y su ubicación (o sus ubicaciones) se pasan a la parte 210 de tratamiento de audiofrecuencia con escalamiento de tiempo del proceso para la modificación temporal de los datos de audiofrecuencia de entrada. El resultado de un tratamiento adecuado con escala de tiempo se expone en relación con la descripción de las Figuras 8A-8E. Nótese que el proceso requiere información del codificador en cuanto a, por ejemplo, la ubicación de los bloques de muestras con ventana con respecto al tren de señales de datos de audiofrecuencia. Si, opcionalmente, se descarga como salida la información de metadatos con escalamiento de tiempo (como se muestra en la Figura 6), para el caso de que no existan transitorios indicaría que no se ha realizado pre-tratamiento. Los metadatos con escalamiento de tiempo podrían incluir, por ejemplo, parámetros con escalamiento de tiempo tales como la ubicación y la cantidad realizada de escalamiento de tiempo y, si la técnica de escalamiento de tiempo ha empleado la transición gradual de segmentos de audiofrecuencia empalmados, la longitud de la transición gradual. Los metadatos contenidos en el tren de bits de audiofrecuencia codificados podría incluir también información sobre transitorios, incluyendo su ubicación después de y/o antes de y después de un cambio temporal. Los datos de audiofrecuencia se descargan como salida en la etapa 212.
Pre-tratamiento de audiofrecuencia
Las Figuras 8a-8e ilustran un ejemplo de pre-tratamiento de audiofrecuencia con escalamiento de tiempo de acuerdo con aspectos del presente invento cuando existe un transitorio en un bloque de codificación de audiofrecuencia que esté situado más cerca del extremo del último bloque con ventana que del extremo del siguiente bloque con ventana. Para este ejemplo, se supone una solapa de bloques del 50%, de la manera que en las Figuras 1a-1e y Figuras 4a y 4b. Según se ha indicado anteriormente, para reducir la magnitud de pre-ruido de transitorios introducida por una codificación de audiofrecuencia a baja velocidad de transferencia de bits, se desea ajustar la evolución de tiempo de la señal de audiofrecuencia de entrada de tal manera que el transitorio de la señal de audiofrecuencia esté ubicado siguiendo muy de cerca al extremo del último bloque con ventana. Se prefiere dicho cambio en la ubicación del transitorio, porque minimiza la interrupción a la evolución de tiempo del tren de señales al mismo tiempo que limita de un modo óptimo la longitud del pre-ruido de transitorio. Sin embargo, como se ha expuesto anteriormente, un cambio a la ubicación que siga muy de cerca al extremo del siguiente bloque con ventana limita también en un grado óptimo la longitud del pre-ruido de transitorio pero no minimiza la interrupción a la evolución en el tiempo del tren de señales. En algunos casos, la diferencia en interrupción puede ser de poca o de ninguna significación audible, en particular si se emplea también la compensación por evolución en el tiempo. Por tanto, en el presente ejemplo y en otros ejemplos de la presente memoria se contemplan un cambio a cualquiera de los dos extremos de bloque más próximos. Como se ha mencionado anteriormente, el tiempo de transitorio que cambia el escalamiento de tiempo no necesita cumplirse dentro de un bloque único, a no ser que el tratamiento se lleve a cabo después que el codificador haya dividido en bloques el tren de señales de audiofrecuencia.
La Figura 8a muestra tres bloques consecutivos de codificación con ventana solapados en un 50%. La Figura 8b presenta la relación entre el tren original de datos de audiofrecuencia de entrada, que contiene un solo transitorio y los bloques de codificación de audiofrecuencia con ventana. El comienzo del transitorio es T muestras después del extremo del bloque precedente. Como el transitorio está más cerca del extremo del bloque precedente que del extremo del bloque siguiente, se prefiere cambiar el transitorio a la izquierda a una ubicación que siga muy de cerca al extremo del bloque precedente mediante la aplicación de compresión de tiempo que tiene el efecto de eliminar las T muestras anteriores al transitorio. La Figura 8c presenta dos regiones en el tren de audiofrecuencia en las que podría realizarse el escalamiento de tiempo de la audiofrecuencia. La primera región corresponde a las muestras de audiofrecuencia situadas antes del transitorio, en donde la reducción de la duración de la audiofrecuencia en T muestras "desliza" o cambia la posición del transitorio de la izquierda a la ubicación deseada siguiendo muy de cerca al extremo del bloque precedente mediante la provisión de la compresión de tiempo. Como se ve en las Figuras 2A a 5B y en otras figuras que se describirán más adelante, la separación del transitorio del extremo de bloque en las Figuras 8d y 8e se ha exagerado para claridad de la presentación. La segunda región muestra la región donde el escalamiento de tiempo se podría realizar opcionalmente después del transitorio para aumentar la duración de la audiofrecuencia en T muestras mediante la provisión de expansión de tiempo, de tal manera que la longitud total de los datos de audiofrecuencia permanece en N muestras. Aunque la eliminación de T muestras y la adición opcional de la compensación de número de muestras de T muestras se han mostrado como que ocurren dentro de un bloque de muestras de codificación de audiofrecuencia con ventana, esto no es esencial - el proceso de compensación con escalamiento de tiempo no necesita ocurrir dentro de un solo bloque de codificación de audiofrecuencia, a no ser que el cambio de tiempo del transitorio se realice después de que el codificador haya dividido en bloques el tren de señales de audiofrecuencia. La ubicación óptima para dicho proceso de escalamiento de tiempo se podría determinar mediante el proceso de traslado a la escala de tiempos que se haya empleado. Como el transitorio podría proveer un post-enmascaramiento útil, preferiblemente el escalamiento de tiempo con compensación por número de muestras se realiza muy cerca del
transitorio.
La Figura 8d demuestra el tren de señales resultante si se realiza el procesamiento del escalamiento de tiempo sobre el tren de datos de audiofrecuencia de entrada mediante la reducción de la duración de tiempo del tren de datos de entrada de audiofrecuencia en T muestras en el área situada antes del transitorio y no se realiza una expansión de la escala de tiempos con compensación por número de muestras después de la señal del transitorio. Según se ha expuesto anteriormente, para la mayor parte de los oyentes no son discernibles pequeñas variaciones en la evolución temporal de una señal de audiofrecuencia. Por tanto, no se requiere que el número de muestras de trenes de datos de audiofrecuencia escaladas en el tiempo sea igual al número de muestras de entrada, N; podría ser suficiente solamente tratar el tren de audiofrecuencia antes del transitorio. La Figura 8e ilustra el caso cuando el tren de datos de audiofrecuencia situado antes del transitorio se reduce en duración por T muestras y el tren de datos de audiofrecuencia que sigue al transitorio se aumenta por T muestras, manteniéndose de ese modo N muestras de audiofrecuencia dentro y fuera del bloque de tratamiento con escalamiento de tiempo y restableciendo la evolución en el tiempo del tren de señales de audiofrecuencia excepto para el transitorio y las partes del tren de señales muy próximas al transitorio. Las variaciones en las longitudes de las formas de onda de señales de las Figuras 8b-8e están destinadas a mostrar esquemáticamente que el número de muestras contenidas en el tren de datos de audiofrecuencia varía para las condiciones descritas. Cuando se reduce el número de muestras de audiofrecuencia, como ocurre en la Figura 8d, podría necesitarse adquirir muestras adicionales antes de poder realizar una codificación adicional de audiofrecuencia. Esto podría significar la extracción de más muestras de un archivo o esperar que se introdujesen en una memoria intermedia más señales de audiofrecuencia en un sistema en tiempo real.
Las Figuras 9a-9e ilustran un ejemplo de tratamiento de audiofrecuencia con escalamiento de tiempo cuando existe un transitorio en un bloque de codificación de audiofrecuencia con ventana y está situado aproximadamente T muestras por delante de un extremo de bloque. Para reducir la cantidad de pre-ruido de transitorio introducido por la codificación de audiofrecuencia a baja velocidad de transferencia de bits al mismo tiempo que se minimiza el cambio de transitorio, se prefiere ajustar temporalmente la señal de audiofrecuencia de entrada de tal manera que el transitorio de la señal de audiofrecuencia siga muy de cerca al extremo del bloque siguiente. En el caso de bloques solapados al 50%, un cambio hasta el final del extremo del bloque siguiente (o al extremo del bloque anterior) limita el pre-ruido del transitorio a la primera mitad de un bloque de codificación de audiofrecuencia, en lugar de dispersar el pre-ruido del transitorio a lo largo de todo el bloque y del bloque anterior de audiofrecuencia.
La Figura 9a presenta tres bloques consecutivos de codificación con ventana, solapados en un 50%. La Figura 9b muestra la relación entre los datos originales de audiofrecuencia de entrada, que contienen un solo transitorio, y los bloques de audiofrecuencia. El comienzo del transitorio es T muestras antes del extremo del bloque siguiente. Como el transitorio está más cerca del extremo del bloque siguiente que del extremo del bloque anterior, se prefiere cambiar el transitorio a la derecha hasta una ubicación que siga muy de cerca al extremo del bloque siguiente mediante la aplicación de una expansión de tiempo que tiene el efecto de añadir T muestras antes del transitorio. La Figura 9c muestra dos regiones donde se podría realizar el escalamiento de tiempo de la audiofrecuencia. La primera región corresponde a las muestras de audiofrecuencia situadas antes del transitorio, donde el aumento de la duración de la audiofrecuencia en T muestras desliza la posición del transitorio hasta la ubicación deseada muy cerca después del extremo del bloque siguiente. La Figura 9 presenta también la región en la que se podría realizar el escalamiento de tiempo después del transitorio, para reducir la duración de la audiofrecuencia en T muestras, de tal manera que la longitud total del tren de datos de audiofrecuencia, N muestras, permanece constante. La Figura 9d demuestra el resultado si el procesamiento del escalamiento de tiempo se realiza sobre el tren de datos de audiofrecuencia de entrada mediante el aumento de la duración de tiempo del tren de datos de entrada de audiofrecuencia en T muestras en la región de tiempo situada antes del transitorio pero sin realizar una expansión de escala de tiempo con compensación por el número de muestras después de la señal del transitorio. Según se ha expuesto anteriormente, para la mayoría de los oyentes no son discernibles pequeñas variaciones en la evolución temporal de una señal de audiofrecuencia. Por tanto, no se requiere que el número de muestras de tren de audiofrecuencia después del escalamiento de tiempo sea igual a la entrada, N. Podría ser suficiente tratar la audiofrecuencia antes del transitorio.
La Figura 9e ilustra el caso cuando la audiofrecuencia anterior al transitorio se aumente en duración en T muestras y la audiofrecuencia que sigue al transitorio se reduce en T muestras, manteniéndose de ese modo un número constante de muestras de audio antes y después del escalamiento de tiempo. Como en las otras figuras, se ha exagerado la separación del transitorio del extremo de bloque de las Figuras 9d y 9e para mayor claridad de la presentación.
Tratamiento de audiofrecuencia con escalamiento de tiempo para múltiples transitorios
Dependiendo de la longitud del tamaño de bloques de codificación de audiofrecuencia y del contenido de los datos de audiofrecuencia que se codifican, es posible que un tren de datos de audiofrecuencia de entrada que se está tratando contenga, dentro de las N muestras que se están tratando, más de una señal de transitorio que podría introducir artefactos con pre-ruido. Como se ha mencionado anteriormente, las N muestras que se están tratando podrían incluir más de un bloque de codificación de audiofrecuencia.
Las Figuras 10a-10d ilustran soluciones de tratamiento cuando se producen dos transitorios en un bloque de codificación de audiofrecuencia. En general, se podrían gestionar dos o más transitorios de la misma manera que un solo transitorio, tratándose al transitorio más tempranero del tren de datos de audiofrecuencia como el transitorio de interés.
La Figura 10a presenta tres bloques consecutivos de codificación con ventana, solapados en un 50%. La Figura 10b muestra el caso donde dos transitorios contenidos en la audiofrecuencia de entrada ahorquillan el extremo de un bloque de codificación de audiofrecuencia. Para este caso, el transitorio más tempranero introduce el pre-ruido más perceptible, porque una parte del pre-ruido que resulta del segundo transitorio es post-enmascarado por el primer transitorio. Para minimizar los artefactos de pre-ruido, la señal de audiofrecuencia de entrada se podría escalar en el tiempo para cambiar el primer transitorio a la derecha de tal manera que la audiofrecuencia situada antes del primer transitorio se ha expandido en la escala de tiempo en T muestras, donde T es el número de muestras que coloca al primer transitorio hasta una posición que sigue muy de cerca al extremo del bloque siguiente.
Con el fin de compensar por número de muestras para el tratamiento de expansión de escala de tiempo antes del primer transitorio de la Figura 10b y de optimizar el post-enmascaramiento del pre-ruido resultante del segundo transitorio mediante el desplazamiento de los transitorios muy cerca juntos en el tiempo, la señal de audiofrecuencia que sigue al primer transitorio y que está antes del segundo transitorio preferiblemente se escala en el tiempo para reducir en duración por T muestras. Según se ha ilustrado en la Figura 10b, hay suficientes datos de tratamiento de audiofrecuencia entre el primero y el segundo transitorio para realizar el tratamiento de escala de tiempo. Sin embargo, en algunos casos quizá el segundo transitorio esté tan próximo al primer transitorio que no hay suficientes datos de audiofrecuencia para realizar el tratamiento de escala de tiempo entre ellos. La cantidad de datos de audiofrecuencia requeridos entre transitorios depende del proceso de escalamiento de tiempo usado para el tratamiento. Si existen insuficientes datos de audiofrecuencia entre los dos transitorios, podría ser necesario expandir con escala de tiempo los datos de audiofrecuencia que sigan al segundo transitorio con el fin de proveer una compensación por número de muestras. Con el fin de realizar la expansión de los datos de audiofrecuencia después del segundo transitorio, podría ser necesario que el proceso de escalamiento de tiempo tenga acceso a un segmento más ancho de datos de audiofrecuencia que el número de muestras contenidas en un bloque usadas en el proceso de codificación de audiofrecuencia, como se ha mencionado anteriormente.
La Figura 10c ilustra el caso en que el primer transitorio está más próximo al extremo del último bloque que al extremo del bloque siguiente y todos los transitorios (en este caso dos) están tan suficientemente próximos conjuntamente que el pre-ruido resultante del primer transitorio está sustancialmente post-enmascarado por el primer transitorio. De este modo, el tren de audiofrecuencia anterior al primer transitorio está comprimido con escala de tiempo por T muestras, de tal manera que el primer transitorio se cambia a una ubicación justo después del extremo del bloque anterior. La compensación por número de muestras para restablecer el número original de muestras, en la forma de expansión con escala de tiempo, podría realizarse en el tren de datos de audiofrecuencia que sigue al segundo
transitorio.
La Figura 10d ilustra el caso en que el primer transitorio está más próximo al extremo del bloque siguiente que al extremo del bloque anterior y todos los transitorios (en este caso, dos) están suficientemente tan próximos entre sí que el pre-ruido resultante del segundo está sustancialmente post-enmascarado por el primer transitorio. De este modo, el tren de audiofrecuencia anterior al primer transitorio se expande con escala de tiempo por T muestras, de tal manera que el primer transitorio se cambia a una ubicación justo después del extremo del bloque siguiente. La compensación por número de muestras, en la forma de compresión con escala de tiempo, podría realizarse opcionalmente en el tren de datos de audiofrecuencia que sigue al segundo transitorio.
Para el caso de múltiples transitorios, si se desea compensar por evolución en el tiempo para pre-tratar de una manera casi perfecta, se podría transportar información de metadatos con cada bloque de audiofrecuencia codificado de una manera similar al caso de un solo transitorio anteriormente descrito.
Compensación por evolución en el tiempo, controlada por metadatos, de pre-tratamiento con escalamiento de tiempo
Como se ha mencionado anteriormente, podría ser conveniente aplicar, subsiguientemente a la transformación inversa por un descodificador, un escalamiento de tiempo compensatorio al tren de señales de audiofrecuencia después del transitorio, de tal manera que la evolución en el tiempo del tren de señales de audiofrecuencia tratadas sea sustancialmente igual que la del tren original de señales de audiofrecuencia, restableciendo de ese modo la evolución del tiempo original del tren de señales. Sin embargo, en los estudios experimentales se ha demostrado que la mayoría de los oyentes no perciben pequeñas modificaciones temporales de la audiofrecuencia, y por tanto podría no ser necesaria la compensación por evolución del tiempo. Asimismo, por término medio, los transitorios se avanzan y retardan por igual y, por tanto, sobre un período de tiempo suficientemente largo, el efecto acumulativo sin compensación por evolución del tiempo podría ser despreciable. Otra idea a considerar es que, dependiendo del tipo de escalamiento de tiempo usado para el pre-tratamiento, el procesamiento adicional de compensación por evolución del tiempo podría introducir artefactos audibles en la audiofrecuencia. Estos artefactos podrían surgir debido a que el procesamiento de escalamiento de tiempo, en muchos casos, no es un proceso perfectamente reversible. Dicho de otro modo, la reducción de audiofrecuencia mediante una cantidad fija usando un proceso de escalamiento de tiempo y luego expandiendo en el tiempo posteriormente la misma audiofrecuencia podría introducir artefactos audibles.
Una ventaja del tratamiento de audiofrecuencia que contenga material de transitorios mediante escalamiento de tiempo es que los artefactos de escalamiento de tiempo podrían enmascararse por las propiedades de enmascaramiento temporal de las señales de transitorios. Un transitorio de audiofrecuencia provee enmascaramiento temporal hacia delante y hacia atrás. El material de audiofrecuencia de transitorios "enmascara" material audible tanto antes como después del transitorio, de tal manera que la audiofrecuencia que precede y sigue directamente no es perceptible para un oyente. El pre-enmascaramiento se ha medido, es relativamente breve y dura solamente unos pocos milisegundos, mientras que el post-enmascaramiento podría durar más de 100 milisegundos. Por tanto, el tratamiento con compensación por evolución de tiempo y por escalamiento de tiempo podría ser inaudible debido a efectos de post-enmascaramiento temporal. De ese modo, si se realiza, es ventajoso realizar la compensación por evolución del tiempo y el escalamiento de tiempo dentro de regiones temporalmente enmascaradas
Las Figuras 11a-11f muestran un ejemplo en el que se ha realizado una compensación inteligente de evolución de tiempo que sigue una transformación inversa en el descodificador usando información de metadatos. Los metadatos reducen enormemente la cantidad de análisis requerido para realizar compensación de evolución de tiempo, porque indica dónde debería realizarse el tratamiento de escalamiento de tiempo y la duración del escalamiento de tiempo requerido. Como se ha explicado anteriormente, el tratamiento de compensación de evolución de tiempo está destinado a devolver la señal de audiofrecuencia descodificada a su evolución temporal original en la que el tren de señales, incluyendo el transitorio, tiene su ubicación original en el tren de audiofrecuencia. La Figura 11a muestra tres bloques consecutivos de codificación con ventana solapados al 50%. La Figura 11b presenta un tren de señales de entrada de audiofrecuencia antes del pre-tratamiento que tiene un transitorio T muestras después de un extremo de bloque. La Figura 11c muestra que el tren de señales de audiofrecuencia de entrada se trata mediante la eliminación de T muestras antes del transitorio para cambiar el transitorio a una ubicación más tempranera. Las T muestras se suman después del transitorio con el fin de dejar invariable el número de muestras de datos de audiofrecuencia (compensación de número de muestras). La Figura 11d presenta el tren de señales de audiofrecuencia modificadas en el que el transitorio se ha cambiado a una ubicación más tempranera y la audiofrecuencia que sigue al transitorio se ha vuelto a cambiar a su ubicación original. La Figura 11e muestra las regiones requeridas de escalamiento de tiempo y de compensación de evolución de tiempo en las que la eliminación de T muestras (compresión de tiempo) se compensa añadiendo T muestras (expansión de tiempo) y la adición de T muestras (expansión de tiempo) se compensa eliminando T muestras (compresión de tiempo). El resultado, presentado en la Figura 11f, es una señal de salida "casi perfecta" que tiene la misma evolución de tiempo que la señal de entrada de la Figura 11a (sujeta principalmente a imperfecciones en los procesos de escalamiento de tiempo).
Post-tratamiento con escalamiento de tiempo para reducir pre-ruido de transitorios
Como se ha demostrado en una serie de ejemplos anteriores, aún con la ubicación óptima de un transitorio en un bloque de codificación de audiofrecuencia, todavía se introduce algún pre-ruido por el proceso del sistema de codificación de audiofrecuencia a baja velocidad de transferencia de bits. Según se ha indicado anteriormente, son preferibles bloques de codificación de audiofrecuencia más largos sobre los bloques de codificación más cortos, porque proporcionan mayor resolución de frecuencia y un aumento de la ganancia de codificación. Sin embargo, incluso si los transitorios se ubican de un modo óptimo mediante un escalamiento de tiempo antes de la codificación de audiofrecuencia (pre-tratamiento), a medida que aumenta la longitud del bloque de codificación de audiofrecuencia, aumenta también el pre-ruido. El pre-enmascaramiento del pre-ruido temporal de transitorios está en el orden de 5 milisegundos, que corresponde a 240 muestras para audiofrecuencia muestreadas a 48 kHz. Esto implica que, para codificadores con tamaños de bloque mayor de aproximadamente 512 muestras, el pre-ruido de transitorio comienza a ser audible aún con ubicación óptima (solamente la mitad se enmascara en el caso del bloque solapado al 50%). (Esto no tiene en cuenta la reducción de pre-ruido de transitorios causada por efectos de borde de ventana en los bloques de codificador).
Aunque el pre-ruido de transitorios no se puede eliminar totalmente de un sistema de codificación a baja velocidad de transferencia de bits, es posible realizar un post-tratamiento con escalamiento de tiempo (por sí solo o además de un pre-tratamiento) sobre datos de audiofrecuencia que hayan experimentado transformación inversa en un descodificador de audiofrecuencia a baja velocidad de transferencia de bits basado en transformación para reducir la cantidad de pre-ruido de transitorios tanto si se aplica también pre-tratamiento como si no se aplica. El post-tratamiento con escalamiento de tiempo se podría realizar o bien en conjunción con un descodificador de audiofrecuencia a baja velocidad de transferencia de bits (es decir, como parte del descodificador y/o mediante la recepción de metadatos del descodificador y/o del codificador a través del descodificador) o como un post-tratamiento autónomo. Se prefiere el uso de metadatos porque la información útil tal como la ubicación de transitorios con respecto a bloques de codificación de audiofrecuencia, así como la longitud (o longitudes) de bloque de codificación de audiofrecuencia están fácilmente disponibles y se podrían pasar al proceso de post-tratamiento por medio de los metadatos. Sin embargo, el post-tratamiento se podría usar sin interacción con un descodificador de audiofrecuencia a baja velocidad de transferencia de bits. Ambos métodos se describen más adelante.
Post-tratamiento con escalamiento de tiempo en conjunción con un descodificador de audiofrecuencia a baja velocidad de transferencia de bits (que recibe metadatos)
La Figura 12 es un diagrama de flujo de un proceso para realizar un post-tratamiento de escalamiento de tiempo en conjunción con un descodificador de audiofrecuencia a baja velocidad de transferencia de bits para reducir los artefactos de pre-ruido de transitorios. El proceso ilustrado en la Figura 12 supone que los datos de entrada son datos de audiofrecuencia codificados a baja velocidad de transferencia de bits (etapa 802). Siguiendo a la descodificación de los datos comprimidos a señal de audiofrecuencia (etapa 804), la señal de audiofrecuencia correspondiente a un bloque (o a unos bloques) se envía al escalador de tiempos (etapa 806) junto con información de metadatos que es útil para reducir la duración de pre-ruidos de transitorios. Esta información podría incluir, por ejemplo, la ubicación de transitorios, la longitud del bloque (o de los bloques) de codificador de audiofrecuencia, la relación de los límites de bloque de codificador a los datos de audiofrecuencia, y una longitud deseada del pre-ruido de transitorio. Si está disponible la ubicación de los transitorios con respecto a los límites de bloque de codificador de audiofrecuencia, la ubicación del artefacto de pre-ruido se podría estimar y reducir con precisión mediante un post-tratamiento. Como los transitorios sí que proveen cierto pre-enmascaramiento temporal, podría no ser necesario eliminar por completo el pre-ruido de transitorio. Dando al proceso de post-tratamiento con escalamiento de tiempo una longitud deseada de pre-ruido, se podría conseguir cierto control sobre la cantidad de pre-ruido que queda en la salida de audiofrecuencia mediante la etapa 808. Los resultados de un tratamiento adecuado con escala de tiempo para la etapa 806 se describen más adelante en relación con la descripción de las Figuras 13a-13c
Nótese que el post-tratamiento podría ser útil tanto si se ha aplicado un pre-tratamiento antes de la codificación como si no se ha aplicado. Con independencia de dónde está ubicado el transitorio con respecto a los extremos de bloque, existe cierto pre-ruido de transitorio. Por ejemplo, como mínimo es la mitad de la longitud de la ventana de codificación de audiofrecuencia para el caso de solapa del 50%. Los tamaños mayores de ventana todavía podrían introducir artefactos audibles. Mediante la realización del post-tratamiento, es posible reducir la longitud del pre-ruido aún más de lo que se haya reducido mediante una ubicación óptima del transitorio con respecto a los extremos de bloque antes de la cuantificación por el codificador.
Las Figuras 13a-13c ilustran un ejemplo de post-tratamiento para un solo transitorio con el fin de reducir el artefacto de pre-ruido presente después de la transformación inversa. Dependiendo de la longitud de bloque de codificación, el pre-ruido, incluso después del pre-tratamiento, si lo hay, podría tener un tiempo mayor que podría enmascararse por los efectos de enmascaramiento temporal del transitorio. Sin embargo, como se muestra en la Figura 13b, mediante el uso de la información de metadatos de ubicación de transitorio procedente del descodificador, se podría identificar una región de audiofrecuencia que contenga el pre-ruido en la que podría reducirse el pre-ruido en longitud mediante el escalamiento en el tiempo de la señal de audiofrecuencia para reducir el pre-ruido por T muestras. El número T podría elegirse de tal manera que la longitud del pre-ruido se minimice para aprovechar el pre-enmascaramiento, o bien podría elegirse con el fin de eliminar el pre-ruido por completo o casi por completo. Si se desea mantener el mismo número de muestras que en la señal original, la señal de audiofrecuencia que sigue al transitorio se podría expandir con escalamiento de tiempo por + T muestras. Alternativamente, como se ha mostrado en relación con el ejemplo de la Figura 16A, dicha compensación de número de muestras se podría aplicar antes del pre-ruido, lo cual tiene la ventaja de proveer también una compensación de evolución de tiempo.
Debe hacerse notar que, si se realiza el post-tratamiento en conjunción con el pre-tratamiento con escalamiento de tiempo, se podría minimizar la cantidad de interrupción adicional a la evolución en el tiempo del tren de señales de audiofrecuencia de salida. Como el pre-tratamiento con escalamiento de tiempo anteriormente expuesto reduce la longitud del pre-ruido a N/2 muestras para el caso de una solapa del 50% (donde N es la longitud del bloque de codificación de audiofrecuencia) se garantiza la introducción de menos de N/2 muestras de interrupción adicional de evolución de tiempo en la audiofrecuencia de salida comparada con la señal de audiofrecuencia de entrada original. En ausencia de pre-tratamiento, el pre-ruido puede alcanzar hasta N muestras, longitud del bloque de codificación para el caso de una solapa del 50%.
En algunos sistemas de codificación de audiofrecuencia a baja velocidad de transferencia de bits, la ubicación de los transitorios de señal podría no estar fácilmente disponible si el codificador no transporta la información de ubicación. Si ése es el caso, el descodificador o el proceso de escalamiento de tiempo podrían, usando cualquier número de procesos de detección de transitorios o el método eficaz anteriormente descrito, realizar la detección de transitorios.
Para múltiples transitorios, se aplican los mismos conceptos que para el pre-tratamiento, según se ha descrito anteriormente Post-tratamiento con escalamiento de tiempo sin pre-tratamiento
Según se ha mencionado anteriormente, en algunos casos podría ser conveniente mejorar la calidad percibida de la señal de audiofrecuencia que ha experimentado codificación a baja velocidad de transferencia de bits usando sistemas de compresión que no implementen un procesamiento con escalamiento de tiempo de pre-ruido de transitorio (pre-tratamiento). La Figura 14 esquematiza un proceso para realizarlo.
La primera etapa 1402 comprueba la disponibilidad de N muestras de datos de audiofrecuencia que han experimentado codificación y descodificación de audiofrecuencia a baja velocidad de transferencia de bits. Estas muestras de datos de audiofrecuencia podrían pertenecer a un archivo en un disco duro de un PC o a una memoria intermedia de datos de un dispositivo de hardware. Si están disponibles N muestras de datos de audiofrecuencia, se pasan al proceso de post-tratamiento con escalamiento de tiempo mediante la etapa 1404.
La tercera etapa 1406 en el proceso de post-tratamiento con escalamiento de tiempo es la identificación de la ubicación de señales de transitorio de datos de audiofrecuencia que tengan probabilidades de introducir artefactos de pre-ruido. Se dispone de muchos procesos diferentes para realizar esta función, y su implementación específica no es importante en tanto en cuanto provea una detección precisa de las señales de transitorio que tengan probabilidades de introducir artefactos de pre-ruido. Sin embargo, el proceso descrito anteriormente es un método eficaz y preciso que se podría usar.
La cuarta etapa 1408 es determinar si existen transitorios en la agrupación actual de datos de entrada de N muestras según se haya detectado por la etapa 1406. Si no existen transitorios, los datos de entrada se podrían descargar como salida mediante la etapa 1414 sin realizarse ningún tratamiento con escalamiento de tiempo. Si existen transitorios, el número de transitorios y su ubicación (o sus ubicaciones) se pasan a la etapa de proceso de estimación de pre-ruido de transitorios (1410) del proceso para identificar la ubicación y duración del pre-ruido de transitorio.
Las etapas quinta y sexta (1410) en el tratamiento implican estimar la ubicación y duración de los artefactos de pre-ruido de transitorio y reducir su longitud con el procesamiento con escalamiento de tiempo 1412. Dado que, por definición, los artefactos de pre-ruido están limitados a las regiones que preceden a transitorios en los datos de audiofrecuencia, el área de exploración viene limitada por la información facilitada por el proceso de detección de transitorios. Como se muestra en la Figura 1, la longitud del pre-ruido está limitada desde un mínimo de N/2 hasta un máximo de N muestras, donde N es el número de muestras de audiofrecuencia en un bloque de codificación de audiofrecuencia solapado en un 50%. Así, cuando N son 1.024 muestras y la audiofrecuencia se muestrea a 48 kHz, el pre-ruido de transitorio podría abarcar desde 10,7 mseg. hasta 21,3 mseg. antes del comienzo del transitorio, dependiendo de la ubicación del transitorio en el tren de señales de audiofrecuencia, que excede significativamente a cualquier enmascaramiento temporal que pudiera esperarse de la señales de transitorios. Alternativamente, en lugar de estimar la longitud de los artefactos de pre-ruido que preceden a un transitorio, se podría aplicar la etapa 1410 suponiendo que los artefactos de pre-ruido tengan una longitud por defecto.
Se podrían implementar dos soluciones para la reducción de pre-ruidos de transitorios. La primera supone que todos los transitorios contienen pre-ruido, y por tanto las señales de audiofrecuencia antes de cada transitorio se podrían escalar en el tiempo (comprimir en el tiempo) por una cantidad predeterminada (por defecto) que se base en una magnitud esperada de pre-ruido por transitorio. Si se usa esta técnica, se podría realizar una expansión de escala de tiempo de la audiofrecuencia antes del pre-ruido temporal, para proveer una compensación por número de muestras para el proceso de escalamiento de tiempo con compresión de tiempo empleado para reducir la longitud del pre-ruido, y para proveer una compensación por evolución de tiempo (la expansión de tiempo antes del pre-ruido que compensa por la compresión de tiempo dentro del pre-ruido deja al transitorio en o cerca de su ubicación temporal original). Sin embargo, si no se conoce la ubicación exacta del pre-ruido, dicho proceso de compensación por número de muestras podría aumentar involuntariamente la duración de partes del componente d el pre-ruido.
Las Figuras 15a-15c demuestran una técnica que usa un valor por defecto para escalar en el tiempo la señal de audiofrecuencia antes de cada transitorio con el fin de reducir la duración del pre-ruido, pero no se realiza la compensación por número de muestras. Como se muestra en la Figura 15a, una señal de audiofrecuencia procedente de un descodificador de audiofrecuencia a baja velocidad de transferencia de bits tiene un transitorio precedido por un pre-ruido. La Figura 15b muestra una longitud de procesamiento por defecto que se usa como la cantidad de compresión de tiempo a realizar por el proceso de escalamiento de tiempo. La Figura 15c muestra el tren resultante de señales de audiofrecuencia que tiene pre-ruido reducido. En este ejemplo, no se ha realizado la compensación por evolución de tiempo para devolver el transitorio a su ubicación original en el tren de datos de audiofrecuencia. Sin embargo, de una manera similar a los ejemplos de tratamiento anteriores, si se desea un número constante de muestras de entrada a salida, se podría realizar un proceso de expansión con escala de tiempos siguiendo al transitorio, similar al ejemplo de la Figura 13b o, posiblemente, antes del pre-ruido según se describe más adelante en relación con el ejemplo de las Figuras 16a-16c. Sin embargo, cuando se aplique una longitud de procesamiento por defecto, la provisión de dicha compensación antes del pre-ruido corre el riesgo de realizar el proceso de expansión de escala de tiempo dentro del pre-ruido (aumentando así de un modo no deseable la longitud del pre-ruido) si la longitud real del pre-ruido excede a la longitud por defecto. Además, en algunos casos, el post-tratamiento podría no tener acceso al tren de audiofrecuencia antes del pre-ruido - la audiofrecuencia se podría haber descargado ya como salida con el fin de reducir el tiempo de espera.
Una segunda técnica de reducción de pre-ruido con post-tratamiento, ilustrada en las Figuras 16a-16c, implica la realización de un análisis del pre-ruido resultante de un transitorio para determinar su longitud y procesar la audiofrecuencia para que solamente se trate el segmento del pre-ruido. Como se ha hecho notar anteriormente, el pre-ruido del transitorio se produce cuando los componentes de alta frecuencia del material de transitorios de audiofrecuencia se contamina temporalmente por todo un bloque como resultado del proceso de cuantificación realizado en el codificador. Por tanto, un método sencillo de detección es filtrar con paso alto la audiofrecuencia antes de un transitorio y medir la energía de alta frecuencia. El comienzo del pre-ruido de transitorio se identifica cuando el pre-ruido de alta frecuencia, parecido a un ruido, relacionado con el transitorio y causado por éste, excede de un valor umbral predeterminado. Cuando se conocen el tamaño y la ubicación del pre-ruido del transitorio, se podría realizar una expansión con compensación por escala de tiempos antes de la reducción de escala de tiempos del pre-ruido para devolver la señal de audiofrecuencia a su evolución temporal original y restablecer la evolución de tiempo del tren de señales de audiofrecuencia sustancialmente a su condición original. El invento no se limita a emplear detección de alta frecuencia. Se podrían emplear otras técnicas para detectar o estimar la longitud del pre-ruido.
En la Figura 16a, un tren de señales de audiofrecuencia procedente de un descodificador de audiofrecuencia a baja velocidad de transferencia de bits tiene un transitorio precedido por un pre-ruido. La Figura 16 muestra una longitud de tratamiento por compresión de tiempo que se usa como la cantidad de reducción con escala de tiempos a realizar por el proceso de escalamiento de tiempo basándose en una longitud estimada de pre-ruido medida mediante el contenido de audiofrecuencia de alta frecuencia en el bloque. La Figura 16b presenta también el uso de la expansión de tiempo por T muestras con el fin de restablecer la evolución original de tiempo del tren de señales y también de restablecer el número original de muestras. La figura 16c presenta el tren resultante de señales de audiofrecuencia que tiene un pre-ruido reducido junto con la evolución original de tiempo y el mismo número de muestras que el tren original de señales.
El presente invento y sus diversos aspectos se podrían implementar como funciones de software realizadas en procesadores de señales digitales, ordenadores digitales programados de uso general, y/u ordenadores digitales de uso especial. Las interfaces entre los trenes de señales analógicas y digitales se podrían realizar en un hardware apropiado y/o como funciones en software y/o en microprograma.

Claims (2)

1. Un método para reducir los artefactos de distorsión que preceden a un transitorio de señal en un tren de señales de audiofrecuencia subsiguiente a una transformación inversa, en el descodificador o en un sistema de codificación de audiofrecuencia a baja velocidad de transferencia de bits basado en transformación, que emplea bloques de codificación, cuyo método comprende
recibir información de metadatos que es útil en la reducción de la duración del pre-ruido del transitorio, cuya información de metadatos incluye la ubicación de transitorios, y
alterar la duración de tiempo de al menos una parte de dichos artefactos de distorsión, en respuesta a dicha información de metadatos, de tal manera que se reduce la duración de tiempo de dichos artefactos de distorsión.
2. El método de la reivindicación 1, en el que dicha información de metadatos incluye también una o más de: la longitud del bloque (o de los bloques) de codificador de audiofrecuencia, la relación entre los límites de bloque de codificador con los datos de audiofrecuencia, y una longitud deseada del pre-ruido del transitorio.
ES02769666T 2001-05-10 2002-04-25 Mejora de sesiones transitorias de sistemas de codificacion de señales de audiofrecuencia a baja velocidad de transferencia de bits por reduccion de preruidos. Expired - Lifetime ES2298394T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US29028601P 2001-05-10 2001-05-10
US290286P 2001-05-10

Publications (1)

Publication Number Publication Date
ES2298394T3 true ES2298394T3 (es) 2008-05-16

Family

ID=23115313

Family Applications (1)

Application Number Title Priority Date Filing Date
ES02769666T Expired - Lifetime ES2298394T3 (es) 2001-05-10 2002-04-25 Mejora de sesiones transitorias de sistemas de codificacion de señales de audiofrecuencia a baja velocidad de transferencia de bits por reduccion de preruidos.

Country Status (14)

Country Link
US (1) US7313519B2 (es)
EP (1) EP1386312B1 (es)
JP (1) JP4290997B2 (es)
KR (1) KR100945673B1 (es)
CN (1) CN1312662C (es)
AT (1) ATE387000T1 (es)
AU (1) AU2002307533B2 (es)
CA (1) CA2445480C (es)
DE (1) DE60225130T2 (es)
DK (1) DK1386312T3 (es)
ES (1) ES2298394T3 (es)
HK (1) HK1070457A1 (es)
MX (1) MXPA03010237A (es)
WO (1) WO2002093560A1 (es)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8063809B2 (en) 2008-12-29 2011-11-22 Huawei Technologies Co., Ltd. Transient signal encoding method and device, decoding method and device, and processing system

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4134297A1 (de) * 1991-10-17 1993-04-22 Behringwerke Ag Monoclonale antikoerper gegen mycoplasma pneumoniae, diese produzierende hybridome, verfahren zu deren herstellung sowie deren verwendung
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
DE60225130T2 (de) 2001-05-10 2009-02-26 Dolby Laboratories Licensing Corp., San Francisco Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches
US7171367B2 (en) * 2001-12-05 2007-01-30 Ssi Corporation Digital audio with parameters for real-time time scaling
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20030182106A1 (en) * 2002-03-13 2003-09-25 Spectral Design Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal
JP4076887B2 (ja) * 2003-03-24 2008-04-16 ローランド株式会社 ボコーダ装置
KR101058062B1 (ko) * 2003-06-30 2011-08-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 잡음 부가에 의한 디코딩된 오디오의 품질 개선
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US20090196126A1 (en) * 2004-07-30 2009-08-06 Dietmar Peter Method for buffering audio data in optical disc systems in case of mechanical shocks or vibrations
US7508947B2 (en) * 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
JP2006084754A (ja) * 2004-09-16 2006-03-30 Oki Electric Ind Co Ltd 音声録音再生装置
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
US7562021B2 (en) 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7546240B2 (en) 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
US7917358B2 (en) * 2005-09-30 2011-03-29 Apple Inc. Transient detection by power weighted average
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
CN101308656A (zh) * 2007-05-17 2008-11-19 展讯通信(上海)有限公司 音频暂态信号的编解码方法
JP5021809B2 (ja) * 2007-06-08 2012-09-12 ドルビー ラボラトリーズ ライセンシング コーポレイション アンビエンス信号成分とマトリックスデコードされた信号成分とを制御可能に結合することによるサラウンドサウンドオーディオチャンネルのハイブリッド導出
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
CA2697920C (en) * 2007-08-27 2018-01-02 Telefonaktiebolaget L M Ericsson (Publ) Transient detector and method for supporting encoding of an audio signal
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
ES2666719T3 (es) * 2007-12-21 2018-05-07 Orange Codificación/decodificación por transformada, con ventanas adaptativas
CN101488344B (zh) * 2008-01-16 2011-09-21 华为技术有限公司 一种量化噪声泄漏控制方法及装置
EP2296145B1 (en) * 2008-03-10 2019-05-22 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Device and method for manipulating an audio signal having a transient event
JP2010017216A (ja) * 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置
ES2654433T3 (es) 2008-07-11 2018-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de señal de audio, método para codificar una señal de audio y programa informático
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US9384748B2 (en) * 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
US8554348B2 (en) * 2009-07-20 2013-10-08 Apple Inc. Transient detection using a digital audio workstation
US8153882B2 (en) * 2009-07-20 2012-04-10 Apple Inc. Time compression/expansion of selected audio segments in an audio file
KR100940532B1 (ko) 2009-09-28 2010-02-10 삼성전자주식회사 저비트율 복호화방법 및 장치
TWI443646B (zh) 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
EP2372703A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
FR2961938B1 (fr) * 2010-06-25 2013-03-01 Inst Nat Rech Inf Automat Synthetiseur numerique audio ameliore
ES2585587T3 (es) 2010-09-28 2016-10-06 Huawei Technologies Co., Ltd. Dispositivo y método para post-procesamiento de señal de audio multicanal decodificada o de señal estéreo decodificada
WO2012040898A1 (en) 2010-09-28 2012-04-05 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
WO2013075753A1 (en) * 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
US9064503B2 (en) 2012-03-23 2015-06-23 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
CN105378835B (zh) 2013-02-20 2019-10-01 弗劳恩霍夫应用研究促进协会 使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法
US20150179181A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Adapting audio based upon detected environmental accoustics
KR20160119859A (ko) * 2014-02-10 2016-10-14 아우디맥스, 엘엘씨 개선된 잡음 내성을 갖는 통신 시스템들, 방법들 및 디바이스들
PL232466B1 (pl) * 2015-01-19 2019-06-28 Zylia Spolka Z Ograniczona Odpowiedzialnoscia Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
US10726851B2 (en) * 2017-08-31 2020-07-28 Sony Interactive Entertainment Inc. Low latency audio stream acceleration by selectively dropping and blending audio blocks

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624009A (en) 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
US4464784A (en) 1981-04-30 1984-08-07 Eventide Clockworks, Inc. Pitch changer with glitch minimizer
US4723290A (en) 1983-05-16 1988-02-02 Kabushiki Kaisha Toshiba Speech recognition apparatus
US4792975A (en) 1983-06-03 1988-12-20 The Variable Speech Control ("Vsc") Digital speech signal processing for pitch change with jump control in accordance with pitch period
US4700391A (en) 1983-06-03 1987-10-13 The Variable Speech Control Company ("Vsc") Method and apparatus for pitch controlled voice signal processing
US5202761A (en) 1984-11-26 1993-04-13 Cooper J Carl Audio synchronization apparatus
USRE33535E (en) 1985-09-16 1991-02-12 Audio to video timing equalizer method and apparatus
US4703355A (en) 1985-09-16 1987-10-27 Cooper J Carl Audio to video timing equalizer method and apparatus
US5040081A (en) 1986-09-23 1991-08-13 Mccutchen David Audiovisual synchronization signal generator using audio signature comparison
US4852170A (en) 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
JPS63225300A (ja) 1987-03-16 1988-09-20 株式会社東芝 パタ−ン認識装置
GB8720527D0 (en) 1987-09-01 1987-10-07 King R A Voice recognition
US5055939A (en) 1987-12-15 1991-10-08 Karamon John J Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track
IL84902A (en) 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
JP2739950B2 (ja) 1988-03-31 1998-04-15 株式会社東芝 パターン認識装置
WO1991019989A1 (en) 1990-06-21 1991-12-26 Reynolds Software, Inc. Method and apparatus for wave analysis and event recognition
US5313531A (en) 1990-11-05 1994-05-17 International Business Machines Corporation Method and apparatus for speech analysis and speech recognition
US5216744A (en) 1991-03-21 1993-06-01 Dictaphone Corporation Time scale modification of speech signals
FR2674710B1 (fr) * 1991-03-27 1994-11-04 France Telecom Procede et systeme de traitement des preechos d'un signal audio-numerique code par transformee frequentielle.
JP3134338B2 (ja) * 1991-03-30 2001-02-13 ソニー株式会社 ディジタル音声信号符号化方法
US5175769A (en) 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
US5450522A (en) 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
US5621857A (en) 1991-12-20 1997-04-15 Oregon Graduate Institute Of Science And Technology Method and system for identifying and recognizing speech
JP3104400B2 (ja) * 1992-04-27 2000-10-30 ソニー株式会社 オーディオ信号符号化装置及び方法
EP0608833B1 (en) 1993-01-25 2001-10-17 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
KR100372208B1 (ko) 1993-09-09 2003-04-07 산요 덴키 가부시키가이샤 음성신호의시간축압축/신장방법
JP3186412B2 (ja) * 1994-04-01 2001-07-11 ソニー株式会社 情報符号化方法、情報復号化方法、及び情報伝送方法
JPH0863194A (ja) * 1994-08-23 1996-03-08 Hitachi Denshi Ltd 残差駆動形線形予測方式ボコーダ
JP3307138B2 (ja) * 1995-02-27 2002-07-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
US5920840A (en) 1995-02-28 1999-07-06 Motorola, Inc. Communication system and method using a speaker dependent time-scaling technique
US5730140A (en) 1995-04-28 1998-03-24 Fitch; William Tecumseh S. Sonification system using synthesized realistic body sounds modified by other medically-important variables for physiological monitoring
US5699404A (en) 1995-06-26 1997-12-16 Motorola, Inc. Apparatus for time-scaling in communication products
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
FR2739736B1 (fr) * 1995-10-05 1997-12-05 Jean Laroche Procede de reduction des pre-echos ou post-echos affectant des enregistrements audio
US5960390A (en) * 1995-10-05 1999-09-28 Sony Corporation Coding method for using multi channel audio signals
WO1997019444A1 (en) 1995-11-22 1997-05-29 Philips Electronics N.V. Method and device for resynthesizing a speech signal
US5749073A (en) 1996-03-15 1998-05-05 Interval Research Corporation System for automatically morphing audio information
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
JPH1074097A (ja) 1996-07-26 1998-03-17 Ind Technol Res Inst オーディオ信号のパラメータを変更する方法及び装置
US6049766A (en) 1996-11-07 2000-04-11 Creative Technology Ltd. Time-domain time/pitch scaling of speech or audio signals with transient handling
US5893062A (en) 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
DE19710545C1 (de) 1997-03-14 1997-12-04 Grundig Ag Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen
US6211919B1 (en) 1997-03-28 2001-04-03 Tektronix, Inc. Transparent embedment of data in a video signal
TW357335B (en) 1997-10-08 1999-05-01 Winbond Electronics Corp Apparatus and method for variation of tone of digital audio signals
JP2001513225A (ja) 1997-12-19 2001-08-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 伸長オーディオ信号からの周期性の除去
US6266003B1 (en) 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
US6266644B1 (en) 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
US6374225B1 (en) * 1998-10-09 2002-04-16 Enounce, Incorporated Method and apparatus to prepare listener-interest-filtered works
SE9903552D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching
JP3430968B2 (ja) * 1999-05-06 2003-07-28 ヤマハ株式会社 ディジタル信号の時間軸圧伸方法及び装置
JP3430974B2 (ja) * 1999-06-22 2003-07-28 ヤマハ株式会社 ステレオ信号の時間軸圧伸方法及び装置
US6505153B1 (en) 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
EP1340317A1 (en) * 2000-11-03 2003-09-03 Koninklijke Philips Electronics N.V. Parametric coding of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
JP4152192B2 (ja) 2001-04-13 2008-09-17 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の高品質タイムスケーリング及びピッチスケーリング
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US20020116178A1 (en) 2001-04-13 2002-08-22 Crockett Brett G. High quality time-scaling and pitch-scaling of audio signals
DE60225130T2 (de) 2001-05-10 2009-02-26 Dolby Laboratories Licensing Corp., San Francisco Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches
MXPA03010749A (es) 2001-05-25 2004-07-01 Dolby Lab Licensing Corp Comparacion de audio usando caracterizaciones basadas en eventos auditivos.
MXPA03010751A (es) 2001-05-25 2005-03-07 Dolby Lab Licensing Corp Segmentacion de senales de audio en eventos auditivos.
US7346667B2 (en) 2001-05-31 2008-03-18 Ubs Ag System for delivering dynamic content
US20040122772A1 (en) 2002-12-18 2004-06-24 International Business Machines Corporation Method, system and program product for protecting privacy

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8063809B2 (en) 2008-12-29 2011-11-22 Huawei Technologies Co., Ltd. Transient signal encoding method and device, decoding method and device, and processing system

Also Published As

Publication number Publication date
KR20040034604A (ko) 2004-04-28
CN1552060A (zh) 2004-12-01
EP1386312A1 (en) 2004-02-04
CA2445480A1 (en) 2002-11-21
MXPA03010237A (es) 2004-03-16
JP2004528597A (ja) 2004-09-16
AU2002307533B2 (en) 2008-01-31
US20040133423A1 (en) 2004-07-08
ATE387000T1 (de) 2008-03-15
KR100945673B1 (ko) 2010-03-05
CN1312662C (zh) 2007-04-25
WO2002093560A1 (en) 2002-11-21
DE60225130T2 (de) 2009-02-26
JP4290997B2 (ja) 2009-07-08
CA2445480C (en) 2011-04-12
DE60225130D1 (de) 2008-04-03
HK1070457A1 (en) 2005-06-17
EP1386312B1 (en) 2008-02-20
DK1386312T3 (da) 2008-06-09
US7313519B2 (en) 2007-12-25

Similar Documents

Publication Publication Date Title
ES2298394T3 (es) Mejora de sesiones transitorias de sistemas de codificacion de señales de audiofrecuencia a baja velocidad de transferencia de bits por reduccion de preruidos.
US10515652B2 (en) Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
JP3224130B2 (ja) 高品質オーディオ用符号器・復号器
AU2002307533A1 (en) Improving transient performance of low bit rate audio coding systems by reducing pre-noise
Sinha et al. Audio compression at low bit rates using a signal adaptive switched filterbank
KR101632599B1 (ko) 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법
KR101376762B1 (ko) 디코더 및 대응 디바이스에서 디지털 신호의 반향들의 안전한 구별과 감쇠를 위한 방법
ES2654432T3 (es) Codificador de señal de audio, método para generar una señal de audio y programa informático
EP1080542B1 (en) System and method for masking quantization noise of audio signals
US20040186735A1 (en) Encoder programmed to add a data payload to a compressed digital audio frame
EP2959479A1 (en) Methods for parametric multi-channel encoding
RU2001123694A (ru) Улучшение перцепционной характеристики дублирования полосы спектра и связанных способов кодирования высокочастотного восстановления путем адаптивного добавления минимального уровня шума и ограничения подстановки шумов
US8907822B2 (en) Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window
US10170126B2 (en) Effective attenuation of pre-echoes in a digital audio signal
CN105122357A (zh) 频域中基于cpl进行编码的低频增强
RU2665281C2 (ru) Временное согласование данных обработки на основе квадратурного зеркального фильтра
KR100361720B1 (ko) 고능율부호화방법및장치
Zurera et al. A new algorithm for translating psycho-acoustic information to the wavelet domain
Singh et al. Audio watermarking based on quantization index modulation using combined perceptual masking
JP7279160B2 (ja) サブバンド併合および時間領域エイリアシング低減を使用した適応的な非均一時間/周波数タイリングによる知覚音声符号化
JP2002182695A (ja) 高能率符号化方法及び装置
Chen et al. Fast time-frequency transform algorithms and their applications to real-time software implementation of AC-3 audio codec
Leslie et al. Audio compression using wavelets
Ahmed et al. A time domain based efficient block decision algorithm for audio coders