ES2298394T3

ES2298394T3 - Mejora de sesiones transitorias de sistemas de codificacion de señales de audiofrecuencia a baja velocidad de transferencia de bits por reduccion de preruidos.

Info

Publication number: ES2298394T3
Application number: ES02769666T
Authority: ES
Inventors: Brett G. Crockett
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2001-05-10
Filing date: 2002-04-25
Publication date: 2008-05-16
Anticipated expiration: 2022-04-25
Also published as: KR20040034604A; CN1552060A; EP1386312A1; CA2445480A1; MXPA03010237A; JP2004528597A; AU2002307533B2; US20040133423A1; ATE387000T1; KR100945673B1; CN1312662C; WO2002093560A1; DE60225130T2; JP4290997B2; CA2445480C; DE60225130D1; HK1070457A1; EP1386312B1; DK1386312T3; US7313519B2

Abstract

Un método para reducir los artefactos de distorsión .que preceden a un transitorio de señal en un tren de señales de audiofrecuencia subsiguiente a una transformación inversa, en el descodificador o en un sistema de codificación de audiofrecuencia a baja velocidad de transferencia de bits basado en transformación, que emplea bloques de codificación, cuyo método comprende recibir información de metadatos que es útil en la reducción de la duración del pre-ruido del transitorio, cuya información de metadatos incluye la ubicación de transitorios, y alterar la duración de tiempo de al menos una parte de dichos artefactos de distorsión, en respuesta a dicha información de metadatos, de tal manera que se reduce la duración de tiempo de dichos artefactos de distorsión.

Description

Mejora de sesiones transitorias de sistemas de codificación de señales de audiofrecuencia a baja velocidad de transferencia de bits por reducción de pre-ruidos.

Campo técnico

El invento se refiere en general a la codificación de transformación digital a baja velocidad de transferencia de bis y a la descodificación de información que represente señales de audiofrecuencia tales como señales de música o señales vocales. Más particularmente, el invento se refiere a la reducción de artefactos de distorsión que preceden a un transitorio de señal ("pre-ruido")

Antecedentes en la técnica anterior Escalamiento de tiempo

El término "escalamiento de tiempo" se refiere a la alteración de la evolución o duración en el tiempo de una señal de audiofrecuencia al mismo tiempo que no se altera su contenido espectral (timbre percibido) o tono percibido (donde el tono es una característica en relación de asociación con señales periódicas de audiofrecuencia). El escalamiento de tono se refiere a la modificación del contenido espectral o tono percibido de una señal de audiofrecuencia mientras no se afecta a su evolución o duración el tiempo. El escalamiento de tiempo y el escalamiento de tono son métodos duales entre sí. Por ejemplo, un tono de señal de audiofrecuencia digitalizada se podría incrementar en un 5% sin afectar su duración en el tiempo mediante su escalamiento de tiempo en un 5% (es decir, incrementando la duración del tiempo de la señal) y luego la extracción de información de las muestras en una velocidad de variación de las muestras un 5% mayor (por ejemplo, por re-muestreo), manteniendo de ese modo su duración de tiempo original. La señal resultante tiene la misma duración de tiempo que la señal original, pero con un tono o unas características espectrales modificados. El re-muestreo no es una etapa esencial del escalamiento de tiempo o del escalamiento de tono, a no ser que se desee mantener una velocidad de muestreo de salida constante o mantener iguales las velocidades de muestreo de entrada y salida.

En aspectos del presente invento, se emplea el procesamiento de escalamiento de tiempo de trenes de señales de audiofrecuencia. Sin embargo, según se ha mencionado anteriormente, el escalamiento de tiempo se podría realizar también usando técnicas de escalamiento de tono, puesto que son duales entre sí. Así, aunque en la presente memoria se usa el término "escalamiento de tiempo", se podrían emplear también técnicas que empleen escalamiento de tono para obtener escalamiento de tiempo.

Codificación de señales de audiofrecuencia a baja velocidad de transferencia de bits

Entre los dedicados al campo del tratamiento de señales, existe un interés considerable en minimizar la cantidad de información requerida para representar una señal sin una pérdida perceptible en la calidad de la señal. Mediante la reducción de los requisitos de información, las señales imponen menos requisitos de capacidad de información sobre los canales de comunicación y medios de almacenamiento. Con respecto a las técnicas de codificación digital, los requisitos mínimos de información son sinónimos con los mínimos requisitos de bit binario.

Algunas técnicas anteriores para codificar señales de audiofrecuencia destinadas a la audición humana intentan reducir requisitos de información sin producir ninguna degradación audible mediante la explotación de efectos sico-acústicos. El oído humano presenta propiedades de análisis de frecuencias que se parecen a los filtros sintonizados muy asimétricos que tienen frecuencias centrales variables. La capacidad del oído humano para detectar tonos distintos aumenta en general cuando lo hace la diferencia de frecuencias entre los tonos; sin embargo, la capacidad de resolución del oído permanece sustancialmente constante para diferencias de frecuencias menores que el ancho de banda de los filtros anteriormente mencionados. Por tanto, la capacidad de resolución de frecuencias del oído humano varía según el ancho de banda de estos filtros a lo largo de todo el espectro de audiofrecuencias. Al ancho de banda eficaz de dicho filtro auditivo se hace referencia como una banda crítica. Una señal dominante dentro de una banda crítica tiene más probabilidades de enmascarar la audibilidad de otras señales en cualquier parte dentro de la banda crítica que otras señales en frecuencias exteriores a esa banda crítica. Una señal dominante podría enmascarar otras señales que se produzcan no sólo al mismo tiempo que la señal de enmascaramiento, sino que también ocurran antes y después que la señal de enmascaramiento La duración de los efectos de pre- y post-enmascaramiento dentro de una banda crítica depende de la amplitud de la señal de enmascaramiento, pero usualmente los efectos del pre-enmascaramiento son de una duración mucho menor que los efectos del post-enmascaramiento. Véase, con carácter general, el Manual de ingeniería de audiofrecuencia (Audio Engineering Handbook) K. Blair Benson editores, Mc-Graw-Hill, San Francisco 1988, páginas 1.40 -1.42 y 4.8-4.10

Las técnicas de registro y transmisión de señales que dividen el ancho de banda útil de la señal en bandas de frecuencias con anchos de banda que se aproximen a las bandas críticas del oído pueden aprovechar mejor los efectos sico-acústicos que las técnicas de banda más ancha. Las técnicas que explotan los efectos de enmascaramiento sico-acústico pueden codificar y reproducir una señal que sea indistinguible de la señal de entrada original usando una velocidad de transferencia de bits inferior a la requerida por la codificación con modulación por impulsos modificados (en adelante PCM).

Las técnicas de banda crítica comprenden dividir el ancho de banda de la señal en bandas de frecuencia, tratar la señal de cada banda de frecuencia, y reconstruir una réplica de la señal original a partir de la señal tratada de cada banda de frecuencia. Dos de dichas técnicas son la codificación sub-banda y la codificación de transformación. Los codificadores de sub-banda y transformación pueden reducir los requisitos de información transmitida en bandas particulares de frecuencia donde la imprecisión de codificación resultante (ruido) esté enmascarada en forma sico-acústica por componentes espectrales vecinos sin degradar la calidad subjetiva de la señal codificada.

Un banco de filtros de paso de banda digitales podría implementar codificación sub-banda. La codificación de transformación se podría implementar por alguna de varias de las transformaciones discretas de dominio de tiempo a dominio de frecuencia que implementa un banco de filtros de paso de banda digitales. La descripción restante se refiere más particularmente a códigos de transformación, por tanto el término "sub-banda" se refiere en este caso a partes seleccionadas del ancho de banda total de la señal, ya sea implementada por un codificador de sub-banda o por un codificador de transformación. Una sub-banda tal como se implementa por un codificador de transformación se define por un conjunto de uno o más de coeficientes de transformación adyacentes; de aquí que el ancho de banda de sub-banda es un múltiplo del ancho de banda del coeficiente de transformación, El ancho de banda de un coeficiente de transformación es directamente proporcional a la velocidad de muestreo de la señal de entrada e inversamente proporcional al número de coeficientes generados por la trasformación para representar la señal de entrada.

El enmascaramiento sico-acústico se podría llevar a cabo de un modo más sencillo mediante códigos de transformación si el ancho de banda de sub-banda a lo largo de todo el espectro audible es aproximadamente la mitad del ancho de banda crítico del oído humano en las mismas partes del espectro. Ello se debe a que las bandas críticas del oído humano tienen frecuencias centrales variables que se adaptan a estímulos auditivos, mientras que los codificadores de sub-banda y de transformación tienen típicamente frecuencias centrales de sub-banda fijas. Para optimizar la utilización de los efectos de enmascaramiento sico-acústico, cualesquiera artefactos de distorsión resultantes de la presencia de una señal dominante deberían limitarse a la sub-banda que contenga la señal dominante. Si el ancho de banda de la sub-banda es aproximadamente la mitad o menos de la mitad de la banda crítica y si la selectividad del filtro es suficientemente elevada, tendrá probabilidades de producirse un enmascaramiento efectivo de los productos de distorsión indeseables aún para señales cuya frecuencia esté cerca del borde del ancho de banda de paso de banda de la sub-banda. Si el ancho de banda de la sub-banda es más de la mitad que una banda crítica, hay una posibilidad de que la señal dominante pueda causar que la banda crítica del oído se descentre del codificador de sub-banda de tal manera que no se enmascaren algunos de los productos de distorsión indeseables situados en el exterior del ancho de banda crítico del oído. Este efecto es más objecionable en frecuencias bajas, en donde la banda crítica del oído es más estrecha.

La probabilidad de que una señal dominante pueda causar que la banda crítica del oído se descentre de una sub-banda de codificador y por tanto "descubra" otras señales de la misma sub-banda de codificador es generalmente mayor a bajas frecuencias, en donde la banda crítica del oído es más estrecha. En los códigos de transformación, la sub-banda más estrecha posible es un coeficiente de transformación, por lo que el enmascaramiento sico-acústico se podría realizar más fácilmente si el ancho de banda del coeficiente de transformación no sobrepasa la mitad del ancho de banda de la banda crítica de máxima estrechez del oído. Un aumento de la longitud de la transformación podría disminuir el ancho de banda del coeficiente de transformación. Un inconveniente de aumentar la longitud de la transformación es un aumento en la complejidad del tratamiento para calcular la transformación y en codificar números mayores de sub-bandas más estrechas. Otros inconvenientes se exponen más adelante.

Por supuesto, el enmascaramiento sico-acústico se podría obtener usando sub-bandas más anchas si la frecuencia central de estas sub-bandas se puede cambiar para que siga a los componentes de la señal dominante del mismo modo que cambia la frecuencia central de la banda crítica del oído.

La capacidad de un codificador de transformación para explotar los efectos de enmascaramiento sico-acústico depende también de la selectividad del banco de filtros implementado por la transformación. El término "selectividad" de filtro, tal como se usa en la presente memoria, se refiere a dos características de los filtros de paso de banda de sub-banda. La primera es el ancho de banda de las regiones situadas entre el paso de banda del filtro y las bandas atenuadas (la anchura de las bandas de transición). La segunda es el nivel de atenuación en las bandas atenuadas. De este modo, la selectividad de filtro se refiere al escarpe de la curva de respuesta del filtro dentro de las bandas de transición (escarpe de la atenuación progresiva de la banda de transición), y al nivel de atenuación en las bandas atenuadas (profundidad de rechazo de banda atenuada).

La selectividad del filtro está afectada directamente por numerosos factores incluyendo los tres factores que se exponen más adelante: longitud de bloque, funciones de ponderación de ventana, y transformaciones. En un sentido muy general, la longitud de bloque afecta a la resolución temporal y de frecuencia del codificador, y las ventanas y las transformaciones afectan a la ganancia de codificación.

Codificación de audiofrecuencia a baja velocidad de transferencia de bits/longitud de bloque

La señal de entrada a codificar se muestrea y segmenta en "bloques de muestra de señal" antes de la filtración de sub-banda. El número de muestras contenido en el bloque de muestras de señal es la longitud de bloque de la muestra de señal.

Es común que el número de coeficientes generados por un banco de filtros de transformación (longitud de transformación) sea igual a la longitud de bloque de muestras de señal, pero no es necesario. Se podría usar una transformación de bloque superpuesta, y a veces se describe en la técnica como una transformación de longitud N que transforma bloques de muestras de señal con 2N muestras. Se puede describir también como una transformación de longitud 2N que genera solamente coeficientes exclusivos N. Como se puede considerar que todas las transformaciones que se describen en la presente memoria tienen longitudes iguales a la longitud de bloque de muestras de señal, generalmente se usan en la presente memoria las dos longitudes como sinónimos una de otra.

La longitud de bloque de muestras de señal afecta a la resolución temporal y de frecuencia de un codificador de transformación. Los codificadores de transformación que usan longitudes de bloque más cortas tienen una resolución de frecuencia más deficiente, porque el ancho de banda del coeficiente discreto de transformación es más ancho y la selectividad de filtro es menor (menor velocidad de variación de la atenuación progresiva de la banda de transición y un nivel menor de rechazo de banda atenuada). Esta degradación en el comportamiento del filtro causa que la energía de un solo componente espectral se disperse en coeficientes de transformación vecinos. Esta dispersión indeseable de energía espectral es el resultado de un comportamiento degradado del filtro denominado "fugas de lóbulo lateral".

Los codificadores de transformación que usan mayores longitudes de bloque tienen una resolución temporal más deficiente, porque los errores de cuantificación causan que un sistema codificador/descodificador de transformación "manche" los componentes de frecuencia de una señal muestreada a través de toda la longitud del bloque de muestras de señal. Los artefactos de distorsión presentes en la señal recuperados de la transformación inversa son los más audibles como resultado de grandes cambios en la amplitud de la señal que ocurren durante un intervalo de tiempo mucho más corto que la longitud del bloque de muestras de señal. A estos cambios de amplitud se hace referencia en la presente memoria como "transitorios". Dicha distorsión se manifiesta como un ruido en la forma de un eco u oscilación transitoria justo antes (ruido de pre-transitorio o "pre-ruido") o justo después (ruido post-transitorio) del transitorio. El pre-ruido tiene un interés particular porque es muy audible y, a diferencia del ruido post-transitorio, está mínimamente enmascarado (un transitorio proporciona solamente un pre-enmascaramiento temporal mínimo). El pre-ruido se produce cuando los componentes de alta frecuencia del material de transitorios de audiofrecuencia se manchan temporalmente a través de la longitud del bloque de codificador de audiofrecuencia en el que ocurre. El presente invento concierne sustancialmente a la minimización del pre-ruido. El ruido post-transitorio típicamente está enmascarado de un modo sustancial. y no es el objeto de este invento.

Los codificadores s de transformación de longitud fija de bloque usan una longitud de bloque de compromiso que compensa la resolución temporal contra la resolución de frecuencia. Una longitud de bloque corta degrada la selectividad de filtro de sub-banda, que podría resultar en un ancho de banda nominal de filtro de banda de paso que exceda el ancho de banda crítico del oído a frecuencias más bajas o a todas las frecuencias. Incluso si el ancho de banda nominal de sub-banda es más estrecho que el ancho de banda crítico del oído, las características degradadas del filtro manifestadas como una banda de transición amplia y/o rechazo de banda atenuada deficiente podrían resultar en significativos artefactos de señal fuera del ancho de banda crítico del oído. Por el contrario, una longitud grande de bloque podría mejorar la selectividad del filtro, pero reduce la resolución temporal, lo cual podría dar lugar a que ocurriese una distorsión de señal audible fuera del intervalo de enmascaramiento sico-acústico temporal del
oído.

Función de ponderación de ventana

Las transformaciones discretas no producen un conjunto perfectamente preciso de coeficientes de frecuencia, porque trabajan con solamente un segmento de longitud finita de la señal, el bloque de muestras de señal. Estrictamente hablando, las transformaciones discretas producen una representación tiempo-frecuencia de la señal de entrada en el dominio del tiempo más bien que una representación verdadera en el dominio de la frecuencia, que requeriría infinitas longitudes de bloque de muestras de señal. Sin embargo, por conveniencia de la descripción, en la presente memoria a la salida de las transformaciones discretas se hace referencia como una representación en el dominio de la frecuencia. En realidad, la transformación discreta supone que la señal muestreada solamente tiene componentes de frecuencia cuyos períodos son un submúltiplo de la longitud de bloque de muestras de señal. Esto es equivalente a una hipótesis de que la señal de longitud finita es periódica. Por supuesto, la hipótesis en general no es cierta. La periodicidad supuesta crea discontinuidades en los bordes del bloque de muestras de señal que causan que la transformación cree componentes espectrales fantasmas.

Una técnica que minimiza este efecto es la reducción de la discontinuidad antes de la transformación mediante la ponderación de las muestras de señal de tal manera que las muestras situadas cerca de los bordes del bloque de muestras de señal sean cero o muy cerca de cero. Las muestras situadas en el centro del bloque de muestras de señal pasan generalmente sin cambiar, es decir, ponderadas por un factor de uno. Esta función de ponderación se denomina una "ventana de análisis". La forma de la ventana afecta directamente a la selectividad del filtro.

Tal como se usa en la presente memoria, el término "ventana de análisis" se refiere solamente a la función de selección de ventana realizada antes de la aplicación de la transformación directa. La ventana de análisis es una función de dominio en el tiempo. Si no se provee compensación por los efectos "ventana", la señal recuperada o "sintetizada" se distorsiona de acuerdo con la forma de la ventana de análisis En la técnica es bien conocido un método de compensación conocido como solapar-añadir. Este método requiere que el codificador transforme bloques solapados de muestras de señal de entrada. Diseñando cuidadosamente la ventana de análisis de tal manera que dos ventanas adyacentes se añadan a la unidad a través de la solapa, los efectos de la ventana se compensan exactamente. La forma de la ventana afecta significativamente. Véase en general el documento de Harris titulado "Sobre el uso de ventanas para análisis de armónicos con la transformada discreta de Fourier", Actas de l IEEE, volumen 66, enero, 1978, págs. 51-83. Como regla general, las ventanas de forma "más suave" y los intervalos mayores de solapa proporcionan una mejor selectividad, Por ejemplo, una ventana Kaisser- Bessel generalmente provee una selectividad de filtro mayor que una ventana rectangular estrechada progresivamente en forma
sinusoidal.

Cuando se usa con ciertos tipos de transformaciones tales como la transformada discreta de Laplace (en adelante DFT), el método de solapar-añadir aumenta el número de bits requeridos para representar la señal, porque la parte de la señal contenida en el intervalo de solapa se debe transformar y transmitir dos veces, una por cada uno de los dos bloques de muestras de señal solapado. El análisis/síntesis de señal para los sistemas que usan dicha transformación con solapar-añadir no es muestreado críticamente. El término "muestreado críticamente" se refiere a un análisis/síntesis de señal que sobre un período de tiempo genera el mismo número de coeficientes de frecuencia que el número de muestras de señal de entrada que recibe. De aquí que, para sistemas que se muestreen de forma no crítica, es conveniente diseñar la ventana con un intervalo de solapa tan pequeño como sea posible, para minimizar los requisitos de información de la señal codificada.

Algunas transformaciones requieren también que a la salida sintetizada de la transformación inversa se le practique una selección de ventana. La ventana de síntesis se usa para conformar cada bloque de señal sintetizada Por tanto, la señal sintetizada se pondera tanto mediante una ventana de análisis como por una ventana de síntesis. Esta ponderación en dos etapas es matemáticamente similar a ponderar la señal original una vez por una ventana cuya forma sea igual a un producto muestra por muestra de las ventanas de análisis y síntesis. Por tanto, con el fin de utilizar el método de solapar-añadir para compensar por distorsión de ventana, se deben diseñar ambas ventanas de tal manera que el producto de las dos sumas se unifique a través del intervalo de solapar-añadir.

Aunque no existe un criterio único que pueda usarse para establecer una optimización de ventana, una ventana en general se considera "buena" si la selectividad del filtro utilizado con la ventana se considera "buena". Por tanto, una ventana de análisis bien diseñada (para transformaciones que usen solamente una ventana de análisis) o un par de ventanas de análisis/síntesis (para transformaciones que usen una ventana de análisis y una ventana de síntesis) puede reducir las fugas de lóbulo lateral.

Conmutación de bloque

Una solución común que supera el compromiso entre la resolución temporal y la resolución de frecuencia en los codificadores de transformación de longitud fija de bloque es el uso de la detección de transitorios y la conmutación de longitud de bloque. En esta solución, la presencia y la ubicación de los transitorios de señales de audiofrecuencia se detectan usando varios métodos de detección de transitorios. Cuando se detectan señales transitorias de audiofrecuencia que tengan probabilidades de introducir pre-ruido cuando se codifiquen usando una gran longitud de bloque de codificador de audiofrecuencia, el codificador a baja velocidad de transferencia de bits se conmuta desde la longitud de bloque largo más eficiente a una longitud de bloque más corto menos eficiente. Aunque esto reduce la resolución de frecuencia y el rendimiento de la codificación de la señal de audiofrecuencia codificada, también reduce la longitud del pre-ruido de transitorio introducido por el proceso de codificación, mejorando la calidad percibida de la señal de audiofrecuencia tras la descodificación a baja velocidad de transferencia de bits. Las técnicas para la conmutación de longitudes de bloque se describen en las patentes de EE.UU. Números 5.394.473; 5.848.391; y 6.226.608. Aunque el presente invento reduce el pre-ruido sin la complejidad ni los inconvenientes de la conmutación de bloque, se podría emplear junto con - y además de - la conmutación de bloque.

El documento elaborado por Vafin R. y colaboradores, titulado "Modificación de transitorios para una codificación eficaz de audiofrecuencia", CONFERENCIA INTERNACIONAL DEL INSTITUTO DE INGENIEROS ELÉCTRICOS Y ELECTRÓNICOS (IEEE) DE 2001 SOBRE ACÚSTICA, TRATAMIENTO DE SEÑALES Y DE VOZ. ACTAS. 7-11 de mayo de 2001, páginas 3285-3288 describe la modificación, en un código paramétrico de audiofrecuencia, de la ubicación de transitorios estimados de tal manera que los transitorios puedan ocurrir solamente en lugares especificados por una rejilla. La rejilla se define por una segmentación restringida en la que los segmentos están definidos por múltiplos de números enteros de un tamaño mínimo predefinido de segmento.

El documento WO 00/45378 describe un método para codificación de envolvente espectral en el que, en la proximidad de transitorios, se aumenta la resolución temporal a expensas de la resolución de frecuencia. En el sistema de codificación que trata los segmentos de tiempo de una señal de entrada, esto se consigue cambiando la longitud de los segmentos de tiempo respectivos.

Descripción del invento

De acuerdo con un aspecto del presente invento, un método para reducir los artefactos de distorsión que preceden a un transitorio de señal en un tren de señales de audiofrecuencia subsiguiente a la transformación inversa en el descodificador de un sistema de codificación de audiofrecuencia de la velocidad de transferencia de bits basado en transformación que emplea bloques de codificación, comprende alterar la duración de tiempo de al menos una parte de los artefactos de distorsión, en respuesta a dicha información de metadatos, de tal manera que se reduce la duración de tiempo de los artefactos de distorsión. La información de metadatos incluye la ubicación de transitorios.

Mediante dicho tratamiento, al que en la presente memoria se hará referencia como "post-tratamiento", se podrían conseguir mejoras de calidad de audiofrecuencia tanto si se emplea pre-tratamiento como si no se emplea. Se podría analizar cualquier señal de audiofrecuencia que haya experimentado una codificación y descodificación de audiofrecuencia a baja velocidad de transferencia de bits para identificar la ubicación de señales transitorias y estimar la duración de artefactos de señales transitorias de pre-ruido. Entonces, se podría realizar un post-procesamiento escalado en el tiempo sobre la señal de audiofrecuencia con el fin de eliminar el pre-ruido de la señal transitoria o de reducir su duración.

Existen varias técnicas de compensación para reducir las alteraciones en la evolución en el tiempo de trenes de señales de audiofrecuencia. Estas técnicas de compensación escaladas en el tiempo tienen también el resultado beneficioso de mantener constante el número de muestras de audiofrecuencia.

Una primera técnica de compensación con escalamiento de tiempo, que es útil en relación con el pre-tratamiento, se aplica antes de la transformación directa. Aplica un escalamiento de compensación de tiempo al tren de señales de audiofrecuencia que sigue al transitorio, teniendo el escalamiento de tiempo un sentido contrario al sentido del escalamiento de tiempo empleado para cambiar la posición del transitorio y, preferiblemente, teniendo sustancialmente la misma duración que el escalamiento de tiempo del cambio de transitorio. Por conveniencia de la descripción, a este tipo de compensación se hará referencia en la presente memoria como "compensación de número de muestras", porque es capaz de mantener constante el número de muestras de señales de audiofrecuencia pero no lo es de restablecer totalmente la evolución temporal original del tren de señales de audiofrecuencia (deja temporalmente fuera de lugar a los transitorios y partes del tren de señales de audiofrecuencia que se encuentren cerca del transitorio). Preferiblemente, el escalamiento de tiempo que provee compensación de número de muestras sigue muy de cerca al transitorio, de tal manera que éste lo enmascara temporalmente.

Aunque la compensación de número de muestras deja al transitorio cambiado con respecto a su posición temporal original, el hecho es que restablece el tren de señales de audiofrecuencia que sigue al escalamiento de compensación de tiempo a su posición temporal relativa original. De este modo, se reduce la probabilidad de audibilidad del cambio de tiempo de transitorio, aunque no se elimina, porque el transitorio está todavía fuera de su posición original. Sin embargo, esto podría proveer una reducción significativa en audibilidad y tiene la ventaja de que se realiza antes de la codificación de audiofrecuencia a baja velocidad de transferencia de bits, lo que permite el uso de un descodificador estándar, sin modificar. Según se explica más adelante, solamente se puede cumplir una recuperación completa de la evolución en el tiempo del tren de señales de audiofrecuencia mediante el tratamiento en el descodificador o después del descodificador. Además de reducir la posibilidad del cambio de tiempo de transitorio, la compensación con escalamiento de tiempo antes de la transformación directa tiene la ventaja de mantener constante el número de muestras de señales de audiofrecuencia, lo cual podría ser importante para el tratamiento y/o para el funcionamiento del hardware que implementa el tratamiento.

Con el fin de proveer una compensación óptima con escalamiento de tiempo antes de la transformación directa, se debería emplear mediante el proceso de compensación una información en cuanto la ubicación del transitorio y la duración temporal del cambio de tiempo de transitorio.

Si se aplica el cambio de tiempo de transitorio después del bloqueo (pero antes de aplicar la transformación directa) es necesario emplear compensación de número de muestras dentro del mismo bloque en el que se realice el cambio de tiempo de transitorio con el fin de mantener igual la longitud de bloque. Por consiguiente, se prefiere realizar el cambio de tiempo de transitorio y la compensación del número de muestras antes de bloquear.

La compensación del número de muestras se podría emplear también después de la transformación inversa (bien en el descodificador o bien después de descodificar) en relación con el post-tratamiento. En este caso, se podría enviar información útil para realizar la compensación al proceso de compensación desde el descodificador (cuya información se podría haber originado en el codificador y/o en el descodificador).

Se podría realizar una recuperación más completa de la evolución temporal del tren de señales de audiofrecuencia junto con el restablecimiento del número original de muestras de audiofrecuencia después de la transformación inversa (bien sea en el descodificador o bien después de descodificar), mediante la aplicación de un escalamiento de tiempo de compensación al tren de señales de audiofrecuencia antes del transitorio en el sentido contrario al sentido del escalamiento de tiempo empleado para cambiar la posición del transitorio y, preferiblemente, de la misma duración sustancial que el escalamiento de tiempo del cambio de transitorio. Por conveniencia de la descripción, a este tipo de compensación se hará referencia de aquí en adelante en la presente memoria como "compensación de evolución en el tiempo". Esta compensación de escalamiento de tiempo tiene la ventaja significativa de restablecer la totalidad del tren de señales de audiofrecuencia, incluyendo el transitorio, a su posición temporal relativa original. De este modo, se reduce enormemente la probabilidad de audibilidad de los procesos de escalamiento de tiempo, aunque no se elimina, porque los dos procesos de escalamiento de tiempo por sí solos podrían causar artefactos
audibles.

Con el fin de proveer una compensación óptima de la evolución en el tiempo, es útil diversa información tal como la ubicación del transitorio, la ubicación de los extremos del bloque, la duración del cambio de tiempo de transitorio, o la duración del pre-ruido. La duración del pre-ruido es útil para asegurar que el escalamiento de tiempo de la compensación de evolución de tiempo no ocurre durante el pre-ruido, que posiblemente de ese modo ampliaría la duración temporal del pre-ruido. La duración del cambio de tiempo de transitorio es útil si se desea restablecer el tren de señales de radiofrecuencia a su posición original temporal relativa y mantener constante el número de muestras. La ubicación del transitorio es útil porque se podría determinar la duración del pre-ruido a partir de la ubicación original del transitorio con respecto a los extremos de los bloques de codificación. La duración del pre-ruido se podría estimar midiendo un parámetro de señal, tal como el contenido de alta frecuencia, o podría emplearse un valor por defecto. Si la compensación se realiza en el descodificador o después de descodificar, el codificador podría enviar información útil como metadatos junto con la señal de audiofrecuencia codificada. Cuando se realice después de la descodificación, se podrían enviar metadatos al proceso de compensación desde el descodificador (cuya información se podría haber originado en el codificador y/o en el descodificador).

Como se ha mencionado anteriormente, el post-tratamiento para reducir la duración del artefacto de pre-ruido se podría aplicar también como una etapa adicional a un codificador de señales de audiofrecuencia que realice pre-tratamiento de escalamiento de tiempo y, opcionalmente, proporcione información de metadatos. Dicho post-tratamiento actuaría como un medio adicional de perfeccionamiento de calidad mediante la reducción del pre-ruido que todavía pueda permanecer después del post-tratamiento.

Se podría preferir el pre-tratamiento en los sistemas de codificador que empleen codificadores profesionales en los que el coste, la complejidad y el retardo de tiempo son relativamente inmateriales en comparación con el post-tratamiento en relación con un descodificador, que típicamente es un dispositivo de consumidor con menos
complejidad.

La técnica de perfeccionamiento de calidad de un sistema de codificación de señales de audiofrecuencia con baja velocidad de transferencia de bits se podría implementar usando cualquier técnica actual adecuada de escalamiento de tiempo, Una técnica adecuada se describe en la solicitud de patente internacional PCT/US02/04317, presentada el 12 de febrero de 2002, con el título de "escalamiento de tiempo y escalamiento de tono de alta calidad de señales de audiofrecuencia". Dicha solicitud designa a los Estados Unidos y a otras entidades. Como se ha indicado anteriormente, dado que el escalamiento de tiempo y el cambio de tono son métodos duales entre sí, el escalamiento de tiempo se podría implementar también usando cualquier técnica adecuada de escalamiento de tono, así como cualquiera que pueda estar disponible en el futuro. Un escalamiento de tono seguido por una extracción de información de las muestras de señales de audiofrecuencia a una velocidad adecuada que sea diferente de la velocidad de variación de la muestra de entrada resulta en una versión escalada en el tiempo de la señal de audiofrecuencia con el mismo contenido espectral o tono de la señal de audiofrecuencia original, y es aplicable al presente
invento.

Según se ha indicado en el resumen de antecedentes de la codificación de señales de audiofrecuencia a baja velocidad de transferencia de bits, la selección de la duración de bloque en un sistema de codificación de señales de audiofrecuencia es un compromiso entre la resolución de frecuencia y la resolución temporal. En general se prefiere una duración mayor de bloque, puesto que proporciona un rendimiento mayor del codificador (en general provee una calidad mayor de señales de audiofrecuencia percibidas con un número reducido de bits de datos) en comparación con una duración menor de bloque. Sin embargo, las señales de transitorio y las señales de pre-ruido que generan contrarrestan la ganancia en calidad de duraciones de bloque mayores por introducir efectos perjudiciales audibles. Es por esta razón por lo que se usa la conmutación de bloque o las duraciones fijas menores de bloque en aplicaciones prácticas de codificadores de señales de audiofrecuencia a baja velocidad de transferencia de bits. Sin embargo, la aplicación del pre-tratamiento de escalamiento de tiempo de acuerdo con el presente invento a datos de audiofrecuencia que van a experimentar codificación de señales de audiofrecuencia a baja velocidad de transferencia de bits y/o que ha experimentado un post- tratamiento podría reducir la duración del pre-ruido de transitorios. Esto permite usar mayores duraciones de bloque de codificación de señales de audiofrecuencia, proporcionando con ello un mayor rendimiento de codificación y mejorando la calidad de la señal de audiofrecuencia percibida sin cambiar de forma adaptable las duraciones de bloque. Sin embargo, la reducción del pre-ruido de acuerdo con el presente invento se podría emplear también en sistemas de codificación que usen conmutación de duración de bloque. En dichos sistemas, podría existir cierto pre-ruido aún para el mínimo tamaño de ventana. Cuanto mayor sea la ventana, más largo y, por consiguiente, más audible es el pre-ruido. Los transitorios típicos proveen aproximadamente 5 mseg. de pre-enmascaramiento, que se traduce a 240 muestras a una velocidad de muestreo de 48 kHz. Si una ventana tiene más de 256 muestras, que es común en una disposición de conmutación de bloque, el invento aporta cierto
beneficio.

Codificación de audiofrecuencia de artefactos de pre-ruido de transitorios

Las Figuras 1a-1e muestran ejemplos de artefactos de pre-ruido de transitorios generados por un sistema codificador de audiofrecuencia de longitud de bloque fija. La Figura 1A presenta seis bloques, solapados en un 50%, de ventana seleccionada para codificación de audiofrecuencia y de longitud fija del 1 al 6. En esta figura y en todas las demás figuras de la presente memoria, cada ventana es contigua con un bloque de codificación de audiofrecuencia y a ella se hace referencia como "bloque con ventana", "ventana", o "bloque". En esta figura y en otras determinadas figuras de la presente memoria, las ventanas se presentan en general en la forma de una ventana de Kaiser-Bessel. Otras figuras muestran ventanas en forma de semicírculos para mayor sencillez en la presentación. La forma de la ventana no es crítica para el presente invento. Aunque la longitud de los bloques con ventana de la Figura 1a y de otras figuras no son críticas para el invento, los bloques con ventana de longitud fija se encuentran típicamente en el intervalo de 256 a 2048 muestras en longitud. Los cuatro ejemplos de señal de audiofrecuencia de la Figuras 1b a 1e ilustran, respectivamente, los efectos de las relaciones temporales entre los bloques con ventana para codificación de audiofrecuencia y los artefactos de pre-ruido de transitorio.

La Figura 1b ilustra la relación entre la ubicación de una señal de transitorio en un tren de señales de audiofrecuencia de entrada a codificar y los límites de los bloques con ventana solapados al 50%. Aunque se ha mostrado una longitud fija de bloque con solapa del 50%, el invento es aplicable a los dos sistemas de codificación de longitud de bloque fija y variable y a bloques que tengan una solapa distinta al 50%, incluyendo los bloques sin solapa según se describe más adelante en relación con las Figuras 2a hasta 5b.

La Figura 1c muestra la salida de un tren de señales de audiofrecuencia del sistema de codificación de audiofrecuencia para el caso de una entrada de tren de señales de audiofrecuencia como se ha mostrado en la Figura 1b. Como se muestra en las Figuras 1b y 1c, el transitorio está situado entre el extremo del bloque 3 con ventana y el extremo del bloque 4 con ventana. La Figura 1c ilustra la ubicación y la longitud del pre-ruido de transitorio introducido por el proceso de codificación de audiofrecuencia a baja velocidad de transferencia de bits en relación a la ubicación del transitorio y el extremo del bloque 2 con ventana. Nótese que el pre-ruido es anterior al transitorio y está limitado a los bloques 4 y 5 con ventana, bloques de muestras en los que está situado el transitorio. De ese modo, el pre-ruido se extiende hacia atrás hasta el comienzo del bloque 4 con ventana.

De un modo similar a las Figuras 1b y 1c, las Figuras 1d y 1e muestran, respectivamente, la relación entre un tren de señales de entrada de audiofrecuencia que contiene un transitorio situado entre el extremo del bloque 2 con ventana y el extremo del bloque 3 con ventana y el pre-ruido introducido en el tren de señales de salida de audiofrecuencia por el sistema de codificación de audiofrecuencia. Como el pre-ruido está limitado a los bloques 3 y 4 con ventana, dentro de los cuales se encuentra situado el transitorio, el pre-ruido se extiende hacia atrás hasta el principio del bloque 3 con ventana. En este caso, el pre-ruido tiene una duración mayor porque el transitorio está más cerca del extremo del bloque 3 con ventana que el transitorio de las Figuras 1b y 1c hasta el extremo del bloque 4 con ventana. La ubicación ideal del transitorio es siguiendo muy cerca al extremo del último bloque de tal manera que el pre-ruido se extienda hacia atrás solamente hasta el siguiente extremo del bloque anterior (aproximadamente la mitad de la longitud de bloque en el caso de este ejemplo de solapa de bloque del 50%).

Debe observarse que los ejemplos de las Figuras 1a-1e no tienen explícitamente en cuenta los efectos de la transición gradual en los límites de la ventana de codificación. En general, a medida que las ventanas de codificación de audiofrecuencia se van estrechando progresivamente, los artefactos de pre-ruido cambian de escala de acuerdo con ello, y se reduce su audibilidad. Para sencillez de la presentación, no se ha mostrado el escalamiento de los artefactos de pre-ruido en las formas de onda ideales de las figuras de la presente memoria.

Según se ha sugerido en las Figuras 1a-1e y mostrado con más detalle en las Figuras 2A, 2B, 3A, 3B, 4A, 4B, 5A y 5B, un artefacto de pre-ruido de transitorio de codificador de audiofrecuencia se podría minimizar si la ubicación de las señales transitorias se sitúa prudentemente antes de la codificación de audiofrecuencia.

Ejemplos del reposicionamiento de la ubicación de un transitorio con el fin de reducir el pre-ruido se muestran en las Figuras 2a, 2b, 3a, 3b, 4a, 4b, 5a y 5b para los casos de bloques no solapados (Figuras 2a y 2b), con solapa de bloque menor del 50% (Figuras 3a y 3b), con solapa de bloque del 50% (Figuras 4a y 4b), y solapa de bloque mayor del 50% (Figuras 5a y 5b). En cada caso, a no ser que la posición original del transitorio esté equidistante entre dos extremos de bloques sucesivos (en cuyo caso no hay preferencia), se prefiere cambiar el transitorio a una posición que siga muy de cerca al extremo de bloque más próximo. Tanto si el cambio es al extremo del bloque anterior como si lo es al extremo del bloque siguiente, y tanto si es al extremo de bloque más cercano como si no, el pre-ruido resultante es sustancialmente el mismo. Sin embargo, cambiando provisionalmente el transitorio a una ubicación que siga muy de cerca al extremo de bloque más próximo, se minimiza la interrupción a la evolución en el tiempo del tren de señales de audiofrecuencia. No obstante, en algunos casos, el cambio al extremo de bloque más distante podría ser también inaudible. Además, aún en el caso de que un cambio al extremo de bloque más distante sea audible, se podría emplear la compensación de evolución en el tiempo, como se indica más adelante, para reducir o eliminar dicha
audibilidad.

Las Figuras 2a y 2b presentan una serie de bloques ideales con ventanas que no se solapan. En la Figura 2a, una ubicación inicial de transitorio está, como se ha mostrado por una flecha con línea llena, más cerca del extremo de la última ventana de lo que está el extremo de la ventana siguiente. El pre-ruido para la ubicación inicial del transitorio se extiende hacia atrás en el tiempo hasta el extremo del comienzo de la ventana, como se ha mostrado. Si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la izquierda" (hacia atrás en el tiempo) hasta una ubicación que siga muy de cerca al extremo del último bloque con ventana, como se ha mostrado. Aunque el pre-ruido resultante todavía se extiende hacia atrás hasta el principio del bloque con ventana, esta longitud es muy corta comparada con el pre-ruido resultante de la ubicación inicial de transitorio. En ésta y en otras figuras, la distancia del transitorio cambiado desde el extremo de bloque con ventana se ha exagerado para mayor claridad de la presentación. En la Figura 2b, la posición inicial del transitorio está más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior. De este modo, si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la derecha" (más tarde en el tiempo) hasta una ubicación que siga muy de cerca al extremo del siguiente bloque con ventana, como se ha mostrado. Nótese que el perfeccionamiento en la reducción del pre-ruido aumenta cuando la posición inicial del transitorio se va a un tiempo posterior del bloque con
ventana.

Las Figuras 3a y 3b presentan una serie de bloques ideales con ventana que se solapan en menos del 50%. En la Figura 3a, una ubicación inicial de transitorio está, como se ha mostrado mediante una línea de trazo lleno, más cerca del extremo de la última ventana que del extremo de la ventana siguiente. El pre-ruido para la ubicación inicial del transitorio se extiende hacia atrás en el tiempo hasta el extremo del comienzo de la ventana, como se ha mostrado. Si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la izquierda" hasta una ubicación que siga muy de cerca al extremo del último bloque con ventana, según se ha mostrado. El pre-ruido resultante se extiende todavía hacia atrás hasta el comienzo del bloque con ventana, pero su longitud es corta comparada con el pre-ruido resultante de la ubicación inicial del transitorio. En la Figura 3b, la posición inicial del transitorio está más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior. De este modo, si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la derecha" hasta una ubicación que siga muy de cerca al extremo del siguiente bloque con ventana, como se ha mostrado. Nótese que el perfeccionamiento en la reducción del pre-ruido aumenta porque la posición inicial del transitorio está más tarde en el intervalo entre bloques con ventana sucesivos.

Las Figuras 4a y 4b presentan una serie de bloques con ventana ideales que se solapan en un 50%. En la Figura 4a, una ubicación inicial de transitorio está, como se muestra mediante la flecha dibujada con línea llena, más cerca del extremo de la última ventana que del extremo de la ventana siguiente. El pre-ruido para la ubicación inicial del transitorio se extiende hacia atrás en el tiempo hasta el extremo del comienzo de la ventana, como se ha mostrado. Si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la izquierda" hasta una ubicación que siga muy de cerca al extremo del último bloque con ventana, según se ha mostrado. El pre-ruido resultante se extiende todavía hacia atrás hasta el comienzo del bloque con ventana, pero su longitud es corta comparada con el pre-ruido resultante de la ubicación inicial del transitorio. En la Figura 4b, la posición inicial del transitorio está más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior. De este modo, si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la derecha" hasta una ubicación que siga muy de cerca al extremo del siguiente bloque con ventana, como se ha mostrado. Nótese que el perfeccionamiento en la reducción del pre-ruido aumenta porque la posición inicial del transitorio está más tarde en el intervalo entre bloques con ventana sucesivos, lo mismo que en el caso de bloques solapados en menos del
50%.

Las Figuras 5a y 5b presentan una serie de bloques con ventana ideales que se solapan en más de un 50%. En la Figura 5a, una ubicación inicial de transitorio está, como se muestra mediante la flecha dibujada con línea llena, más cerca del extremo de la última ventana que del extremo de la ventana siguiente. El pre-ruido para la ubicación inicial del transitorio se extiende hacia atrás en el tiempo hasta el extremo del comienzo de la ventana, como se ha mostrado. Si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la izquierda" hasta una ubicación que siga muy de cerca al extremo del último bloque con ventana, según se ha mostrado. El pre-ruido resultante se extiende todavía hacia atrás hasta el comienzo del bloque con ventana, pero esta longitud es todavía algo más corta que el pre-ruido resultante de la ubicación inicial del transitorio. En la Figura 5b, la posición inicial del transitorio está más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior. De este modo, si se desea minimizar el grado de cambio temporal del transitorio, debería cambiarse "hacia la derecha" hasta una ubicación que siga muy de cerca al extremo del siguiente bloque con ventana, como se ha mostrado. Nótese que el perfeccionamiento en la reducción del pre-ruido aumenta porque la posición inicial del transitorio está más tarde en el intervalo entre extremos de bloques con ventana sucesivos, lo mismo que en el caso de bloques solapados en un
50%.

Nótese que el perfeccionamiento en la reducción del pre-ruido es el máximo para los bloques que no se solapan, y que disminuye a medida que aumenta la solapa del bloque.

Descripción de los dibujos

Las Figuras 1a-1e son una serie de formas de onda ideales que ilustran ejemplos de artefactos de pre-ruido de transitorio generados por un sistema codificador de señales de audiofrecuencia con longitud fija de bloque para dos casos de condiciones de señal de entrada.

Las Figuras 2a y 2b presentan una serie de bloques ideales con ventana que no se solapan, que ilustran las ubicaciones temporales inicial y con transitorio cambiado, junto con el pre-ruido para dichas ubicaciones, para el caso de una posición inicial que esté más cerca del extremo de la última ventana que del extremo de la ventana siguiente, y para el caso de una posición inicial que esté más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior, respectivamente.

Las Figuras 3a y 3b muestran una serie de bloques ideales con ventana y con una solapa menor del 50% que ilustra ubicaciones temporales inicial y de transitorio cambiado, junto con el pre-ruido para dichas ubicaciones, para el caso de una posición inicial que esté más cerca del extremo de la última ventana que del extremo de la ventana siguiente, y para el caso de una posición inicial que esté más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior, respectivamente.

Las Figuras 4a y 4b muestran una serie de bloques ideales con ventana y con una solapa del 50% que ilustra ubicaciones temporales inicial y de transitorio cambiado, junto con el pre-ruido para dichas ubicaciones, para el caso de una posición inicial que esté más cerca del extremo de la última ventana que del extremo de la ventana siguiente, y para el caso de una posición inicial que esté más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior, respectivamente.

Las Figuras 5a y 5b muestran una serie de bloques ideales con ventana y con una solapa mayor del 50% que ilustra ubicaciones temporales inicial y de transitorio cambiado, junto con el pre-ruido para dichas ubicaciones, para el caso de una posición inicial que esté más cerca del extremo de la última ventana que del extremo de la ventana siguiente, y para el caso de una posición inicial que esté más cerca del extremo de la ventana siguiente que del extremo de la ventana anterior, respectivamente.

La Figura 6 es un diagrama de flujo que muestra las etapas a realizar para reducir los artefactos de pre-ruido de transitorio mediante un escalamiento de tiempo antes de la codificación a baja velocidad de transferencia de bits.

La Figura 7 es una representación conceptual de una memoria intermedia de datos de entrada utilizada para la detección de transitorios.

Las Figuras 8a-8e son una serie de formas de onda ideales que ilustran un ejemplo de pre-tratamiento de audiofrecuencia con escalamiento de tiempo de acuerdo con aspectos del presente invento cuando existe un transitorio en un bloque de codificación de audiofrecuencia y está situado más cerca del extremo del último bloque con ventana que del extremo del siguiente bloque con ventana.

Las Figuras 9a-9e son una serie de formas de onda ideales que ilustran un ejemplo de tratamiento de audiofrecuencia con escalamiento de tiempo cuando existe un transitorio en un bloque de codificación de audiofrecuencia con ventana y está situado aproximadamente T muestras por delante de un extremo de bloque.

Las Figuras 10a-10d son una serie de formas de onda ideales que ilustran el escalamiento de tiempo para el caso de múltiples transitorios.

Las Figuras 11a-11f son una serie de formas de onda ideales que ilustran una compensación inteligente de evolución con el tiempo de escalamiento de tiempo usando metadatos transportados en un tren de señales de radiofrecuencia.

La Figura 12 es un diagrama de flujo de un post-tratamiento con escalamiento de tiempo en conjunción con un descodificador de audiofrecuencia a baja velocidad de transferencia de bits.

Las Figuras 13a-13c son una serie de formas de onda ideales que ilustran un ejemplo de post-tratamiento para un solo transitorio con el fin de reducir los artefactos de pre-ruido presentes después de descodificar.

La Figura 14 es un diagrama de flujo de un proceso de post-tratamiento para mejorar la calidad percibida de audiofrecuencia que ha experimentado una codificación a baja velocidad de transferencia de bits sin pre-tratamiento con escalamiento de tiempo.

Las Figuras 15a-15c son una serie de formas de onda ideales que demuestran la técnica de usar un valor por defecto para escalar en el tiempo la señal de audiofrecuencia antes de cada transitorio con el fin de reducir el pre-ruido sin realizar una compensación del número de muestras.

Las Figuras 16a-16c son una serie de formas de onda ideales que demuestran la técnica de usar una duración calculada de pre-ruido para escalar en el tiempo la señal de audiofrecuencia antes de cada transitorio, con el fin de reducir la duración de pre- ruido con compensación de número de muestras y de evolución con el tiempo.

Modo óptimo para realizar el invento Visión de conjunto del pre-tratamiento con escalamiento de tiempo

La Figura 6 es un diagrama de flujo que ilustra un método para escalar en el tiempo las señales de audiofrecuencia antes de la codificación de audiofrecuencia a baja velocidad de transferencia de bits con el fin de reducir la cantidad de pre-ruido de transitorios (es decir, "pre-tratamiento"). Este método trata las señales de audiofrecuencia de entrada en bloques de N muestras, donde N podría corresponder a un número mayor que o igual al número de muestras de audiofrecuencia usadas en el bloque de codificación de audiofrecuencia. Los tamaños de tratamiento con N mayor que el tamaño del bloque de codificación de audiofrecuencia podrían ser convenientes para proporcionar datos adicionales de audiofrecuencia fuera del bloque de codificación de audiofrecuencia para uso en el tratamiento con escalamiento de tiempo. Estos datos adicionales se podrían usar, por ejemplo, para compensar por número de muestras para el tratamiento con escalamiento de tiempo realizado con el fin de mejorar la ubicación de un transitorio.

La primera etapa 202 en el proceso de la Figura 6 comprueba la disponibilidad de N muestras de datos de audiofrecuencia para tratamiento con escalamiento de tiempo. Estas muestras de datos de audiofrecuencia podrían ser, por ejemplo, un archivo de un disco duro basado en PC o una memoria intermedia de datos en un dispositivo de hardware. Los datos de audio se podrían haber provisto también mediante un proceso de codificación de audiofrecuencia a baja velocidad de transferencia de bits que llama al procesador con escalamiento de tiempo antes de la codificación de audiofrecuencia Si se dispone de N muestras de datos de audiofrecuencia, se pasan (etapa 204) y luego se usan por el proceso de pre-tratamiento con escalamiento de tiempo en las etapas siguientes.

La tercera etapa 206 en el proceso de pre-tratamiento es detectar la ubicación de señales transitorias de datos de audiofrecuencia que tengan probabilidades de introducir artefactos de pre-ruido. Se dispone de muchos procesos diferentes para realizar esta función, y su implementación específica no es crítica siempre que proporcione una detección precisa de señales transitorias que tengan probabilidades de introducir artefactos de pre-ruido. Hay muchos procesos de codificación de audiofrecuencias que realizan la detección de transitorios de señales de audiofrecuencia, y esta etapa se puede pasar por alto si el proceso de codificación de audiofrecuencia proporciona la información de transitorios al bloque subsiguiente 210 de tratamiento con escalamiento de tiempo junto con los datos de audiofrecuencia de
entrada.

Detección de transitorios

Un método adecuado para realizar detección de transitorios de señales de audiofrecuencia es el siguiente. La primera etapa en el análisis de la detección de transitorios es filtrar los datos de entrada (tratando las muestras de datos como una función de tiempo). Los datos de entrada podrían por ejemplo, filtrarse con un filtro de paso alto de armónicos de 2º orden con una frecuencia de corte a 3 dB de aproximadamente 8kHz. Las características del filtro no son críticas. Estos datos filtrados se usan luego en el análisis de transitorios. La filtración de los datos de entrada aísla los transitorios de alta frecuencia y los hace más fáciles de identificar. A continuación, los datos de entrada filtrados se tratan en sesenta y cuatro sub-bloques (en el caso de un bloque de muestras de señal de 4.096 muestras) de aproximadamente 1,5 mseg. (o 64 muestras a 44,1 kHz) como se muestra en la Figura 7. Aunque el tamaño real del sub-bloque que se trata no se limita a 1,5 mseg. y podría variar, este tamaño aporta un buen compromiso entre los requisitos de tratamiento en tiempo real (porque los tamaños de bloque mayores requieren menos gastos generales de tratamiento) y la resolución de la ubicación de transitorios (los bloques más pequeños proporcionan una información más detallada sobre la ubicación de transitorios). El uso de bloques de muestras de señales de 4.096 muestras y el uso de sub-bloques de 64 muestras es simplemente un ejemplo y no es crítico para el
invento.

La etapa siguiente del tratamiento de detección de transitorios es realizar una filtración de paso bajo de los valores de los máximos datos absolutos contenidos en cada sub-bloque de 64 muestras. Este tratamiento se realiza para suavizar los máximos datos absolutos y proporcionar una indicación general de los valores medios de cresta en la memoria intermedia de entrada a los que se puede comparar el valor real de cresta de la sub-memoria intermedia. El método descrito más adelante es un método de hacer la suavización.

Para suavizar los datos, se explora cada sub-bloque de 64 muestras para el valor de señal de máximos datos absolutos. El valor de señal de máximos datos absolutos se usa luego para calcular un valor de cresta de media móvil suavizado. Las medias móviles de alta frecuencia, filtradas, para cada sub-memoria intermedia k-ésima hi_mavg (k) respectivamente, se calculan usando las ecuaciones 1 y 2.

\vskip1.000000\baselineskip

100

\vskip1.000000\baselineskip

donde hi_mavg (0) se ajusta igual a hi_mavg (64) de la memoria intermedia de entrada anterior para tratamiento continuo. En la implementación actual, el parámetro AVG:WHT se ajusta igual a 0,25. Este valor se decidió después de seguir un análisis experimental usando un amplio intervalo de material común de audiofrecuencia.

A continuación el proceso de detección de transitorios compara el valor de cresta en cada sub-bloque con el conjunto de valores de cresta de medias móviles suavizados para determinar si existe un transitorio. Aunque existen una serie de métodos para comparar estas dos medidas, la solución indicada más adelante se tomó porque permite sintonizar la comparación mediante el uso de un factor de escala que se ha configurado para realizar en condiciones óptimas según se determine mediante un análisis de una amplia gama de señales de audiofrecuencia.

El valor de cresta en el sub-bloque k-ésimo, para los datos filtrados, se multiplica por el valor de escalamiento de alta frecuencia HI_FREQ_SCALE, y se compara con el valor de cresta medio móvil calculado suavizado de cada k. Si un valor de cresta escalado de sub-bloque es mayor que el valor medio móvil, se señaliza un transitorio como que está presente. Estas comparaciones se esquematizan más adelante en las Ecuaciones 3 y 4.

101

A continuación de la detección de transitorios, se hicieron varias comprobaciones correctoras para determinar si la señalización de transitorio para un sub-bloque de 64 muestras debería eliminarse (reposición de VERDADERO a FALSO). Estas comprobaciones se realizaron con el fin de reducir las detecciones de transitorios falsos. En primer lugar, si los valores de cresta de alta frecuencia caen por debajo de un valor de cresta mínimo, entonces se elimina el transitorio (para atender a transitorios de bajo nivel). En segundo lugar, si el valor de cresta en un sub-bloque dispara un transitorio, pero no es significativamente mayor que el sub-bloque anterior, que también habría disparado una señalización de transitorio, entonces se elimina el transitorio presente en el sub-bloque actual. Esto reduce un deterioro de la información en la ubicación de un transitorio.

Refiriéndose otra vez a la Figura 6, la etapa siguiente 208 en el proceso es determinar si existen transitorios en el grupo de datos de entrada de N muestras actuales. Si no existen transitorios, los datos de entrada se podrían descargar como salida (o volverse a pasar hacia atrás a un codificador de audiofrecuencia de baja velocidad de transferencia de datos) sin realizarse un tratamiento de escalamiento en el tiempo. Si los transitorios sí existen, el número de transitorios que existen en las N muestras actuales de datos de audiofrecuencia y su ubicación (o sus ubicaciones) se pasan a la parte 210 de tratamiento de audiofrecuencia con escalamiento de tiempo del proceso para la modificación temporal de los datos de audiofrecuencia de entrada. El resultado de un tratamiento adecuado con escala de tiempo se expone en relación con la descripción de las Figuras 8A-8E. Nótese que el proceso requiere información del codificador en cuanto a, por ejemplo, la ubicación de los bloques de muestras con ventana con respecto al tren de señales de datos de audiofrecuencia. Si, opcionalmente, se descarga como salida la información de metadatos con escalamiento de tiempo (como se muestra en la Figura 6), para el caso de que no existan transitorios indicaría que no se ha realizado pre-tratamiento. Los metadatos con escalamiento de tiempo podrían incluir, por ejemplo, parámetros con escalamiento de tiempo tales como la ubicación y la cantidad realizada de escalamiento de tiempo y, si la técnica de escalamiento de tiempo ha empleado la transición gradual de segmentos de audiofrecuencia empalmados, la longitud de la transición gradual. Los metadatos contenidos en el tren de bits de audiofrecuencia codificados podría incluir también información sobre transitorios, incluyendo su ubicación después de y/o antes de y después de un cambio temporal. Los datos de audiofrecuencia se descargan como salida en la etapa 212.

Pre-tratamiento de audiofrecuencia

Las Figuras 8a-8e ilustran un ejemplo de pre-tratamiento de audiofrecuencia con escalamiento de tiempo de acuerdo con aspectos del presente invento cuando existe un transitorio en un bloque de codificación de audiofrecuencia que esté situado más cerca del extremo del último bloque con ventana que del extremo del siguiente bloque con ventana. Para este ejemplo, se supone una solapa de bloques del 50%, de la manera que en las Figuras 1a-1e y Figuras 4a y 4b. Según se ha indicado anteriormente, para reducir la magnitud de pre-ruido de transitorios introducida por una codificación de audiofrecuencia a baja velocidad de transferencia de bits, se desea ajustar la evolución de tiempo de la señal de audiofrecuencia de entrada de tal manera que el transitorio de la señal de audiofrecuencia esté ubicado siguiendo muy de cerca al extremo del último bloque con ventana. Se prefiere dicho cambio en la ubicación del transitorio, porque minimiza la interrupción a la evolución de tiempo del tren de señales al mismo tiempo que limita de un modo óptimo la longitud del pre-ruido de transitorio. Sin embargo, como se ha expuesto anteriormente, un cambio a la ubicación que siga muy de cerca al extremo del siguiente bloque con ventana limita también en un grado óptimo la longitud del pre-ruido de transitorio pero no minimiza la interrupción a la evolución en el tiempo del tren de señales. En algunos casos, la diferencia en interrupción puede ser de poca o de ninguna significación audible, en particular si se emplea también la compensación por evolución en el tiempo. Por tanto, en el presente ejemplo y en otros ejemplos de la presente memoria se contemplan un cambio a cualquiera de los dos extremos de bloque más próximos. Como se ha mencionado anteriormente, el tiempo de transitorio que cambia el escalamiento de tiempo no necesita cumplirse dentro de un bloque único, a no ser que el tratamiento se lleve a cabo después que el codificador haya dividido en bloques el tren de señales de audiofrecuencia.

La Figura 8a muestra tres bloques consecutivos de codificación con ventana solapados en un 50%. La Figura 8b presenta la relación entre el tren original de datos de audiofrecuencia de entrada, que contiene un solo transitorio y los bloques de codificación de audiofrecuencia con ventana. El comienzo del transitorio es T muestras después del extremo del bloque precedente. Como el transitorio está más cerca del extremo del bloque precedente que del extremo del bloque siguiente, se prefiere cambiar el transitorio a la izquierda a una ubicación que siga muy de cerca al extremo del bloque precedente mediante la aplicación de compresión de tiempo que tiene el efecto de eliminar las T muestras anteriores al transitorio. La Figura 8c presenta dos regiones en el tren de audiofrecuencia en las que podría realizarse el escalamiento de tiempo de la audiofrecuencia. La primera región corresponde a las muestras de audiofrecuencia situadas antes del transitorio, en donde la reducción de la duración de la audiofrecuencia en T muestras "desliza" o cambia la posición del transitorio de la izquierda a la ubicación deseada siguiendo muy de cerca al extremo del bloque precedente mediante la provisión de la compresión de tiempo. Como se ve en las Figuras 2A a 5B y en otras figuras que se describirán más adelante, la separación del transitorio del extremo de bloque en las Figuras 8d y 8e se ha exagerado para claridad de la presentación. La segunda región muestra la región donde el escalamiento de tiempo se podría realizar opcionalmente después del transitorio para aumentar la duración de la audiofrecuencia en T muestras mediante la provisión de expansión de tiempo, de tal manera que la longitud total de los datos de audiofrecuencia permanece en N muestras. Aunque la eliminación de T muestras y la adición opcional de la compensación de número de muestras de T muestras se han mostrado como que ocurren dentro de un bloque de muestras de codificación de audiofrecuencia con ventana, esto no es esencial - el proceso de compensación con escalamiento de tiempo no necesita ocurrir dentro de un solo bloque de codificación de audiofrecuencia, a no ser que el cambio de tiempo del transitorio se realice después de que el codificador haya dividido en bloques el tren de señales de audiofrecuencia. La ubicación óptima para dicho proceso de escalamiento de tiempo se podría determinar mediante el proceso de traslado a la escala de tiempos que se haya empleado. Como el transitorio podría proveer un post-enmascaramiento útil, preferiblemente el escalamiento de tiempo con compensación por número de muestras se realiza muy cerca del
transitorio.

La Figura 8d demuestra el tren de señales resultante si se realiza el procesamiento del escalamiento de tiempo sobre el tren de datos de audiofrecuencia de entrada mediante la reducción de la duración de tiempo del tren de datos de entrada de audiofrecuencia en T muestras en el área situada antes del transitorio y no se realiza una expansión de la escala de tiempos con compensación por número de muestras después de la señal del transitorio. Según se ha expuesto anteriormente, para la mayor parte de los oyentes no son discernibles pequeñas variaciones en la evolución temporal de una señal de audiofrecuencia. Por tanto, no se requiere que el número de muestras de trenes de datos de audiofrecuencia escaladas en el tiempo sea igual al número de muestras de entrada, N; podría ser suficiente solamente tratar el tren de audiofrecuencia antes del transitorio. La Figura 8e ilustra el caso cuando el tren de datos de audiofrecuencia situado antes del transitorio se reduce en duración por T muestras y el tren de datos de audiofrecuencia que sigue al transitorio se aumenta por T muestras, manteniéndose de ese modo N muestras de audiofrecuencia dentro y fuera del bloque de tratamiento con escalamiento de tiempo y restableciendo la evolución en el tiempo del tren de señales de audiofrecuencia excepto para el transitorio y las partes del tren de señales muy próximas al transitorio. Las variaciones en las longitudes de las formas de onda de señales de las Figuras 8b-8e están destinadas a mostrar esquemáticamente que el número de muestras contenidas en el tren de datos de audiofrecuencia varía para las condiciones descritas. Cuando se reduce el número de muestras de audiofrecuencia, como ocurre en la Figura 8d, podría necesitarse adquirir muestras adicionales antes de poder realizar una codificación adicional de audiofrecuencia. Esto podría significar la extracción de más muestras de un archivo o esperar que se introdujesen en una memoria intermedia más señales de audiofrecuencia en un sistema en tiempo real.

Las Figuras 9a-9e ilustran un ejemplo de tratamiento de audiofrecuencia con escalamiento de tiempo cuando existe un transitorio en un bloque de codificación de audiofrecuencia con ventana y está situado aproximadamente T muestras por delante de un extremo de bloque. Para reducir la cantidad de pre-ruido de transitorio introducido por la codificación de audiofrecuencia a baja velocidad de transferencia de bits al mismo tiempo que se minimiza el cambio de transitorio, se prefiere ajustar temporalmente la señal de audiofrecuencia de entrada de tal manera que el transitorio de la señal de audiofrecuencia siga muy de cerca al extremo del bloque siguiente. En el caso de bloques solapados al 50%, un cambio hasta el final del extremo del bloque siguiente (o al extremo del bloque anterior) limita el pre-ruido del transitorio a la primera mitad de un bloque de codificación de audiofrecuencia, en lugar de dispersar el pre-ruido del transitorio a lo largo de todo el bloque y del bloque anterior de audiofrecuencia.

La Figura 9a presenta tres bloques consecutivos de codificación con ventana, solapados en un 50%. La Figura 9b muestra la relación entre los datos originales de audiofrecuencia de entrada, que contienen un solo transitorio, y los bloques de audiofrecuencia. El comienzo del transitorio es T muestras antes del extremo del bloque siguiente. Como el transitorio está más cerca del extremo del bloque siguiente que del extremo del bloque anterior, se prefiere cambiar el transitorio a la derecha hasta una ubicación que siga muy de cerca al extremo del bloque siguiente mediante la aplicación de una expansión de tiempo que tiene el efecto de añadir T muestras antes del transitorio. La Figura 9c muestra dos regiones donde se podría realizar el escalamiento de tiempo de la audiofrecuencia. La primera región corresponde a las muestras de audiofrecuencia situadas antes del transitorio, donde el aumento de la duración de la audiofrecuencia en T muestras desliza la posición del transitorio hasta la ubicación deseada muy cerca después del extremo del bloque siguiente. La Figura 9 presenta también la región en la que se podría realizar el escalamiento de tiempo después del transitorio, para reducir la duración de la audiofrecuencia en T muestras, de tal manera que la longitud total del tren de datos de audiofrecuencia, N muestras, permanece constante. La Figura 9d demuestra el resultado si el procesamiento del escalamiento de tiempo se realiza sobre el tren de datos de audiofrecuencia de entrada mediante el aumento de la duración de tiempo del tren de datos de entrada de audiofrecuencia en T muestras en la región de tiempo situada antes del transitorio pero sin realizar una expansión de escala de tiempo con compensación por el número de muestras después de la señal del transitorio. Según se ha expuesto anteriormente, para la mayoría de los oyentes no son discernibles pequeñas variaciones en la evolución temporal de una señal de audiofrecuencia. Por tanto, no se requiere que el número de muestras de tren de audiofrecuencia después del escalamiento de tiempo sea igual a la entrada, N. Podría ser suficiente tratar la audiofrecuencia antes del transitorio.

La Figura 9e ilustra el caso cuando la audiofrecuencia anterior al transitorio se aumente en duración en T muestras y la audiofrecuencia que sigue al transitorio se reduce en T muestras, manteniéndose de ese modo un número constante de muestras de audio antes y después del escalamiento de tiempo. Como en las otras figuras, se ha exagerado la separación del transitorio del extremo de bloque de las Figuras 9d y 9e para mayor claridad de la presentación.

Tratamiento de audiofrecuencia con escalamiento de tiempo para múltiples transitorios

Dependiendo de la longitud del tamaño de bloques de codificación de audiofrecuencia y del contenido de los datos de audiofrecuencia que se codifican, es posible que un tren de datos de audiofrecuencia de entrada que se está tratando contenga, dentro de las N muestras que se están tratando, más de una señal de transitorio que podría introducir artefactos con pre-ruido. Como se ha mencionado anteriormente, las N muestras que se están tratando podrían incluir más de un bloque de codificación de audiofrecuencia.

Las Figuras 10a-10d ilustran soluciones de tratamiento cuando se producen dos transitorios en un bloque de codificación de audiofrecuencia. En general, se podrían gestionar dos o más transitorios de la misma manera que un solo transitorio, tratándose al transitorio más tempranero del tren de datos de audiofrecuencia como el transitorio de interés.

La Figura 10a presenta tres bloques consecutivos de codificación con ventana, solapados en un 50%. La Figura 10b muestra el caso donde dos transitorios contenidos en la audiofrecuencia de entrada ahorquillan el extremo de un bloque de codificación de audiofrecuencia. Para este caso, el transitorio más tempranero introduce el pre-ruido más perceptible, porque una parte del pre-ruido que resulta del segundo transitorio es post-enmascarado por el primer transitorio. Para minimizar los artefactos de pre-ruido, la señal de audiofrecuencia de entrada se podría escalar en el tiempo para cambiar el primer transitorio a la derecha de tal manera que la audiofrecuencia situada antes del primer transitorio se ha expandido en la escala de tiempo en T muestras, donde T es el número de muestras que coloca al primer transitorio hasta una posición que sigue muy de cerca al extremo del bloque siguiente.

Con el fin de compensar por número de muestras para el tratamiento de expansión de escala de tiempo antes del primer transitorio de la Figura 10b y de optimizar el post-enmascaramiento del pre-ruido resultante del segundo transitorio mediante el desplazamiento de los transitorios muy cerca juntos en el tiempo, la señal de audiofrecuencia que sigue al primer transitorio y que está antes del segundo transitorio preferiblemente se escala en el tiempo para reducir en duración por T muestras. Según se ha ilustrado en la Figura 10b, hay suficientes datos de tratamiento de audiofrecuencia entre el primero y el segundo transitorio para realizar el tratamiento de escala de tiempo. Sin embargo, en algunos casos quizá el segundo transitorio esté tan próximo al primer transitorio que no hay suficientes datos de audiofrecuencia para realizar el tratamiento de escala de tiempo entre ellos. La cantidad de datos de audiofrecuencia requeridos entre transitorios depende del proceso de escalamiento de tiempo usado para el tratamiento. Si existen insuficientes datos de audiofrecuencia entre los dos transitorios, podría ser necesario expandir con escala de tiempo los datos de audiofrecuencia que sigan al segundo transitorio con el fin de proveer una compensación por número de muestras. Con el fin de realizar la expansión de los datos de audiofrecuencia después del segundo transitorio, podría ser necesario que el proceso de escalamiento de tiempo tenga acceso a un segmento más ancho de datos de audiofrecuencia que el número de muestras contenidas en un bloque usadas en el proceso de codificación de audiofrecuencia, como se ha mencionado anteriormente.

La Figura 10c ilustra el caso en que el primer transitorio está más próximo al extremo del último bloque que al extremo del bloque siguiente y todos los transitorios (en este caso dos) están tan suficientemente próximos conjuntamente que el pre-ruido resultante del primer transitorio está sustancialmente post-enmascarado por el primer transitorio. De este modo, el tren de audiofrecuencia anterior al primer transitorio está comprimido con escala de tiempo por T muestras, de tal manera que el primer transitorio se cambia a una ubicación justo después del extremo del bloque anterior. La compensación por número de muestras para restablecer el número original de muestras, en la forma de expansión con escala de tiempo, podría realizarse en el tren de datos de audiofrecuencia que sigue al segundo
transitorio.

La Figura 10d ilustra el caso en que el primer transitorio está más próximo al extremo del bloque siguiente que al extremo del bloque anterior y todos los transitorios (en este caso, dos) están suficientemente tan próximos entre sí que el pre-ruido resultante del segundo está sustancialmente post-enmascarado por el primer transitorio. De este modo, el tren de audiofrecuencia anterior al primer transitorio se expande con escala de tiempo por T muestras, de tal manera que el primer transitorio se cambia a una ubicación justo después del extremo del bloque siguiente. La compensación por número de muestras, en la forma de compresión con escala de tiempo, podría realizarse opcionalmente en el tren de datos de audiofrecuencia que sigue al segundo transitorio.

Para el caso de múltiples transitorios, si se desea compensar por evolución en el tiempo para pre-tratar de una manera casi perfecta, se podría transportar información de metadatos con cada bloque de audiofrecuencia codificado de una manera similar al caso de un solo transitorio anteriormente descrito.

Compensación por evolución en el tiempo, controlada por metadatos, de pre-tratamiento con escalamiento de tiempo

Como se ha mencionado anteriormente, podría ser conveniente aplicar, subsiguientemente a la transformación inversa por un descodificador, un escalamiento de tiempo compensatorio al tren de señales de audiofrecuencia después del transitorio, de tal manera que la evolución en el tiempo del tren de señales de audiofrecuencia tratadas sea sustancialmente igual que la del tren original de señales de audiofrecuencia, restableciendo de ese modo la evolución del tiempo original del tren de señales. Sin embargo, en los estudios experimentales se ha demostrado que la mayoría de los oyentes no perciben pequeñas modificaciones temporales de la audiofrecuencia, y por tanto podría no ser necesaria la compensación por evolución del tiempo. Asimismo, por término medio, los transitorios se avanzan y retardan por igual y, por tanto, sobre un período de tiempo suficientemente largo, el efecto acumulativo sin compensación por evolución del tiempo podría ser despreciable. Otra idea a considerar es que, dependiendo del tipo de escalamiento de tiempo usado para el pre-tratamiento, el procesamiento adicional de compensación por evolución del tiempo podría introducir artefactos audibles en la audiofrecuencia. Estos artefactos podrían surgir debido a que el procesamiento de escalamiento de tiempo, en muchos casos, no es un proceso perfectamente reversible. Dicho de otro modo, la reducción de audiofrecuencia mediante una cantidad fija usando un proceso de escalamiento de tiempo y luego expandiendo en el tiempo posteriormente la misma audiofrecuencia podría introducir artefactos audibles.

Una ventaja del tratamiento de audiofrecuencia que contenga material de transitorios mediante escalamiento de tiempo es que los artefactos de escalamiento de tiempo podrían enmascararse por las propiedades de enmascaramiento temporal de las señales de transitorios. Un transitorio de audiofrecuencia provee enmascaramiento temporal hacia delante y hacia atrás. El material de audiofrecuencia de transitorios "enmascara" material audible tanto antes como después del transitorio, de tal manera que la audiofrecuencia que precede y sigue directamente no es perceptible para un oyente. El pre-enmascaramiento se ha medido, es relativamente breve y dura solamente unos pocos milisegundos, mientras que el post-enmascaramiento podría durar más de 100 milisegundos. Por tanto, el tratamiento con compensación por evolución de tiempo y por escalamiento de tiempo podría ser inaudible debido a efectos de post-enmascaramiento temporal. De ese modo, si se realiza, es ventajoso realizar la compensación por evolución del tiempo y el escalamiento de tiempo dentro de regiones temporalmente enmascaradas

Las Figuras 11a-11f muestran un ejemplo en el que se ha realizado una compensación inteligente de evolución de tiempo que sigue una transformación inversa en el descodificador usando información de metadatos. Los metadatos reducen enormemente la cantidad de análisis requerido para realizar compensación de evolución de tiempo, porque indica dónde debería realizarse el tratamiento de escalamiento de tiempo y la duración del escalamiento de tiempo requerido. Como se ha explicado anteriormente, el tratamiento de compensación de evolución de tiempo está destinado a devolver la señal de audiofrecuencia descodificada a su evolución temporal original en la que el tren de señales, incluyendo el transitorio, tiene su ubicación original en el tren de audiofrecuencia. La Figura 11a muestra tres bloques consecutivos de codificación con ventana solapados al 50%. La Figura 11b presenta un tren de señales de entrada de audiofrecuencia antes del pre-tratamiento que tiene un transitorio T muestras después de un extremo de bloque. La Figura 11c muestra que el tren de señales de audiofrecuencia de entrada se trata mediante la eliminación de T muestras antes del transitorio para cambiar el transitorio a una ubicación más tempranera. Las T muestras se suman después del transitorio con el fin de dejar invariable el número de muestras de datos de audiofrecuencia (compensación de número de muestras). La Figura 11d presenta el tren de señales de audiofrecuencia modificadas en el que el transitorio se ha cambiado a una ubicación más tempranera y la audiofrecuencia que sigue al transitorio se ha vuelto a cambiar a su ubicación original. La Figura 11e muestra las regiones requeridas de escalamiento de tiempo y de compensación de evolución de tiempo en las que la eliminación de T muestras (compresión de tiempo) se compensa añadiendo T muestras (expansión de tiempo) y la adición de T muestras (expansión de tiempo) se compensa eliminando T muestras (compresión de tiempo). El resultado, presentado en la Figura 11f, es una señal de salida "casi perfecta" que tiene la misma evolución de tiempo que la señal de entrada de la Figura 11a (sujeta principalmente a imperfecciones en los procesos de escalamiento de tiempo).

Post-tratamiento con escalamiento de tiempo para reducir pre-ruido de transitorios

Como se ha demostrado en una serie de ejemplos anteriores, aún con la ubicación óptima de un transitorio en un bloque de codificación de audiofrecuencia, todavía se introduce algún pre-ruido por el proceso del sistema de codificación de audiofrecuencia a baja velocidad de transferencia de bits. Según se ha indicado anteriormente, son preferibles bloques de codificación de audiofrecuencia más largos sobre los bloques de codificación más cortos, porque proporcionan mayor resolución de frecuencia y un aumento de la ganancia de codificación. Sin embargo, incluso si los transitorios se ubican de un modo óptimo mediante un escalamiento de tiempo antes de la codificación de audiofrecuencia (pre-tratamiento), a medida que aumenta la longitud del bloque de codificación de audiofrecuencia, aumenta también el pre-ruido. El pre-enmascaramiento del pre-ruido temporal de transitorios está en el orden de 5 milisegundos, que corresponde a 240 muestras para audiofrecuencia muestreadas a 48 kHz. Esto implica que, para codificadores con tamaños de bloque mayor de aproximadamente 512 muestras, el pre-ruido de transitorio comienza a ser audible aún con ubicación óptima (solamente la mitad se enmascara en el caso del bloque solapado al 50%). (Esto no tiene en cuenta la reducción de pre-ruido de transitorios causada por efectos de borde de ventana en los bloques de codificador).

Aunque el pre-ruido de transitorios no se puede eliminar totalmente de un sistema de codificación a baja velocidad de transferencia de bits, es posible realizar un post-tratamiento con escalamiento de tiempo (por sí solo o además de un pre-tratamiento) sobre datos de audiofrecuencia que hayan experimentado transformación inversa en un descodificador de audiofrecuencia a baja velocidad de transferencia de bits basado en transformación para reducir la cantidad de pre-ruido de transitorios tanto si se aplica también pre-tratamiento como si no se aplica. El post-tratamiento con escalamiento de tiempo se podría realizar o bien en conjunción con un descodificador de audiofrecuencia a baja velocidad de transferencia de bits (es decir, como parte del descodificador y/o mediante la recepción de metadatos del descodificador y/o del codificador a través del descodificador) o como un post-tratamiento autónomo. Se prefiere el uso de metadatos porque la información útil tal como la ubicación de transitorios con respecto a bloques de codificación de audiofrecuencia, así como la longitud (o longitudes) de bloque de codificación de audiofrecuencia están fácilmente disponibles y se podrían pasar al proceso de post-tratamiento por medio de los metadatos. Sin embargo, el post-tratamiento se podría usar sin interacción con un descodificador de audiofrecuencia a baja velocidad de transferencia de bits. Ambos métodos se describen más adelante.

Post-tratamiento con escalamiento de tiempo en conjunción con un descodificador de audiofrecuencia a baja velocidad de transferencia de bits (que recibe metadatos)

La Figura 12 es un diagrama de flujo de un proceso para realizar un post-tratamiento de escalamiento de tiempo en conjunción con un descodificador de audiofrecuencia a baja velocidad de transferencia de bits para reducir los artefactos de pre-ruido de transitorios. El proceso ilustrado en la Figura 12 supone que los datos de entrada son datos de audiofrecuencia codificados a baja velocidad de transferencia de bits (etapa 802). Siguiendo a la descodificación de los datos comprimidos a señal de audiofrecuencia (etapa 804), la señal de audiofrecuencia correspondiente a un bloque (o a unos bloques) se envía al escalador de tiempos (etapa 806) junto con información de metadatos que es útil para reducir la duración de pre-ruidos de transitorios. Esta información podría incluir, por ejemplo, la ubicación de transitorios, la longitud del bloque (o de los bloques) de codificador de audiofrecuencia, la relación de los límites de bloque de codificador a los datos de audiofrecuencia, y una longitud deseada del pre-ruido de transitorio. Si está disponible la ubicación de los transitorios con respecto a los límites de bloque de codificador de audiofrecuencia, la ubicación del artefacto de pre-ruido se podría estimar y reducir con precisión mediante un post-tratamiento. Como los transitorios sí que proveen cierto pre-enmascaramiento temporal, podría no ser necesario eliminar por completo el pre-ruido de transitorio. Dando al proceso de post-tratamiento con escalamiento de tiempo una longitud deseada de pre-ruido, se podría conseguir cierto control sobre la cantidad de pre-ruido que queda en la salida de audiofrecuencia mediante la etapa 808. Los resultados de un tratamiento adecuado con escala de tiempo para la etapa 806 se describen más adelante en relación con la descripción de las Figuras 13a-13c

Nótese que el post-tratamiento podría ser útil tanto si se ha aplicado un pre-tratamiento antes de la codificación como si no se ha aplicado. Con independencia de dónde está ubicado el transitorio con respecto a los extremos de bloque, existe cierto pre-ruido de transitorio. Por ejemplo, como mínimo es la mitad de la longitud de la ventana de codificación de audiofrecuencia para el caso de solapa del 50%. Los tamaños mayores de ventana todavía podrían introducir artefactos audibles. Mediante la realización del post-tratamiento, es posible reducir la longitud del pre-ruido aún más de lo que se haya reducido mediante una ubicación óptima del transitorio con respecto a los extremos de bloque antes de la cuantificación por el codificador.

Las Figuras 13a-13c ilustran un ejemplo de post-tratamiento para un solo transitorio con el fin de reducir el artefacto de pre-ruido presente después de la transformación inversa. Dependiendo de la longitud de bloque de codificación, el pre-ruido, incluso después del pre-tratamiento, si lo hay, podría tener un tiempo mayor que podría enmascararse por los efectos de enmascaramiento temporal del transitorio. Sin embargo, como se muestra en la Figura 13b, mediante el uso de la información de metadatos de ubicación de transitorio procedente del descodificador, se podría identificar una región de audiofrecuencia que contenga el pre-ruido en la que podría reducirse el pre-ruido en longitud mediante el escalamiento en el tiempo de la señal de audiofrecuencia para reducir el pre-ruido por T muestras. El número T podría elegirse de tal manera que la longitud del pre-ruido se minimice para aprovechar el pre-enmascaramiento, o bien podría elegirse con el fin de eliminar el pre-ruido por completo o casi por completo. Si se desea mantener el mismo número de muestras que en la señal original, la señal de audiofrecuencia que sigue al transitorio se podría expandir con escalamiento de tiempo por + T muestras. Alternativamente, como se ha mostrado en relación con el ejemplo de la Figura 16A, dicha compensación de número de muestras se podría aplicar antes del pre-ruido, lo cual tiene la ventaja de proveer también una compensación de evolución de tiempo.

Debe hacerse notar que, si se realiza el post-tratamiento en conjunción con el pre-tratamiento con escalamiento de tiempo, se podría minimizar la cantidad de interrupción adicional a la evolución en el tiempo del tren de señales de audiofrecuencia de salida. Como el pre-tratamiento con escalamiento de tiempo anteriormente expuesto reduce la longitud del pre-ruido a N/2 muestras para el caso de una solapa del 50% (donde N es la longitud del bloque de codificación de audiofrecuencia) se garantiza la introducción de menos de N/2 muestras de interrupción adicional de evolución de tiempo en la audiofrecuencia de salida comparada con la señal de audiofrecuencia de entrada original. En ausencia de pre-tratamiento, el pre-ruido puede alcanzar hasta N muestras, longitud del bloque de codificación para el caso de una solapa del 50%.

En algunos sistemas de codificación de audiofrecuencia a baja velocidad de transferencia de bits, la ubicación de los transitorios de señal podría no estar fácilmente disponible si el codificador no transporta la información de ubicación. Si ése es el caso, el descodificador o el proceso de escalamiento de tiempo podrían, usando cualquier número de procesos de detección de transitorios o el método eficaz anteriormente descrito, realizar la detección de transitorios.

Para múltiples transitorios, se aplican los mismos conceptos que para el pre-tratamiento, según se ha descrito anteriormente Post-tratamiento con escalamiento de tiempo sin pre-tratamiento

Según se ha mencionado anteriormente, en algunos casos podría ser conveniente mejorar la calidad percibida de la señal de audiofrecuencia que ha experimentado codificación a baja velocidad de transferencia de bits usando sistemas de compresión que no implementen un procesamiento con escalamiento de tiempo de pre-ruido de transitorio (pre-tratamiento). La Figura 14 esquematiza un proceso para realizarlo.

La primera etapa 1402 comprueba la disponibilidad de N muestras de datos de audiofrecuencia que han experimentado codificación y descodificación de audiofrecuencia a baja velocidad de transferencia de bits. Estas muestras de datos de audiofrecuencia podrían pertenecer a un archivo en un disco duro de un PC o a una memoria intermedia de datos de un dispositivo de hardware. Si están disponibles N muestras de datos de audiofrecuencia, se pasan al proceso de post-tratamiento con escalamiento de tiempo mediante la etapa 1404.

La tercera etapa 1406 en el proceso de post-tratamiento con escalamiento de tiempo es la identificación de la ubicación de señales de transitorio de datos de audiofrecuencia que tengan probabilidades de introducir artefactos de pre-ruido. Se dispone de muchos procesos diferentes para realizar esta función, y su implementación específica no es importante en tanto en cuanto provea una detección precisa de las señales de transitorio que tengan probabilidades de introducir artefactos de pre-ruido. Sin embargo, el proceso descrito anteriormente es un método eficaz y preciso que se podría usar.

La cuarta etapa 1408 es determinar si existen transitorios en la agrupación actual de datos de entrada de N muestras según se haya detectado por la etapa 1406. Si no existen transitorios, los datos de entrada se podrían descargar como salida mediante la etapa 1414 sin realizarse ningún tratamiento con escalamiento de tiempo. Si existen transitorios, el número de transitorios y su ubicación (o sus ubicaciones) se pasan a la etapa de proceso de estimación de pre-ruido de transitorios (1410) del proceso para identificar la ubicación y duración del pre-ruido de transitorio.

Las etapas quinta y sexta (1410) en el tratamiento implican estimar la ubicación y duración de los artefactos de pre-ruido de transitorio y reducir su longitud con el procesamiento con escalamiento de tiempo 1412. Dado que, por definición, los artefactos de pre-ruido están limitados a las regiones que preceden a transitorios en los datos de audiofrecuencia, el área de exploración viene limitada por la información facilitada por el proceso de detección de transitorios. Como se muestra en la Figura 1, la longitud del pre-ruido está limitada desde un mínimo de N/2 hasta un máximo de N muestras, donde N es el número de muestras de audiofrecuencia en un bloque de codificación de audiofrecuencia solapado en un 50%. Así, cuando N son 1.024 muestras y la audiofrecuencia se muestrea a 48 kHz, el pre-ruido de transitorio podría abarcar desde 10,7 mseg. hasta 21,3 mseg. antes del comienzo del transitorio, dependiendo de la ubicación del transitorio en el tren de señales de audiofrecuencia, que excede significativamente a cualquier enmascaramiento temporal que pudiera esperarse de la señales de transitorios. Alternativamente, en lugar de estimar la longitud de los artefactos de pre-ruido que preceden a un transitorio, se podría aplicar la etapa 1410 suponiendo que los artefactos de pre-ruido tengan una longitud por defecto.

Se podrían implementar dos soluciones para la reducción de pre-ruidos de transitorios. La primera supone que todos los transitorios contienen pre-ruido, y por tanto las señales de audiofrecuencia antes de cada transitorio se podrían escalar en el tiempo (comprimir en el tiempo) por una cantidad predeterminada (por defecto) que se base en una magnitud esperada de pre-ruido por transitorio. Si se usa esta técnica, se podría realizar una expansión de escala de tiempo de la audiofrecuencia antes del pre-ruido temporal, para proveer una compensación por número de muestras para el proceso de escalamiento de tiempo con compresión de tiempo empleado para reducir la longitud del pre-ruido, y para proveer una compensación por evolución de tiempo (la expansión de tiempo antes del pre-ruido que compensa por la compresión de tiempo dentro del pre-ruido deja al transitorio en o cerca de su ubicación temporal original). Sin embargo, si no se conoce la ubicación exacta del pre-ruido, dicho proceso de compensación por número de muestras podría aumentar involuntariamente la duración de partes del componente d el pre-ruido.

Las Figuras 15a-15c demuestran una técnica que usa un valor por defecto para escalar en el tiempo la señal de audiofrecuencia antes de cada transitorio con el fin de reducir la duración del pre-ruido, pero no se realiza la compensación por número de muestras. Como se muestra en la Figura 15a, una señal de audiofrecuencia procedente de un descodificador de audiofrecuencia a baja velocidad de transferencia de bits tiene un transitorio precedido por un pre-ruido. La Figura 15b muestra una longitud de procesamiento por defecto que se usa como la cantidad de compresión de tiempo a realizar por el proceso de escalamiento de tiempo. La Figura 15c muestra el tren resultante de señales de audiofrecuencia que tiene pre-ruido reducido. En este ejemplo, no se ha realizado la compensación por evolución de tiempo para devolver el transitorio a su ubicación original en el tren de datos de audiofrecuencia. Sin embargo, de una manera similar a los ejemplos de tratamiento anteriores, si se desea un número constante de muestras de entrada a salida, se podría realizar un proceso de expansión con escala de tiempos siguiendo al transitorio, similar al ejemplo de la Figura 13b o, posiblemente, antes del pre-ruido según se describe más adelante en relación con el ejemplo de las Figuras 16a-16c. Sin embargo, cuando se aplique una longitud de procesamiento por defecto, la provisión de dicha compensación antes del pre-ruido corre el riesgo de realizar el proceso de expansión de escala de tiempo dentro del pre-ruido (aumentando así de un modo no deseable la longitud del pre-ruido) si la longitud real del pre-ruido excede a la longitud por defecto. Además, en algunos casos, el post-tratamiento podría no tener acceso al tren de audiofrecuencia antes del pre-ruido - la audiofrecuencia se podría haber descargado ya como salida con el fin de reducir el tiempo de espera.

Una segunda técnica de reducción de pre-ruido con post-tratamiento, ilustrada en las Figuras 16a-16c, implica la realización de un análisis del pre-ruido resultante de un transitorio para determinar su longitud y procesar la audiofrecuencia para que solamente se trate el segmento del pre-ruido. Como se ha hecho notar anteriormente, el pre-ruido del transitorio se produce cuando los componentes de alta frecuencia del material de transitorios de audiofrecuencia se contamina temporalmente por todo un bloque como resultado del proceso de cuantificación realizado en el codificador. Por tanto, un método sencillo de detección es filtrar con paso alto la audiofrecuencia antes de un transitorio y medir la energía de alta frecuencia. El comienzo del pre-ruido de transitorio se identifica cuando el pre-ruido de alta frecuencia, parecido a un ruido, relacionado con el transitorio y causado por éste, excede de un valor umbral predeterminado. Cuando se conocen el tamaño y la ubicación del pre-ruido del transitorio, se podría realizar una expansión con compensación por escala de tiempos antes de la reducción de escala de tiempos del pre-ruido para devolver la señal de audiofrecuencia a su evolución temporal original y restablecer la evolución de tiempo del tren de señales de audiofrecuencia sustancialmente a su condición original. El invento no se limita a emplear detección de alta frecuencia. Se podrían emplear otras técnicas para detectar o estimar la longitud del pre-ruido.

En la Figura 16a, un tren de señales de audiofrecuencia procedente de un descodificador de audiofrecuencia a baja velocidad de transferencia de bits tiene un transitorio precedido por un pre-ruido. La Figura 16 muestra una longitud de tratamiento por compresión de tiempo que se usa como la cantidad de reducción con escala de tiempos a realizar por el proceso de escalamiento de tiempo basándose en una longitud estimada de pre-ruido medida mediante el contenido de audiofrecuencia de alta frecuencia en el bloque. La Figura 16b presenta también el uso de la expansión de tiempo por T muestras con el fin de restablecer la evolución original de tiempo del tren de señales y también de restablecer el número original de muestras. La figura 16c presenta el tren resultante de señales de audiofrecuencia que tiene un pre-ruido reducido junto con la evolución original de tiempo y el mismo número de muestras que el tren original de señales.

El presente invento y sus diversos aspectos se podrían implementar como funciones de software realizadas en procesadores de señales digitales, ordenadores digitales programados de uso general, y/u ordenadores digitales de uso especial. Las interfaces entre los trenes de señales analógicas y digitales se podrían realizar en un hardware apropiado y/o como funciones en software y/o en microprograma.

Claims

1. Un método para reducir los artefactos de distorsión que preceden a un transitorio de señal en un tren de señales de audiofrecuencia subsiguiente a una transformación inversa, en el descodificador o en un sistema de codificación de audiofrecuencia a baja velocidad de transferencia de bits basado en transformación, que emplea bloques de codificación, cuyo método comprende

recibir información de metadatos que es útil en la reducción de la duración del pre-ruido del transitorio, cuya información de metadatos incluye la ubicación de transitorios, y

alterar la duración de tiempo de al menos una parte de dichos artefactos de distorsión, en respuesta a dicha información de metadatos, de tal manera que se reduce la duración de tiempo de dichos artefactos de distorsión.

2. El método de la reivindicación 1, en el que dicha información de metadatos incluye también una o más de: la longitud del bloque (o de los bloques) de codificador de audiofrecuencia, la relación entre los límites de bloque de codificador con los datos de audiofrecuencia, y una longitud deseada del pre-ruido del transitorio.