ES2298394T3 - Mejora de sesiones transitorias de sistemas de codificacion de señales de audiofrecuencia a baja velocidad de transferencia de bits por reduccion de preruidos. - Google Patents
Mejora de sesiones transitorias de sistemas de codificacion de señales de audiofrecuencia a baja velocidad de transferencia de bits por reduccion de preruidos. Download PDFInfo
- Publication number
- ES2298394T3 ES2298394T3 ES02769666T ES02769666T ES2298394T3 ES 2298394 T3 ES2298394 T3 ES 2298394T3 ES 02769666 T ES02769666 T ES 02769666T ES 02769666 T ES02769666 T ES 02769666T ES 2298394 T3 ES2298394 T3 ES 2298394T3
- Authority
- ES
- Spain
- Prior art keywords
- audio frequency
- transient
- time
- noise
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012546 transfer Methods 0.000 title claims abstract description 27
- 230000009467 reduction Effects 0.000 title claims description 20
- 230000001052 transient effect Effects 0.000 claims abstract description 199
- 238000000034 method Methods 0.000 claims abstract description 99
- 230000009466 transformation Effects 0.000 claims abstract description 70
- 230000004044 response Effects 0.000 claims abstract description 4
- 230000002829 reductive effect Effects 0.000 abstract description 9
- 230000002441 reversible effect Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 50
- 230000008859 change Effects 0.000 description 37
- 238000002203 pretreatment Methods 0.000 description 26
- 230000000873 masking effect Effects 0.000 description 24
- 238000001514 detection method Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 14
- 230000002123 temporal effect Effects 0.000 description 13
- 238000000844 transformation Methods 0.000 description 11
- 230000006835 compression Effects 0.000 description 10
- 238000007906 compression Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000006872 improvement Effects 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000002238 attenuated effect Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 241001503987 Clematis vitalba Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001447 compensatory effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Analogue/Digital Conversion (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Un método para reducir los artefactos de distorsión .que preceden a un transitorio de señal en un tren de señales de audiofrecuencia subsiguiente a una transformación inversa, en el descodificador o en un sistema de codificación de audiofrecuencia a baja velocidad de transferencia de bits basado en transformación, que emplea bloques de codificación, cuyo método comprende recibir información de metadatos que es útil en la reducción de la duración del pre-ruido del transitorio, cuya información de metadatos incluye la ubicación de transitorios, y alterar la duración de tiempo de al menos una parte de dichos artefactos de distorsión, en respuesta a dicha información de metadatos, de tal manera que se reduce la duración de tiempo de dichos artefactos de distorsión.
Description
Mejora de sesiones transitorias de sistemas de
codificación de señales de audiofrecuencia a baja velocidad de
transferencia de bits por reducción de
pre-ruidos.
El invento se refiere en general a la
codificación de transformación digital a baja velocidad de
transferencia de bis y a la descodificación de información que
represente señales de audiofrecuencia tales como señales de música
o señales vocales. Más particularmente, el invento se refiere a la
reducción de artefactos de distorsión que preceden a un
transitorio de señal ("pre-ruido")
El término "escalamiento de tiempo" se
refiere a la alteración de la evolución o duración en el tiempo de
una señal de audiofrecuencia al mismo tiempo que no se altera su
contenido espectral (timbre percibido) o tono percibido (donde el
tono es una característica en relación de asociación con señales
periódicas de audiofrecuencia). El escalamiento de tono se refiere
a la modificación del contenido espectral o tono percibido de una
señal de audiofrecuencia mientras no se afecta a su evolución o
duración el tiempo. El escalamiento de tiempo y el escalamiento de
tono son métodos duales entre sí. Por ejemplo, un tono de señal de
audiofrecuencia digitalizada se podría incrementar en un 5% sin
afectar su duración en el tiempo mediante su escalamiento de tiempo
en un 5% (es decir, incrementando la duración del tiempo de la
señal) y luego la extracción de información de las muestras en una
velocidad de variación de las muestras un 5% mayor (por ejemplo, por
re-muestreo), manteniendo de ese modo su duración
de tiempo original. La señal resultante tiene la misma duración de
tiempo que la señal original, pero con un tono o unas
características espectrales modificados. El
re-muestreo no es una etapa esencial del
escalamiento de tiempo o del escalamiento de tono, a no ser que se
desee mantener una velocidad de muestreo de salida constante o
mantener iguales las velocidades de muestreo de entrada y
salida.
En aspectos del presente invento, se emplea el
procesamiento de escalamiento de tiempo de trenes de señales de
audiofrecuencia. Sin embargo, según se ha mencionado anteriormente,
el escalamiento de tiempo se podría realizar también usando
técnicas de escalamiento de tono, puesto que son duales entre sí.
Así, aunque en la presente memoria se usa el término
"escalamiento de tiempo", se podrían emplear también técnicas
que empleen escalamiento de tono para obtener escalamiento de
tiempo.
Entre los dedicados al campo del tratamiento de
señales, existe un interés considerable en minimizar la cantidad de
información requerida para representar una señal sin una pérdida
perceptible en la calidad de la señal. Mediante la reducción de los
requisitos de información, las señales imponen menos requisitos de
capacidad de información sobre los canales de comunicación y medios
de almacenamiento. Con respecto a las técnicas de codificación
digital, los requisitos mínimos de información son sinónimos con los
mínimos requisitos de bit binario.
Algunas técnicas anteriores para codificar
señales de audiofrecuencia destinadas a la audición humana intentan
reducir requisitos de información sin producir ninguna degradación
audible mediante la explotación de efectos
sico-acústicos. El oído humano presenta propiedades
de análisis de frecuencias que se parecen a los filtros
sintonizados muy asimétricos que tienen frecuencias centrales
variables. La capacidad del oído humano para detectar tonos
distintos aumenta en general cuando lo hace la diferencia de
frecuencias entre los tonos; sin embargo, la capacidad de
resolución del oído permanece sustancialmente constante para
diferencias de frecuencias menores que el ancho de banda de los
filtros anteriormente mencionados. Por tanto, la capacidad de
resolución de frecuencias del oído humano varía según el ancho de
banda de estos filtros a lo largo de todo el espectro de
audiofrecuencias. Al ancho de banda eficaz de dicho filtro auditivo
se hace referencia como una banda crítica. Una señal dominante
dentro de una banda crítica tiene más probabilidades de enmascarar
la audibilidad de otras señales en cualquier parte dentro de la
banda crítica que otras señales en frecuencias exteriores a esa
banda crítica. Una señal dominante podría enmascarar otras señales
que se produzcan no sólo al mismo tiempo que la señal de
enmascaramiento, sino que también ocurran antes y después que la
señal de enmascaramiento La duración de los efectos de pre- y
post-enmascaramiento dentro de una banda crítica
depende de la amplitud de la señal de enmascaramiento, pero
usualmente los efectos del pre-enmascaramiento son
de una duración mucho menor que los efectos del
post-enmascaramiento. Véase, con carácter general,
el Manual de ingeniería de audiofrecuencia (Audio Engineering
Handbook) K. Blair Benson editores,
Mc-Graw-Hill, San Francisco 1988,
páginas 1.40 -1.42 y 4.8-4.10
Las técnicas de registro y transmisión de
señales que dividen el ancho de banda útil de la señal en bandas de
frecuencias con anchos de banda que se aproximen a las bandas
críticas del oído pueden aprovechar mejor los efectos
sico-acústicos que las técnicas de banda más ancha.
Las técnicas que explotan los efectos de enmascaramiento
sico-acústico pueden codificar y reproducir una
señal que sea indistinguible de la señal de entrada original usando
una velocidad de transferencia de bits inferior a la requerida por
la codificación con modulación por impulsos modificados (en
adelante PCM).
Las técnicas de banda crítica comprenden
dividir el ancho de banda de la señal en bandas de frecuencia,
tratar la señal de cada banda de frecuencia, y reconstruir una
réplica de la señal original a partir de la señal tratada de cada
banda de frecuencia. Dos de dichas técnicas son la codificación
sub-banda y la codificación de transformación. Los
codificadores de sub-banda y transformación pueden
reducir los requisitos de información transmitida en bandas
particulares de frecuencia donde la imprecisión de codificación
resultante (ruido) esté enmascarada en forma
sico-acústica por componentes espectrales vecinos
sin degradar la calidad subjetiva de la señal codificada.
Un banco de filtros de paso de banda digitales
podría implementar codificación sub-banda. La
codificación de transformación se podría implementar por alguna de
varias de las transformaciones discretas de dominio de tiempo a
dominio de frecuencia que implementa un banco de filtros de paso de
banda digitales. La descripción restante se refiere más
particularmente a códigos de transformación, por tanto el término
"sub-banda" se refiere en este caso a partes
seleccionadas del ancho de banda total de la señal, ya sea
implementada por un codificador de sub-banda o por
un codificador de transformación. Una sub-banda tal
como se implementa por un codificador de transformación se define
por un conjunto de uno o más de coeficientes de transformación
adyacentes; de aquí que el ancho de banda de
sub-banda es un múltiplo del ancho de banda del
coeficiente de transformación, El ancho de banda de un coeficiente
de transformación es directamente proporcional a la velocidad de
muestreo de la señal de entrada e inversamente proporcional al
número de coeficientes generados por la trasformación para
representar la señal de entrada.
El enmascaramiento sico-acústico
se podría llevar a cabo de un modo más sencillo mediante códigos de
transformación si el ancho de banda de sub-banda a
lo largo de todo el espectro audible es aproximadamente la mitad del
ancho de banda crítico del oído humano en las mismas partes del
espectro. Ello se debe a que las bandas críticas del oído humano
tienen frecuencias centrales variables que se adaptan a estímulos
auditivos, mientras que los codificadores de
sub-banda y de transformación tienen típicamente
frecuencias centrales de sub-banda fijas. Para
optimizar la utilización de los efectos de enmascaramiento
sico-acústico, cualesquiera artefactos de
distorsión resultantes de la presencia de una señal dominante
deberían limitarse a la sub-banda que contenga la
señal dominante. Si el ancho de banda de la
sub-banda es aproximadamente la mitad o menos de la
mitad de la banda crítica y si la selectividad del filtro es
suficientemente elevada, tendrá probabilidades de producirse un
enmascaramiento efectivo de los productos de distorsión indeseables
aún para señales cuya frecuencia esté cerca del borde del ancho de
banda de paso de banda de la sub-banda. Si el ancho
de banda de la sub-banda es más de la mitad que una
banda crítica, hay una posibilidad de que la señal dominante pueda
causar que la banda crítica del oído se descentre del codificador
de sub-banda de tal manera que no se enmascaren
algunos de los productos de distorsión indeseables situados en el
exterior del ancho de banda crítico del oído. Este efecto es más
objecionable en frecuencias bajas, en donde la banda crítica del
oído es más estrecha.
La probabilidad de que una señal dominante pueda
causar que la banda crítica del oído se descentre de una
sub-banda de codificador y por tanto "descubra"
otras señales de la misma sub-banda de codificador
es generalmente mayor a bajas frecuencias, en donde la banda
crítica del oído es más estrecha. En los códigos de transformación,
la sub-banda más estrecha posible es un coeficiente
de transformación, por lo que el enmascaramiento
sico-acústico se podría realizar más fácilmente si
el ancho de banda del coeficiente de transformación no sobrepasa la
mitad del ancho de banda de la banda crítica de máxima estrechez
del oído. Un aumento de la longitud de la transformación podría
disminuir el ancho de banda del coeficiente de transformación. Un
inconveniente de aumentar la longitud de la transformación es un
aumento en la complejidad del tratamiento para calcular la
transformación y en codificar números mayores de
sub-bandas más estrechas. Otros inconvenientes se
exponen más adelante.
Por supuesto, el enmascaramiento
sico-acústico se podría obtener usando
sub-bandas más anchas si la frecuencia central de
estas sub-bandas se puede cambiar para que siga a
los componentes de la señal dominante del mismo modo que cambia la
frecuencia central de la banda crítica del oído.
La capacidad de un codificador de transformación
para explotar los efectos de enmascaramiento
sico-acústico depende también de la selectividad
del banco de filtros implementado por la transformación. El término
"selectividad" de filtro, tal como se usa en la presente
memoria, se refiere a dos características de los filtros de paso de
banda de sub-banda. La primera es el ancho de banda
de las regiones situadas entre el paso de banda del filtro y las
bandas atenuadas (la anchura de las bandas de transición). La
segunda es el nivel de atenuación en las bandas atenuadas. De este
modo, la selectividad de filtro se refiere al escarpe de la curva de
respuesta del filtro dentro de las bandas de transición (escarpe de
la atenuación progresiva de la banda de transición), y al nivel de
atenuación en las bandas atenuadas (profundidad de rechazo de banda
atenuada).
La selectividad del filtro está afectada
directamente por numerosos factores incluyendo los tres factores
que se exponen más adelante: longitud de bloque, funciones de
ponderación de ventana, y transformaciones. En un sentido muy
general, la longitud de bloque afecta a la resolución temporal y de
frecuencia del codificador, y las ventanas y las transformaciones
afectan a la ganancia de codificación.
La señal de entrada a codificar se muestrea y
segmenta en "bloques de muestra de señal" antes de la
filtración de sub-banda. El número de muestras
contenido en el bloque de muestras de señal es la longitud de bloque
de la muestra de señal.
Es común que el número de coeficientes generados
por un banco de filtros de transformación (longitud de
transformación) sea igual a la longitud de bloque de muestras de
señal, pero no es necesario. Se podría usar una transformación de
bloque superpuesta, y a veces se describe en la técnica como una
transformación de longitud N que transforma bloques de muestras de
señal con 2N muestras. Se puede describir también como una
transformación de longitud 2N que genera solamente coeficientes
exclusivos N. Como se puede considerar que todas las
transformaciones que se describen en la presente memoria tienen
longitudes iguales a la longitud de bloque de muestras de señal,
generalmente se usan en la presente memoria las dos longitudes como
sinónimos una de otra.
La longitud de bloque de muestras de señal
afecta a la resolución temporal y de frecuencia de un codificador
de transformación. Los codificadores de transformación que usan
longitudes de bloque más cortas tienen una resolución de frecuencia
más deficiente, porque el ancho de banda del coeficiente discreto de
transformación es más ancho y la selectividad de filtro es menor
(menor velocidad de variación de la atenuación progresiva de la
banda de transición y un nivel menor de rechazo de banda atenuada).
Esta degradación en el comportamiento del filtro causa que la
energía de un solo componente espectral se disperse en coeficientes
de transformación vecinos. Esta dispersión indeseable de energía
espectral es el resultado de un comportamiento degradado del filtro
denominado "fugas de lóbulo lateral".
Los codificadores de transformación que usan
mayores longitudes de bloque tienen una resolución temporal más
deficiente, porque los errores de cuantificación causan que un
sistema codificador/descodificador de transformación "manche"
los componentes de frecuencia de una señal muestreada a través de
toda la longitud del bloque de muestras de señal. Los artefactos de
distorsión presentes en la señal recuperados de la transformación
inversa son los más audibles como resultado de grandes cambios en
la amplitud de la señal que ocurren durante un intervalo de tiempo
mucho más corto que la longitud del bloque de muestras de señal. A
estos cambios de amplitud se hace referencia en la presente memoria
como "transitorios". Dicha distorsión se manifiesta como un
ruido en la forma de un eco u oscilación transitoria justo antes
(ruido de pre-transitorio o
"pre-ruido") o justo después (ruido
post-transitorio) del transitorio. El
pre-ruido tiene un interés particular porque es muy
audible y, a diferencia del ruido post-transitorio,
está mínimamente enmascarado (un transitorio proporciona solamente
un pre-enmascaramiento temporal mínimo). El
pre-ruido se produce cuando los componentes de alta
frecuencia del material de transitorios de audiofrecuencia se
manchan temporalmente a través de la longitud del bloque de
codificador de audiofrecuencia en el que ocurre. El presente invento
concierne sustancialmente a la minimización del
pre-ruido. El ruido
post-transitorio típicamente está enmascarado de un
modo sustancial. y no es el objeto de este invento.
Los codificadores s de transformación de
longitud fija de bloque usan una longitud de bloque de compromiso
que compensa la resolución temporal contra la resolución de
frecuencia. Una longitud de bloque corta degrada la selectividad de
filtro de sub-banda, que podría resultar en un ancho
de banda nominal de filtro de banda de paso que exceda el ancho de
banda crítico del oído a frecuencias más bajas o a todas las
frecuencias. Incluso si el ancho de banda nominal de
sub-banda es más estrecho que el ancho de banda
crítico del oído, las características degradadas del filtro
manifestadas como una banda de transición amplia y/o rechazo de
banda atenuada deficiente podrían resultar en significativos
artefactos de señal fuera del ancho de banda crítico del oído. Por
el contrario, una longitud grande de bloque podría mejorar la
selectividad del filtro, pero reduce la resolución temporal, lo
cual podría dar lugar a que ocurriese una distorsión de señal
audible fuera del intervalo de enmascaramiento
sico-acústico temporal del
oído.
oído.
Las transformaciones discretas no producen un
conjunto perfectamente preciso de coeficientes de frecuencia,
porque trabajan con solamente un segmento de longitud finita de la
señal, el bloque de muestras de señal. Estrictamente hablando, las
transformaciones discretas producen una representación
tiempo-frecuencia de la señal de entrada en el
dominio del tiempo más bien que una representación verdadera en el
dominio de la frecuencia, que requeriría infinitas longitudes de
bloque de muestras de señal. Sin embargo, por conveniencia de la
descripción, en la presente memoria a la salida de las
transformaciones discretas se hace referencia como una
representación en el dominio de la frecuencia. En realidad, la
transformación discreta supone que la señal muestreada solamente
tiene componentes de frecuencia cuyos períodos son un submúltiplo de
la longitud de bloque de muestras de señal. Esto es equivalente a
una hipótesis de que la señal de longitud finita es periódica. Por
supuesto, la hipótesis en general no es cierta. La periodicidad
supuesta crea discontinuidades en los bordes del bloque de muestras
de señal que causan que la transformación cree componentes
espectrales fantasmas.
Una técnica que minimiza este efecto es la
reducción de la discontinuidad antes de la transformación mediante
la ponderación de las muestras de señal de tal manera que las
muestras situadas cerca de los bordes del bloque de muestras de
señal sean cero o muy cerca de cero. Las muestras situadas en el
centro del bloque de muestras de señal pasan generalmente sin
cambiar, es decir, ponderadas por un factor de uno. Esta función de
ponderación se denomina una "ventana de análisis". La forma de
la ventana afecta directamente a la selectividad del filtro.
Tal como se usa en la presente memoria, el
término "ventana de análisis" se refiere solamente a la función
de selección de ventana realizada antes de la aplicación de la
transformación directa. La ventana de análisis es una función de
dominio en el tiempo. Si no se provee compensación por los efectos
"ventana", la señal recuperada o "sintetizada" se
distorsiona de acuerdo con la forma de la ventana de análisis En la
técnica es bien conocido un método de compensación conocido como
solapar-añadir. Este método requiere que el
codificador transforme bloques solapados de muestras de señal de
entrada. Diseñando cuidadosamente la ventana de análisis de tal
manera que dos ventanas adyacentes se añadan a la unidad a través de
la solapa, los efectos de la ventana se compensan exactamente. La
forma de la ventana afecta significativamente. Véase en general el
documento de Harris titulado "Sobre el uso de ventanas para
análisis de armónicos con la transformada discreta de Fourier",
Actas de l IEEE, volumen 66, enero, 1978, págs.
51-83. Como regla general, las ventanas de forma
"más suave" y los intervalos mayores de solapa proporcionan
una mejor selectividad, Por ejemplo, una ventana Kaisser- Bessel
generalmente provee una selectividad de filtro mayor que una ventana
rectangular estrechada progresivamente en forma
sinusoidal.
sinusoidal.
Cuando se usa con ciertos tipos de
transformaciones tales como la transformada discreta de Laplace (en
adelante DFT), el método de solapar-añadir aumenta
el número de bits requeridos para representar la señal, porque la
parte de la señal contenida en el intervalo de solapa se debe
transformar y transmitir dos veces, una por cada uno de los dos
bloques de muestras de señal solapado. El análisis/síntesis de señal
para los sistemas que usan dicha transformación con
solapar-añadir no es muestreado críticamente. El
término "muestreado críticamente" se refiere a un
análisis/síntesis de señal que sobre un período de tiempo genera el
mismo número de coeficientes de frecuencia que el número de
muestras de señal de entrada que recibe. De aquí que, para sistemas
que se muestreen de forma no crítica, es conveniente diseñar la
ventana con un intervalo de solapa tan pequeño como sea posible,
para minimizar los requisitos de información de la señal
codificada.
Algunas transformaciones requieren también que a
la salida sintetizada de la transformación inversa se le practique
una selección de ventana. La ventana de síntesis se usa para
conformar cada bloque de señal sintetizada Por tanto, la señal
sintetizada se pondera tanto mediante una ventana de análisis como
por una ventana de síntesis. Esta ponderación en dos etapas es
matemáticamente similar a ponderar la señal original una vez por
una ventana cuya forma sea igual a un producto muestra por muestra
de las ventanas de análisis y síntesis. Por tanto, con el fin de
utilizar el método de solapar-añadir para compensar
por distorsión de ventana, se deben diseñar ambas ventanas de tal
manera que el producto de las dos sumas se unifique a través del
intervalo de solapar-añadir.
Aunque no existe un criterio único que pueda
usarse para establecer una optimización de ventana, una ventana en
general se considera "buena" si la selectividad del filtro
utilizado con la ventana se considera "buena". Por tanto, una
ventana de análisis bien diseñada (para transformaciones que usen
solamente una ventana de análisis) o un par de ventanas de
análisis/síntesis (para transformaciones que usen una ventana de
análisis y una ventana de síntesis) puede reducir las fugas de
lóbulo lateral.
Una solución común que supera el compromiso
entre la resolución temporal y la resolución de frecuencia en los
codificadores de transformación de longitud fija de bloque es el uso
de la detección de transitorios y la conmutación de longitud de
bloque. En esta solución, la presencia y la ubicación de los
transitorios de señales de audiofrecuencia se detectan usando
varios métodos de detección de transitorios. Cuando se detectan
señales transitorias de audiofrecuencia que tengan probabilidades de
introducir pre-ruido cuando se codifiquen usando
una gran longitud de bloque de codificador de audiofrecuencia, el
codificador a baja velocidad de transferencia de bits se conmuta
desde la longitud de bloque largo más eficiente a una longitud de
bloque más corto menos eficiente. Aunque esto reduce la resolución
de frecuencia y el rendimiento de la codificación de la señal de
audiofrecuencia codificada, también reduce la longitud del
pre-ruido de transitorio introducido por el proceso
de codificación, mejorando la calidad percibida de la señal de
audiofrecuencia tras la descodificación a baja velocidad de
transferencia de bits. Las técnicas para la conmutación de
longitudes de bloque se describen en las patentes de EE.UU. Números
5.394.473; 5.848.391; y 6.226.608. Aunque el presente invento reduce
el pre-ruido sin la complejidad ni los
inconvenientes de la conmutación de bloque, se podría emplear junto
con - y además de - la conmutación de bloque.
El documento elaborado por Vafin R. y
colaboradores, titulado "Modificación de transitorios para una
codificación eficaz de audiofrecuencia", CONFERENCIA
INTERNACIONAL DEL INSTITUTO DE INGENIEROS ELÉCTRICOS Y ELECTRÓNICOS
(IEEE) DE 2001 SOBRE ACÚSTICA, TRATAMIENTO DE SEÑALES Y DE VOZ.
ACTAS. 7-11 de mayo de 2001, páginas
3285-3288 describe la modificación, en un código
paramétrico de audiofrecuencia, de la ubicación de transitorios
estimados de tal manera que los transitorios puedan ocurrir
solamente en lugares especificados por una rejilla. La rejilla se
define por una segmentación restringida en la que los segmentos
están definidos por múltiplos de números enteros de un tamaño
mínimo predefinido de segmento.
El documento WO 00/45378 describe un método para
codificación de envolvente espectral en el que, en la proximidad de
transitorios, se aumenta la resolución temporal a expensas de la
resolución de frecuencia. En el sistema de codificación que trata
los segmentos de tiempo de una señal de entrada, esto se consigue
cambiando la longitud de los segmentos de tiempo respectivos.
De acuerdo con un aspecto del presente invento,
un método para reducir los artefactos de distorsión que preceden a
un transitorio de señal en un tren de señales de audiofrecuencia
subsiguiente a la transformación inversa en el descodificador de
un sistema de codificación de audiofrecuencia de la velocidad de
transferencia de bits basado en transformación que emplea bloques
de codificación, comprende alterar la duración de tiempo de al
menos una parte de los artefactos de distorsión, en respuesta a
dicha información de metadatos, de tal manera que se reduce la
duración de tiempo de los artefactos de distorsión. La información
de metadatos incluye la ubicación de transitorios.
Mediante dicho tratamiento, al que en la
presente memoria se hará referencia como
"post-tratamiento", se podrían conseguir
mejoras de calidad de audiofrecuencia tanto si se emplea
pre-tratamiento como si no se emplea. Se podría
analizar cualquier señal de audiofrecuencia que haya experimentado
una codificación y descodificación de audiofrecuencia a baja
velocidad de transferencia de bits para identificar la ubicación de
señales transitorias y estimar la duración de artefactos de señales
transitorias de pre-ruido. Entonces, se podría
realizar un post-procesamiento escalado en el
tiempo sobre la señal de audiofrecuencia con el fin de eliminar el
pre-ruido de la señal transitoria o de reducir su
duración.
Existen varias técnicas de compensación para
reducir las alteraciones en la evolución en el tiempo de trenes de
señales de audiofrecuencia. Estas técnicas de compensación escaladas
en el tiempo tienen también el resultado beneficioso de mantener
constante el número de muestras de audiofrecuencia.
Una primera técnica de compensación con
escalamiento de tiempo, que es útil en relación con el
pre-tratamiento, se aplica antes de la
transformación directa. Aplica un escalamiento de compensación de
tiempo al tren de señales de audiofrecuencia que sigue al
transitorio, teniendo el escalamiento de tiempo un sentido contrario
al sentido del escalamiento de tiempo empleado para cambiar la
posición del transitorio y, preferiblemente, teniendo
sustancialmente la misma duración que el escalamiento de tiempo del
cambio de transitorio. Por conveniencia de la descripción, a este
tipo de compensación se hará referencia en la presente memoria como
"compensación de número de muestras", porque es capaz de
mantener constante el número de muestras de señales de
audiofrecuencia pero no lo es de restablecer totalmente la
evolución temporal original del tren de señales de audiofrecuencia
(deja temporalmente fuera de lugar a los transitorios y partes del
tren de señales de audiofrecuencia que se encuentren cerca del
transitorio). Preferiblemente, el escalamiento de tiempo que provee
compensación de número de muestras sigue muy de cerca al
transitorio, de tal manera que éste lo enmascara temporalmente.
Aunque la compensación de número de muestras
deja al transitorio cambiado con respecto a su posición temporal
original, el hecho es que restablece el tren de señales de
audiofrecuencia que sigue al escalamiento de compensación de tiempo
a su posición temporal relativa original. De este modo, se reduce la
probabilidad de audibilidad del cambio de tiempo de transitorio,
aunque no se elimina, porque el transitorio está todavía fuera de su
posición original. Sin embargo, esto podría proveer una reducción
significativa en audibilidad y tiene la ventaja de que se realiza
antes de la codificación de audiofrecuencia a baja velocidad de
transferencia de bits, lo que permite el uso de un descodificador
estándar, sin modificar. Según se explica más adelante, solamente
se puede cumplir una recuperación completa de la evolución en el
tiempo del tren de señales de audiofrecuencia mediante el
tratamiento en el descodificador o después del descodificador.
Además de reducir la posibilidad del cambio de tiempo de
transitorio, la compensación con escalamiento de tiempo antes de la
transformación directa tiene la ventaja de mantener constante el
número de muestras de señales de audiofrecuencia, lo cual podría
ser importante para el tratamiento y/o para el funcionamiento del
hardware que implementa el tratamiento.
Con el fin de proveer una compensación óptima
con escalamiento de tiempo antes de la transformación directa, se
debería emplear mediante el proceso de compensación una información
en cuanto la ubicación del transitorio y la duración temporal del
cambio de tiempo de transitorio.
Si se aplica el cambio de tiempo de transitorio
después del bloqueo (pero antes de aplicar la transformación
directa) es necesario emplear compensación de número de muestras
dentro del mismo bloque en el que se realice el cambio de tiempo de
transitorio con el fin de mantener igual la longitud de bloque. Por
consiguiente, se prefiere realizar el cambio de tiempo de
transitorio y la compensación del número de muestras antes de
bloquear.
La compensación del número de muestras se podría
emplear también después de la transformación inversa (bien en el
descodificador o bien después de descodificar) en relación con el
post-tratamiento. En este caso, se podría enviar
información útil para realizar la compensación al proceso de
compensación desde el descodificador (cuya información se podría
haber originado en el codificador y/o en el descodificador).
Se podría realizar una recuperación más completa
de la evolución temporal del tren de señales de audiofrecuencia
junto con el restablecimiento del número original de muestras de
audiofrecuencia después de la transformación inversa (bien sea en
el descodificador o bien después de descodificar), mediante la
aplicación de un escalamiento de tiempo de compensación al tren de
señales de audiofrecuencia antes del transitorio en el sentido
contrario al sentido del escalamiento de tiempo empleado para
cambiar la posición del transitorio y, preferiblemente, de la misma
duración sustancial que el escalamiento de tiempo del cambio de
transitorio. Por conveniencia de la descripción, a este tipo de
compensación se hará referencia de aquí en adelante en la presente
memoria como "compensación de evolución en el tiempo". Esta
compensación de escalamiento de tiempo tiene la ventaja
significativa de restablecer la totalidad del tren de señales de
audiofrecuencia, incluyendo el transitorio, a su posición temporal
relativa original. De este modo, se reduce enormemente la
probabilidad de audibilidad de los procesos de escalamiento de
tiempo, aunque no se elimina, porque los dos procesos de
escalamiento de tiempo por sí solos podrían causar
artefactos
audibles.
audibles.
Con el fin de proveer una compensación óptima de
la evolución en el tiempo, es útil diversa información tal como la
ubicación del transitorio, la ubicación de los extremos del bloque,
la duración del cambio de tiempo de transitorio, o la duración del
pre-ruido. La duración del pre-ruido
es útil para asegurar que el escalamiento de tiempo de la
compensación de evolución de tiempo no ocurre durante el
pre-ruido, que posiblemente de ese modo ampliaría
la duración temporal del pre-ruido. La duración del
cambio de tiempo de transitorio es útil si se desea restablecer el
tren de señales de radiofrecuencia a su posición original temporal
relativa y mantener constante el número de muestras. La ubicación
del transitorio es útil porque se podría determinar la duración
del pre-ruido a partir de la ubicación original del
transitorio con respecto a los extremos de los bloques de
codificación. La duración del pre-ruido se podría
estimar midiendo un parámetro de señal, tal como el contenido de
alta frecuencia, o podría emplearse un valor por defecto. Si la
compensación se realiza en el descodificador o después de
descodificar, el codificador podría enviar información útil como
metadatos junto con la señal de audiofrecuencia codificada. Cuando
se realice después de la descodificación, se podrían enviar
metadatos al proceso de compensación desde el descodificador (cuya
información se podría haber originado en el codificador y/o en el
descodificador).
Como se ha mencionado anteriormente, el
post-tratamiento para reducir la duración del
artefacto de pre-ruido se podría aplicar también
como una etapa adicional a un codificador de señales de
audiofrecuencia que realice pre-tratamiento de
escalamiento de tiempo y, opcionalmente, proporcione información de
metadatos. Dicho post-tratamiento actuaría como un
medio adicional de perfeccionamiento de calidad mediante la
reducción del pre-ruido que todavía pueda
permanecer después del post-tratamiento.
Se podría preferir el
pre-tratamiento en los sistemas de codificador que
empleen codificadores profesionales en los que el coste, la
complejidad y el retardo de tiempo son relativamente inmateriales en
comparación con el post-tratamiento en relación con
un descodificador, que típicamente es un dispositivo de consumidor
con menos
complejidad.
complejidad.
La técnica de perfeccionamiento de calidad de un
sistema de codificación de señales de audiofrecuencia con baja
velocidad de transferencia de bits se podría implementar usando
cualquier técnica actual adecuada de escalamiento de tiempo, Una
técnica adecuada se describe en la solicitud de patente
internacional PCT/US02/04317, presentada el 12 de febrero de 2002,
con el título de "escalamiento de tiempo y escalamiento de tono de
alta calidad de señales de audiofrecuencia". Dicha solicitud
designa a los Estados Unidos y a otras entidades. Como se ha
indicado anteriormente, dado que el escalamiento de tiempo y el
cambio de tono son métodos duales entre sí, el escalamiento de
tiempo se podría implementar también usando cualquier técnica
adecuada de escalamiento de tono, así como cualquiera que pueda
estar disponible en el futuro. Un escalamiento de tono seguido por
una extracción de información de las muestras de señales de
audiofrecuencia a una velocidad adecuada que sea diferente de la
velocidad de variación de la muestra de entrada resulta en una
versión escalada en el tiempo de la señal de audiofrecuencia con el
mismo contenido espectral o tono de la señal de audiofrecuencia
original, y es aplicable al presente
invento.
invento.
Según se ha indicado en el resumen de
antecedentes de la codificación de señales de audiofrecuencia a baja
velocidad de transferencia de bits, la selección de la duración de
bloque en un sistema de codificación de señales de audiofrecuencia
es un compromiso entre la resolución de frecuencia y la resolución
temporal. En general se prefiere una duración mayor de bloque,
puesto que proporciona un rendimiento mayor del codificador (en
general provee una calidad mayor de señales de audiofrecuencia
percibidas con un número reducido de bits de datos) en comparación
con una duración menor de bloque. Sin embargo, las señales de
transitorio y las señales de pre-ruido que generan
contrarrestan la ganancia en calidad de duraciones de bloque
mayores por introducir efectos perjudiciales audibles. Es por esta
razón por lo que se usa la conmutación de bloque o las duraciones
fijas menores de bloque en aplicaciones prácticas de codificadores
de señales de audiofrecuencia a baja velocidad de transferencia de
bits. Sin embargo, la aplicación del pre-tratamiento
de escalamiento de tiempo de acuerdo con el presente invento a
datos de audiofrecuencia que van a experimentar codificación de
señales de audiofrecuencia a baja velocidad de transferencia de
bits y/o que ha experimentado un post- tratamiento podría reducir la
duración del pre-ruido de transitorios. Esto
permite usar mayores duraciones de bloque de codificación de
señales de audiofrecuencia, proporcionando con ello un mayor
rendimiento de codificación y mejorando la calidad de la señal de
audiofrecuencia percibida sin cambiar de forma adaptable las
duraciones de bloque. Sin embargo, la reducción del
pre-ruido de acuerdo con el presente invento se
podría emplear también en sistemas de codificación que usen
conmutación de duración de bloque. En dichos sistemas, podría
existir cierto pre-ruido aún para el mínimo tamaño
de ventana. Cuanto mayor sea la ventana, más largo y, por
consiguiente, más audible es el pre-ruido. Los
transitorios típicos proveen aproximadamente 5 mseg. de
pre-enmascaramiento, que se traduce a 240 muestras
a una velocidad de muestreo de 48 kHz. Si una ventana tiene más de
256 muestras, que es común en una disposición de conmutación de
bloque, el invento aporta cierto
beneficio.
beneficio.
Las Figuras 1a-1e muestran
ejemplos de artefactos de pre-ruido de transitorios
generados por un sistema codificador de audiofrecuencia de longitud
de bloque fija. La Figura 1A presenta seis bloques, solapados en un
50%, de ventana seleccionada para codificación de audiofrecuencia y
de longitud fija del 1 al 6. En esta figura y en todas las demás
figuras de la presente memoria, cada ventana es contigua con un
bloque de codificación de audiofrecuencia y a ella se hace
referencia como "bloque con ventana", "ventana", o
"bloque". En esta figura y en otras determinadas figuras de la
presente memoria, las ventanas se presentan en general en la forma
de una ventana de Kaiser-Bessel. Otras figuras
muestran ventanas en forma de semicírculos para mayor sencillez en
la presentación. La forma de la ventana no es crítica para el
presente invento. Aunque la longitud de los bloques con ventana de
la Figura 1a y de otras figuras no son críticas para el invento,
los bloques con ventana de longitud fija se encuentran típicamente
en el intervalo de 256 a 2048 muestras en longitud. Los cuatro
ejemplos de señal de audiofrecuencia de la Figuras 1b a 1e ilustran,
respectivamente, los efectos de las relaciones temporales entre los
bloques con ventana para codificación de audiofrecuencia y los
artefactos de pre-ruido de transitorio.
La Figura 1b ilustra la relación entre la
ubicación de una señal de transitorio en un tren de señales de
audiofrecuencia de entrada a codificar y los límites de los bloques
con ventana solapados al 50%. Aunque se ha mostrado una longitud
fija de bloque con solapa del 50%, el invento es aplicable a los
dos sistemas de codificación de longitud de bloque fija y variable
y a bloques que tengan una solapa distinta al 50%, incluyendo los
bloques sin solapa según se describe más adelante en relación con
las Figuras 2a hasta 5b.
La Figura 1c muestra la salida de un tren de
señales de audiofrecuencia del sistema de codificación de
audiofrecuencia para el caso de una entrada de tren de señales de
audiofrecuencia como se ha mostrado en la Figura 1b. Como se
muestra en las Figuras 1b y 1c, el transitorio está situado entre
el extremo del bloque 3 con ventana y el extremo del bloque 4 con
ventana. La Figura 1c ilustra la ubicación y la longitud del
pre-ruido de transitorio introducido por el proceso
de codificación de audiofrecuencia a baja velocidad de transferencia
de bits en relación a la ubicación del transitorio y el extremo del
bloque 2 con ventana. Nótese que el pre-ruido es
anterior al transitorio y está limitado a los bloques 4 y 5 con
ventana, bloques de muestras en los que está situado el
transitorio. De ese modo, el pre-ruido se extiende
hacia atrás hasta el comienzo del bloque 4 con ventana.
De un modo similar a las Figuras 1b y 1c, las
Figuras 1d y 1e muestran, respectivamente, la relación entre un
tren de señales de entrada de audiofrecuencia que contiene un
transitorio situado entre el extremo del bloque 2 con ventana y el
extremo del bloque 3 con ventana y el pre-ruido
introducido en el tren de señales de salida de audiofrecuencia por
el sistema de codificación de audiofrecuencia. Como el
pre-ruido está limitado a los bloques 3 y 4 con
ventana, dentro de los cuales se encuentra situado el transitorio,
el pre-ruido se extiende hacia atrás hasta el
principio del bloque 3 con ventana. En este caso, el
pre-ruido tiene una duración mayor porque el
transitorio está más cerca del extremo del bloque 3 con ventana que
el transitorio de las Figuras 1b y 1c hasta el extremo del bloque 4
con ventana. La ubicación ideal del transitorio es siguiendo muy
cerca al extremo del último bloque de tal manera que el
pre-ruido se extienda hacia atrás solamente hasta
el siguiente extremo del bloque anterior (aproximadamente la mitad
de la longitud de bloque en el caso de este ejemplo de solapa de
bloque del 50%).
Debe observarse que los ejemplos de las Figuras
1a-1e no tienen explícitamente en cuenta los efectos
de la transición gradual en los límites de la ventana de
codificación. En general, a medida que las ventanas de codificación
de audiofrecuencia se van estrechando progresivamente, los
artefactos de pre-ruido cambian de escala de
acuerdo con ello, y se reduce su audibilidad. Para sencillez de la
presentación, no se ha mostrado el escalamiento de los artefactos
de pre-ruido en las formas de onda ideales de las
figuras de la presente memoria.
Según se ha sugerido en las Figuras
1a-1e y mostrado con más detalle en las Figuras 2A,
2B, 3A, 3B, 4A, 4B, 5A y 5B, un artefacto de
pre-ruido de transitorio de codificador de
audiofrecuencia se podría minimizar si la ubicación de las señales
transitorias se sitúa prudentemente antes de la codificación de
audiofrecuencia.
Ejemplos del reposicionamiento de la ubicación
de un transitorio con el fin de reducir el pre-ruido
se muestran en las Figuras 2a, 2b, 3a, 3b, 4a, 4b, 5a y 5b para
los casos de bloques no solapados (Figuras 2a y 2b), con solapa de
bloque menor del 50% (Figuras 3a y 3b), con solapa de bloque del 50%
(Figuras 4a y 4b), y solapa de bloque mayor del 50% (Figuras 5a y
5b). En cada caso, a no ser que la posición original del transitorio
esté equidistante entre dos extremos de bloques sucesivos (en cuyo
caso no hay preferencia), se prefiere cambiar el transitorio a una
posición que siga muy de cerca al extremo de bloque más próximo.
Tanto si el cambio es al extremo del bloque anterior como si lo es
al extremo del bloque siguiente, y tanto si es al extremo de bloque
más cercano como si no, el pre-ruido resultante es
sustancialmente el mismo. Sin embargo, cambiando provisionalmente
el transitorio a una ubicación que siga muy de cerca al extremo de
bloque más próximo, se minimiza la interrupción a la evolución en
el tiempo del tren de señales de audiofrecuencia. No obstante, en
algunos casos, el cambio al extremo de bloque más distante podría
ser también inaudible. Además, aún en el caso de que un cambio al
extremo de bloque más distante sea audible, se podría emplear la
compensación de evolución en el tiempo, como se indica más
adelante, para reducir o eliminar dicha
audibilidad.
audibilidad.
Las Figuras 2a y 2b presentan una serie de
bloques ideales con ventanas que no se solapan. En la Figura 2a,
una ubicación inicial de transitorio está, como se ha mostrado por
una flecha con línea llena, más cerca del extremo de la última
ventana de lo que está el extremo de la ventana siguiente. El
pre-ruido para la ubicación inicial del transitorio
se extiende hacia atrás en el tiempo hasta el extremo del comienzo
de la ventana, como se ha mostrado. Si se desea minimizar el grado
de cambio temporal del transitorio, debería cambiarse "hacia la
izquierda" (hacia atrás en el tiempo) hasta una ubicación que
siga muy de cerca al extremo del último bloque con ventana, como se
ha mostrado. Aunque el pre-ruido resultante todavía
se extiende hacia atrás hasta el principio del bloque con ventana,
esta longitud es muy corta comparada con el
pre-ruido resultante de la ubicación inicial de
transitorio. En ésta y en otras figuras, la distancia del
transitorio cambiado desde el extremo de bloque con ventana se ha
exagerado para mayor claridad de la presentación. En la Figura 2b,
la posición inicial del transitorio está más cerca del extremo de la
ventana siguiente que del extremo de la ventana anterior. De este
modo, si se desea minimizar el grado de cambio temporal del
transitorio, debería cambiarse "hacia la derecha" (más tarde
en el tiempo) hasta una ubicación que siga muy de cerca al extremo
del siguiente bloque con ventana, como se ha mostrado. Nótese que el
perfeccionamiento en la reducción del pre-ruido
aumenta cuando la posición inicial del transitorio se va a un tiempo
posterior del bloque con
ventana.
ventana.
Las Figuras 3a y 3b presentan una serie de
bloques ideales con ventana que se solapan en menos del 50%. En la
Figura 3a, una ubicación inicial de transitorio está, como se ha
mostrado mediante una línea de trazo lleno, más cerca del extremo
de la última ventana que del extremo de la ventana siguiente. El
pre-ruido para la ubicación inicial del transitorio
se extiende hacia atrás en el tiempo hasta el extremo del comienzo
de la ventana, como se ha mostrado. Si se desea minimizar el grado
de cambio temporal del transitorio, debería cambiarse "hacia la
izquierda" hasta una ubicación que siga muy de cerca al extremo
del último bloque con ventana, según se ha mostrado. El
pre-ruido resultante se extiende todavía hacia atrás
hasta el comienzo del bloque con ventana, pero su longitud es corta
comparada con el pre-ruido resultante de la
ubicación inicial del transitorio. En la Figura 3b, la posición
inicial del transitorio está más cerca del extremo de la ventana
siguiente que del extremo de la ventana anterior. De este modo, si
se desea minimizar el grado de cambio temporal del transitorio,
debería cambiarse "hacia la derecha" hasta una ubicación que
siga muy de cerca al extremo del siguiente bloque con ventana, como
se ha mostrado. Nótese que el perfeccionamiento en la reducción del
pre-ruido aumenta porque la posición inicial del
transitorio está más tarde en el intervalo entre bloques con ventana
sucesivos.
Las Figuras 4a y 4b presentan una serie de
bloques con ventana ideales que se solapan en un 50%. En la Figura
4a, una ubicación inicial de transitorio está, como se muestra
mediante la flecha dibujada con línea llena, más cerca del extremo
de la última ventana que del extremo de la ventana siguiente. El
pre-ruido para la ubicación inicial del transitorio
se extiende hacia atrás en el tiempo hasta el extremo del comienzo
de la ventana, como se ha mostrado. Si se desea minimizar el grado
de cambio temporal del transitorio, debería cambiarse "hacia la
izquierda" hasta una ubicación que siga muy de cerca al extremo
del último bloque con ventana, según se ha mostrado. El
pre-ruido resultante se extiende todavía hacia atrás
hasta el comienzo del bloque con ventana, pero su longitud es corta
comparada con el pre-ruido resultante de la
ubicación inicial del transitorio. En la Figura 4b, la posición
inicial del transitorio está más cerca del extremo de la ventana
siguiente que del extremo de la ventana anterior. De este modo, si
se desea minimizar el grado de cambio temporal del transitorio,
debería cambiarse "hacia la derecha" hasta una ubicación que
siga muy de cerca al extremo del siguiente bloque con ventana, como
se ha mostrado. Nótese que el perfeccionamiento en la reducción del
pre-ruido aumenta porque la posición inicial del
transitorio está más tarde en el intervalo entre bloques con ventana
sucesivos, lo mismo que en el caso de bloques solapados en menos
del
50%.
50%.
Las Figuras 5a y 5b presentan una serie de
bloques con ventana ideales que se solapan en más de un 50%. En la
Figura 5a, una ubicación inicial de transitorio está, como se
muestra mediante la flecha dibujada con línea llena, más cerca del
extremo de la última ventana que del extremo de la ventana
siguiente. El pre-ruido para la ubicación inicial
del transitorio se extiende hacia atrás en el tiempo hasta el
extremo del comienzo de la ventana, como se ha mostrado. Si se
desea minimizar el grado de cambio temporal del transitorio, debería
cambiarse "hacia la izquierda" hasta una ubicación que siga
muy de cerca al extremo del último bloque con ventana, según se ha
mostrado. El pre-ruido resultante se extiende
todavía hacia atrás hasta el comienzo del bloque con ventana, pero
esta longitud es todavía algo más corta que el
pre-ruido resultante de la ubicación inicial del
transitorio. En la Figura 5b, la posición inicial del transitorio
está más cerca del extremo de la ventana siguiente que del extremo
de la ventana anterior. De este modo, si se desea minimizar el grado
de cambio temporal del transitorio, debería cambiarse "hacia la
derecha" hasta una ubicación que siga muy de cerca al extremo
del siguiente bloque con ventana, como se ha mostrado. Nótese que el
perfeccionamiento en la reducción del pre-ruido
aumenta porque la posición inicial del transitorio está más tarde en
el intervalo entre extremos de bloques con ventana sucesivos, lo
mismo que en el caso de bloques solapados en un
50%.
50%.
Nótese que el perfeccionamiento en la reducción
del pre-ruido es el máximo para los bloques que no
se solapan, y que disminuye a medida que aumenta la solapa del
bloque.
Las Figuras 1a-1e son una serie
de formas de onda ideales que ilustran ejemplos de artefactos de
pre-ruido de transitorio generados por un sistema
codificador de señales de audiofrecuencia con longitud fija de
bloque para dos casos de condiciones de señal de entrada.
Las Figuras 2a y 2b presentan una serie de
bloques ideales con ventana que no se solapan, que ilustran las
ubicaciones temporales inicial y con transitorio cambiado, junto con
el pre-ruido para dichas ubicaciones, para el caso
de una posición inicial que esté más cerca del extremo de la última
ventana que del extremo de la ventana siguiente, y para el caso de
una posición inicial que esté más cerca del extremo de la ventana
siguiente que del extremo de la ventana anterior,
respectivamente.
Las Figuras 3a y 3b muestran una serie de
bloques ideales con ventana y con una solapa menor del 50% que
ilustra ubicaciones temporales inicial y de transitorio cambiado,
junto con el pre-ruido para dichas ubicaciones,
para el caso de una posición inicial que esté más cerca del extremo
de la última ventana que del extremo de la ventana siguiente, y
para el caso de una posición inicial que esté más cerca del extremo
de la ventana siguiente que del extremo de la ventana anterior,
respectivamente.
Las Figuras 4a y 4b muestran una serie de
bloques ideales con ventana y con una solapa del 50% que ilustra
ubicaciones temporales inicial y de transitorio cambiado, junto con
el pre-ruido para dichas ubicaciones, para el caso
de una posición inicial que esté más cerca del extremo de la última
ventana que del extremo de la ventana siguiente, y para el caso de
una posición inicial que esté más cerca del extremo de la ventana
siguiente que del extremo de la ventana anterior,
respectivamente.
Las Figuras 5a y 5b muestran una serie de
bloques ideales con ventana y con una solapa mayor del 50% que
ilustra ubicaciones temporales inicial y de transitorio cambiado,
junto con el pre-ruido para dichas ubicaciones,
para el caso de una posición inicial que esté más cerca del extremo
de la última ventana que del extremo de la ventana siguiente, y
para el caso de una posición inicial que esté más cerca del extremo
de la ventana siguiente que del extremo de la ventana anterior,
respectivamente.
La Figura 6 es un diagrama de flujo que muestra
las etapas a realizar para reducir los artefactos de
pre-ruido de transitorio mediante un escalamiento
de tiempo antes de la codificación a baja velocidad de transferencia
de bits.
La Figura 7 es una representación conceptual de
una memoria intermedia de datos de entrada utilizada para la
detección de transitorios.
Las Figuras 8a-8e son una serie
de formas de onda ideales que ilustran un ejemplo de
pre-tratamiento de audiofrecuencia con escalamiento
de tiempo de acuerdo con aspectos del presente invento cuando existe
un transitorio en un bloque de codificación de audiofrecuencia y
está situado más cerca del extremo del último bloque con ventana
que del extremo del siguiente bloque con ventana.
Las Figuras 9a-9e son una serie
de formas de onda ideales que ilustran un ejemplo de tratamiento de
audiofrecuencia con escalamiento de tiempo cuando existe un
transitorio en un bloque de codificación de audiofrecuencia con
ventana y está situado aproximadamente T muestras por delante de un
extremo de bloque.
Las Figuras 10a-10d son una
serie de formas de onda ideales que ilustran el escalamiento de
tiempo para el caso de múltiples transitorios.
Las Figuras 11a-11f son una
serie de formas de onda ideales que ilustran una compensación
inteligente de evolución con el tiempo de escalamiento de tiempo
usando metadatos transportados en un tren de señales de
radiofrecuencia.
La Figura 12 es un diagrama de flujo de un
post-tratamiento con escalamiento de tiempo en
conjunción con un descodificador de audiofrecuencia a baja
velocidad de transferencia de bits.
Las Figuras 13a-13c son una
serie de formas de onda ideales que ilustran un ejemplo de
post-tratamiento para un solo transitorio con el
fin de reducir los artefactos de pre-ruido presentes
después de descodificar.
La Figura 14 es un diagrama de flujo de un
proceso de post-tratamiento para mejorar la calidad
percibida de audiofrecuencia que ha experimentado una codificación
a baja velocidad de transferencia de bits sin
pre-tratamiento con escalamiento de tiempo.
Las Figuras 15a-15c son una
serie de formas de onda ideales que demuestran la técnica de usar un
valor por defecto para escalar en el tiempo la señal de
audiofrecuencia antes de cada transitorio con el fin de reducir el
pre-ruido sin realizar una compensación del número
de muestras.
Las Figuras 16a-16c son una
serie de formas de onda ideales que demuestran la técnica de usar
una duración calculada de pre-ruido para escalar en
el tiempo la señal de audiofrecuencia antes de cada transitorio, con
el fin de reducir la duración de pre- ruido con compensación de
número de muestras y de evolución con el tiempo.
La Figura 6 es un diagrama de flujo que ilustra
un método para escalar en el tiempo las señales de audiofrecuencia
antes de la codificación de audiofrecuencia a baja velocidad de
transferencia de bits con el fin de reducir la cantidad de
pre-ruido de transitorios (es decir,
"pre-tratamiento"). Este método trata las
señales de audiofrecuencia de entrada en bloques de N muestras,
donde N podría corresponder a un número mayor que o igual al número
de muestras de audiofrecuencia usadas en el bloque de codificación
de audiofrecuencia. Los tamaños de tratamiento con N mayor que el
tamaño del bloque de codificación de audiofrecuencia podrían ser
convenientes para proporcionar datos adicionales de audiofrecuencia
fuera del bloque de codificación de audiofrecuencia para uso en el
tratamiento con escalamiento de tiempo. Estos datos adicionales se
podrían usar, por ejemplo, para compensar por número de muestras
para el tratamiento con escalamiento de tiempo realizado con el fin
de mejorar la ubicación de un transitorio.
La primera etapa 202 en el proceso de la Figura
6 comprueba la disponibilidad de N muestras de datos de
audiofrecuencia para tratamiento con escalamiento de tiempo. Estas
muestras de datos de audiofrecuencia podrían ser, por ejemplo, un
archivo de un disco duro basado en PC o una memoria intermedia de
datos en un dispositivo de hardware. Los datos de audio se podrían
haber provisto también mediante un proceso de codificación de
audiofrecuencia a baja velocidad de transferencia de bits que llama
al procesador con escalamiento de tiempo antes de la codificación
de audiofrecuencia Si se dispone de N muestras de datos de
audiofrecuencia, se pasan (etapa 204) y luego se usan por el
proceso de pre-tratamiento con escalamiento de
tiempo en las etapas siguientes.
La tercera etapa 206 en el proceso de
pre-tratamiento es detectar la ubicación de señales
transitorias de datos de audiofrecuencia que tengan probabilidades
de introducir artefactos de pre-ruido. Se dispone de
muchos procesos diferentes para realizar esta función, y su
implementación específica no es crítica siempre que proporcione una
detección precisa de señales transitorias que tengan probabilidades
de introducir artefactos de pre-ruido. Hay muchos
procesos de codificación de audiofrecuencias que realizan la
detección de transitorios de señales de audiofrecuencia, y esta
etapa se puede pasar por alto si el proceso de codificación de
audiofrecuencia proporciona la información de transitorios al
bloque subsiguiente 210 de tratamiento con escalamiento de tiempo
junto con los datos de audiofrecuencia de
entrada.
entrada.
Un método adecuado para realizar detección de
transitorios de señales de audiofrecuencia es el siguiente. La
primera etapa en el análisis de la detección de transitorios es
filtrar los datos de entrada (tratando las muestras de datos como
una función de tiempo). Los datos de entrada podrían por ejemplo,
filtrarse con un filtro de paso alto de armónicos de 2º orden con
una frecuencia de corte a 3 dB de aproximadamente 8kHz. Las
características del filtro no son críticas. Estos datos filtrados se
usan luego en el análisis de transitorios. La filtración de los
datos de entrada aísla los transitorios de alta frecuencia y los
hace más fáciles de identificar. A continuación, los datos de
entrada filtrados se tratan en sesenta y cuatro
sub-bloques (en el caso de un bloque de muestras de
señal de 4.096 muestras) de aproximadamente 1,5 mseg. (o 64 muestras
a 44,1 kHz) como se muestra en la Figura 7. Aunque el tamaño real
del sub-bloque que se trata no se limita a 1,5
mseg. y podría variar, este tamaño aporta un buen compromiso entre
los requisitos de tratamiento en tiempo real (porque los tamaños de
bloque mayores requieren menos gastos generales de tratamiento) y la
resolución de la ubicación de transitorios (los bloques más
pequeños proporcionan una información más detallada sobre la
ubicación de transitorios). El uso de bloques de muestras de señales
de 4.096 muestras y el uso de sub-bloques de 64
muestras es simplemente un ejemplo y no es crítico para el
invento.
invento.
La etapa siguiente del tratamiento de detección
de transitorios es realizar una filtración de paso bajo de los
valores de los máximos datos absolutos contenidos en cada
sub-bloque de 64 muestras. Este tratamiento se
realiza para suavizar los máximos datos absolutos y proporcionar una
indicación general de los valores medios de cresta en la memoria
intermedia de entrada a los que se puede comparar el valor real de
cresta de la sub-memoria intermedia. El método
descrito más adelante es un método de hacer la suavización.
Para suavizar los datos, se explora cada
sub-bloque de 64 muestras para el valor de señal de
máximos datos absolutos. El valor de señal de máximos datos
absolutos se usa luego para calcular un valor de cresta de media
móvil suavizado. Las medias móviles de alta frecuencia, filtradas,
para cada sub-memoria intermedia k-ésima hi_mavg
(k) respectivamente, se calculan usando las ecuaciones 1 y 2.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde hi_mavg (0) se ajusta igual a
hi_mavg (64) de la memoria intermedia de entrada anterior para
tratamiento continuo. En la implementación actual, el parámetro
AVG:WHT se ajusta igual a 0,25. Este valor se decidió después de
seguir un análisis experimental usando un amplio intervalo de
material común de
audiofrecuencia.
A continuación el proceso de detección de
transitorios compara el valor de cresta en cada
sub-bloque con el conjunto de valores de cresta de
medias móviles suavizados para determinar si existe un transitorio.
Aunque existen una serie de métodos para comparar estas dos
medidas, la solución indicada más adelante se tomó porque permite
sintonizar la comparación mediante el uso de un factor de escala que
se ha configurado para realizar en condiciones óptimas según se
determine mediante un análisis de una amplia gama de señales de
audiofrecuencia.
El valor de cresta en el
sub-bloque k-ésimo, para los datos filtrados, se
multiplica por el valor de escalamiento de alta frecuencia
HI_FREQ_SCALE, y se compara con el valor de cresta medio móvil
calculado suavizado de cada k. Si un valor de cresta escalado de
sub-bloque es mayor que el valor medio móvil, se
señaliza un transitorio como que está presente. Estas comparaciones
se esquematizan más adelante en las Ecuaciones 3 y 4.
A continuación de la detección de transitorios,
se hicieron varias comprobaciones correctoras para determinar si la
señalización de transitorio para un sub-bloque de
64 muestras debería eliminarse (reposición de VERDADERO a FALSO).
Estas comprobaciones se realizaron con el fin de reducir las
detecciones de transitorios falsos. En primer lugar, si los valores
de cresta de alta frecuencia caen por debajo de un valor de cresta
mínimo, entonces se elimina el transitorio (para atender a
transitorios de bajo nivel). En segundo lugar, si el valor de
cresta en un sub-bloque dispara un transitorio,
pero no es significativamente mayor que el
sub-bloque anterior, que también habría disparado
una señalización de transitorio, entonces se elimina el transitorio
presente en el sub-bloque actual. Esto reduce un
deterioro de la información en la ubicación de un transitorio.
Refiriéndose otra vez a la Figura 6, la etapa
siguiente 208 en el proceso es determinar si existen transitorios
en el grupo de datos de entrada de N muestras actuales. Si no
existen transitorios, los datos de entrada se podrían descargar
como salida (o volverse a pasar hacia atrás a un codificador de
audiofrecuencia de baja velocidad de transferencia de datos) sin
realizarse un tratamiento de escalamiento en el tiempo. Si los
transitorios sí existen, el número de transitorios que existen en
las N muestras actuales de datos de audiofrecuencia y su ubicación
(o sus ubicaciones) se pasan a la parte 210 de tratamiento de
audiofrecuencia con escalamiento de tiempo del proceso para la
modificación temporal de los datos de audiofrecuencia de entrada. El
resultado de un tratamiento adecuado con escala de tiempo se expone
en relación con la descripción de las Figuras 8A-8E.
Nótese que el proceso requiere información del codificador en
cuanto a, por ejemplo, la ubicación de los bloques de muestras con
ventana con respecto al tren de señales de datos de audiofrecuencia.
Si, opcionalmente, se descarga como salida la información de
metadatos con escalamiento de tiempo (como se muestra en la Figura
6), para el caso de que no existan transitorios indicaría que no se
ha realizado pre-tratamiento. Los metadatos con
escalamiento de tiempo podrían incluir, por ejemplo, parámetros con
escalamiento de tiempo tales como la ubicación y la cantidad
realizada de escalamiento de tiempo y, si la técnica de
escalamiento de tiempo ha empleado la transición gradual de
segmentos de audiofrecuencia empalmados, la longitud de la
transición gradual. Los metadatos contenidos en el tren de bits de
audiofrecuencia codificados podría incluir también información
sobre transitorios, incluyendo su ubicación después de y/o antes de
y después de un cambio temporal. Los datos de audiofrecuencia se
descargan como salida en la etapa 212.
Las Figuras 8a-8e ilustran un
ejemplo de pre-tratamiento de audiofrecuencia con
escalamiento de tiempo de acuerdo con aspectos del presente
invento cuando existe un transitorio en un bloque de codificación de
audiofrecuencia que esté situado más cerca del extremo del último
bloque con ventana que del extremo del siguiente bloque con
ventana. Para este ejemplo, se supone una solapa de bloques del 50%,
de la manera que en las Figuras 1a-1e y Figuras 4a
y 4b. Según se ha indicado anteriormente, para reducir la magnitud
de pre-ruido de transitorios introducida por una
codificación de audiofrecuencia a baja velocidad de transferencia de
bits, se desea ajustar la evolución de tiempo de la señal de
audiofrecuencia de entrada de tal manera que el transitorio de la
señal de audiofrecuencia esté ubicado siguiendo muy de cerca al
extremo del último bloque con ventana. Se prefiere dicho cambio en
la ubicación del transitorio, porque minimiza la interrupción a la
evolución de tiempo del tren de señales al mismo tiempo que limita
de un modo óptimo la longitud del pre-ruido de
transitorio. Sin embargo, como se ha expuesto anteriormente, un
cambio a la ubicación que siga muy de cerca al extremo del
siguiente bloque con ventana limita también en un grado óptimo la
longitud del pre-ruido de transitorio pero no
minimiza la interrupción a la evolución en el tiempo del tren de
señales. En algunos casos, la diferencia en interrupción puede ser
de poca o de ninguna significación audible, en particular si se
emplea también la compensación por evolución en el tiempo. Por
tanto, en el presente ejemplo y en otros ejemplos de la presente
memoria se contemplan un cambio a cualquiera de los dos extremos de
bloque más próximos. Como se ha mencionado anteriormente, el tiempo
de transitorio que cambia el escalamiento de tiempo no necesita
cumplirse dentro de un bloque único, a no ser que el tratamiento se
lleve a cabo después que el codificador haya dividido en bloques el
tren de señales de audiofrecuencia.
La Figura 8a muestra tres bloques consecutivos
de codificación con ventana solapados en un 50%. La Figura 8b
presenta la relación entre el tren original de datos de
audiofrecuencia de entrada, que contiene un solo transitorio y los
bloques de codificación de audiofrecuencia con ventana. El comienzo
del transitorio es T muestras después del extremo del bloque
precedente. Como el transitorio está más cerca del extremo del
bloque precedente que del extremo del bloque siguiente, se
prefiere cambiar el transitorio a la izquierda a una ubicación que
siga muy de cerca al extremo del bloque precedente mediante la
aplicación de compresión de tiempo que tiene el efecto de eliminar
las T muestras anteriores al transitorio. La Figura 8c presenta dos
regiones en el tren de audiofrecuencia en las que podría realizarse
el escalamiento de tiempo de la audiofrecuencia. La primera
región corresponde a las muestras de audiofrecuencia situadas antes
del transitorio, en donde la reducción de la duración de la
audiofrecuencia en T muestras "desliza" o cambia la posición
del transitorio de la izquierda a la ubicación deseada siguiendo
muy de cerca al extremo del bloque precedente mediante la provisión
de la compresión de tiempo. Como se ve en las Figuras 2A a 5B y en
otras figuras que se describirán más adelante, la separación del
transitorio del extremo de bloque en las Figuras 8d y 8e se ha
exagerado para claridad de la presentación. La segunda región
muestra la región donde el escalamiento de tiempo se podría
realizar opcionalmente después del transitorio para aumentar la
duración de la audiofrecuencia en T muestras mediante la provisión
de expansión de tiempo, de tal manera que la longitud total de los
datos de audiofrecuencia permanece en N muestras. Aunque la
eliminación de T muestras y la adición opcional de la compensación
de número de muestras de T muestras se han mostrado como que
ocurren dentro de un bloque de muestras de codificación de
audiofrecuencia con ventana, esto no es esencial - el proceso de
compensación con escalamiento de tiempo no necesita ocurrir
dentro de un solo bloque de codificación de audiofrecuencia, a no
ser que el cambio de tiempo del transitorio se realice después de
que el codificador haya dividido en bloques el tren de señales de
audiofrecuencia. La ubicación óptima para dicho proceso de
escalamiento de tiempo se podría determinar mediante el proceso de
traslado a la escala de tiempos que se haya empleado. Como el
transitorio podría proveer un post-enmascaramiento
útil, preferiblemente el escalamiento de tiempo con compensación
por número de muestras se realiza muy cerca del
transitorio.
transitorio.
La Figura 8d demuestra el tren de señales
resultante si se realiza el procesamiento del escalamiento de
tiempo sobre el tren de datos de audiofrecuencia de entrada mediante
la reducción de la duración de tiempo del tren de datos de entrada
de audiofrecuencia en T muestras en el área situada antes del
transitorio y no se realiza una expansión de la escala de tiempos
con compensación por número de muestras después de la señal del
transitorio. Según se ha expuesto anteriormente, para la mayor parte
de los oyentes no son discernibles pequeñas variaciones en la
evolución temporal de una señal de audiofrecuencia. Por tanto, no se
requiere que el número de muestras de trenes de datos de
audiofrecuencia escaladas en el tiempo sea igual al número de
muestras de entrada, N; podría ser suficiente solamente tratar el
tren de audiofrecuencia antes del transitorio. La Figura 8e ilustra
el caso cuando el tren de datos de audiofrecuencia situado antes del
transitorio se reduce en duración por T muestras y el tren de datos
de audiofrecuencia que sigue al transitorio se aumenta por T
muestras, manteniéndose de ese modo N muestras de audiofrecuencia
dentro y fuera del bloque de tratamiento con escalamiento de
tiempo y restableciendo la evolución en el tiempo del tren de
señales de audiofrecuencia excepto para el transitorio y las partes
del tren de señales muy próximas al transitorio. Las variaciones en
las longitudes de las formas de onda de señales de las Figuras
8b-8e están destinadas a mostrar esquemáticamente
que el número de muestras contenidas en el tren de datos de
audiofrecuencia varía para las condiciones descritas. Cuando se
reduce el número de muestras de audiofrecuencia, como ocurre en la
Figura 8d, podría necesitarse adquirir muestras adicionales antes
de poder realizar una codificación adicional de audiofrecuencia.
Esto podría significar la extracción de más muestras de un archivo
o esperar que se introdujesen en una memoria intermedia más
señales de audiofrecuencia en un sistema en tiempo real.
Las Figuras 9a-9e ilustran un
ejemplo de tratamiento de audiofrecuencia con escalamiento de
tiempo cuando existe un transitorio en un bloque de codificación de
audiofrecuencia con ventana y está situado aproximadamente T
muestras por delante de un extremo de bloque. Para reducir la
cantidad de pre-ruido de transitorio introducido
por la codificación de audiofrecuencia a baja velocidad de
transferencia de bits al mismo tiempo que se minimiza el cambio de
transitorio, se prefiere ajustar temporalmente la señal de
audiofrecuencia de entrada de tal manera que el transitorio de la
señal de audiofrecuencia siga muy de cerca al extremo del bloque
siguiente. En el caso de bloques solapados al 50%, un cambio hasta
el final del extremo del bloque siguiente (o al extremo del bloque
anterior) limita el pre-ruido del transitorio a la
primera mitad de un bloque de codificación de audiofrecuencia, en
lugar de dispersar el pre-ruido del transitorio a lo
largo de todo el bloque y del bloque anterior de
audiofrecuencia.
La Figura 9a presenta tres bloques consecutivos
de codificación con ventana, solapados en un 50%. La Figura 9b
muestra la relación entre los datos originales de audiofrecuencia de
entrada, que contienen un solo transitorio, y los bloques de
audiofrecuencia. El comienzo del transitorio es T muestras antes del
extremo del bloque siguiente. Como el transitorio está más cerca
del extremo del bloque siguiente que del extremo del bloque
anterior, se prefiere cambiar el transitorio a la derecha hasta una
ubicación que siga muy de cerca al extremo del bloque siguiente
mediante la aplicación de una expansión de tiempo que tiene el
efecto de añadir T muestras antes del transitorio. La Figura 9c
muestra dos regiones donde se podría realizar el escalamiento de
tiempo de la audiofrecuencia. La primera región corresponde a las
muestras de audiofrecuencia situadas antes del transitorio, donde
el aumento de la duración de la audiofrecuencia en T muestras
desliza la posición del transitorio hasta la ubicación deseada muy
cerca después del extremo del bloque siguiente. La Figura 9 presenta
también la región en la que se podría realizar el escalamiento de
tiempo después del transitorio, para reducir la duración de la
audiofrecuencia en T muestras, de tal manera que la longitud total
del tren de datos de audiofrecuencia, N muestras, permanece
constante. La Figura 9d demuestra el resultado si el procesamiento
del escalamiento de tiempo se realiza sobre el tren de datos de
audiofrecuencia de entrada mediante el aumento de la duración de
tiempo del tren de datos de entrada de audiofrecuencia en T muestras
en la región de tiempo situada antes del transitorio pero sin
realizar una expansión de escala de tiempo con compensación por el
número de muestras después de la señal del transitorio. Según se ha
expuesto anteriormente, para la mayoría de los oyentes no son
discernibles pequeñas variaciones en la evolución temporal de una
señal de audiofrecuencia. Por tanto, no se requiere que el número
de muestras de tren de audiofrecuencia después del escalamiento de
tiempo sea igual a la entrada, N. Podría ser suficiente tratar la
audiofrecuencia antes del transitorio.
La Figura 9e ilustra el caso cuando la
audiofrecuencia anterior al transitorio se aumente en duración en T
muestras y la audiofrecuencia que sigue al transitorio se reduce en
T muestras, manteniéndose de ese modo un número constante de
muestras de audio antes y después del escalamiento de tiempo. Como
en las otras figuras, se ha exagerado la separación del transitorio
del extremo de bloque de las Figuras 9d y 9e para mayor claridad de
la presentación.
Dependiendo de la longitud del tamaño de bloques
de codificación de audiofrecuencia y del contenido de los datos de
audiofrecuencia que se codifican, es posible que un tren de datos
de audiofrecuencia de entrada que se está tratando contenga, dentro
de las N muestras que se están tratando, más de una señal de
transitorio que podría introducir artefactos con
pre-ruido. Como se ha mencionado anteriormente, las
N muestras que se están tratando podrían incluir más de un bloque
de codificación de audiofrecuencia.
Las Figuras 10a-10d ilustran
soluciones de tratamiento cuando se producen dos transitorios en un
bloque de codificación de audiofrecuencia. En general, se podrían
gestionar dos o más transitorios de la misma manera que un solo
transitorio, tratándose al transitorio más tempranero del tren de
datos de audiofrecuencia como el transitorio de interés.
La Figura 10a presenta tres bloques consecutivos
de codificación con ventana, solapados en un 50%. La Figura 10b
muestra el caso donde dos transitorios contenidos en la
audiofrecuencia de entrada ahorquillan el extremo de un bloque de
codificación de audiofrecuencia. Para este caso, el transitorio más
tempranero introduce el pre-ruido más perceptible,
porque una parte del pre-ruido que resulta del
segundo transitorio es post-enmascarado por el
primer transitorio. Para minimizar los artefactos de
pre-ruido, la señal de audiofrecuencia de entrada
se podría escalar en el tiempo para cambiar el primer transitorio a
la derecha de tal manera que la audiofrecuencia situada antes del
primer transitorio se ha expandido en la escala de tiempo en T
muestras, donde T es el número de muestras que coloca al primer
transitorio hasta una posición que sigue muy de cerca al extremo del
bloque siguiente.
Con el fin de compensar por número de muestras
para el tratamiento de expansión de escala de tiempo antes del
primer transitorio de la Figura 10b y de optimizar el
post-enmascaramiento del pre-ruido
resultante del segundo transitorio mediante el desplazamiento de
los transitorios muy cerca juntos en el tiempo, la señal de
audiofrecuencia que sigue al primer transitorio y que está antes del
segundo transitorio preferiblemente se escala en el tiempo para
reducir en duración por T muestras. Según se ha ilustrado en la
Figura 10b, hay suficientes datos de tratamiento de audiofrecuencia
entre el primero y el segundo transitorio para realizar el
tratamiento de escala de tiempo. Sin embargo, en algunos casos quizá
el segundo transitorio esté tan próximo al primer transitorio que
no hay suficientes datos de audiofrecuencia para realizar el
tratamiento de escala de tiempo entre ellos. La cantidad de datos
de audiofrecuencia requeridos entre transitorios depende del proceso
de escalamiento de tiempo usado para el tratamiento. Si existen
insuficientes datos de audiofrecuencia entre los dos transitorios,
podría ser necesario expandir con escala de tiempo los datos de
audiofrecuencia que sigan al segundo transitorio con el fin de
proveer una compensación por número de muestras. Con el fin de
realizar la expansión de los datos de audiofrecuencia después del
segundo transitorio, podría ser necesario que el proceso de
escalamiento de tiempo tenga acceso a un segmento más ancho de datos
de audiofrecuencia que el número de muestras contenidas en un
bloque usadas en el proceso de codificación de audiofrecuencia,
como se ha mencionado anteriormente.
La Figura 10c ilustra el caso en que el primer
transitorio está más próximo al extremo del último bloque que al
extremo del bloque siguiente y todos los transitorios (en este caso
dos) están tan suficientemente próximos conjuntamente que el
pre-ruido resultante del primer transitorio está
sustancialmente post-enmascarado por el primer
transitorio. De este modo, el tren de audiofrecuencia anterior al
primer transitorio está comprimido con escala de tiempo por T
muestras, de tal manera que el primer transitorio se cambia a una
ubicación justo después del extremo del bloque anterior. La
compensación por número de muestras para restablecer el número
original de muestras, en la forma de expansión con escala de tiempo,
podría realizarse en el tren de datos de audiofrecuencia que sigue
al segundo
transitorio.
transitorio.
La Figura 10d ilustra el caso en que el primer
transitorio está más próximo al extremo del bloque siguiente que al
extremo del bloque anterior y todos los transitorios (en este caso,
dos) están suficientemente tan próximos entre sí que el
pre-ruido resultante del segundo está
sustancialmente post-enmascarado por el primer
transitorio. De este modo, el tren de audiofrecuencia anterior al
primer transitorio se expande con escala de tiempo por T
muestras, de tal manera que el primer transitorio se cambia a una
ubicación justo después del extremo del bloque siguiente. La
compensación por número de muestras, en la forma de compresión con
escala de tiempo, podría realizarse opcionalmente en el tren de
datos de audiofrecuencia que sigue al segundo transitorio.
Para el caso de múltiples transitorios, si se
desea compensar por evolución en el tiempo para
pre-tratar de una manera casi perfecta, se podría
transportar información de metadatos con cada bloque de
audiofrecuencia codificado de una manera similar al caso de un solo
transitorio anteriormente descrito.
Como se ha mencionado anteriormente, podría ser
conveniente aplicar, subsiguientemente a la transformación inversa
por un descodificador, un escalamiento de tiempo compensatorio al
tren de señales de audiofrecuencia después del transitorio, de tal
manera que la evolución en el tiempo del tren de señales de
audiofrecuencia tratadas sea sustancialmente igual que la del tren
original de señales de audiofrecuencia, restableciendo de ese
modo la evolución del tiempo original del tren de señales. Sin
embargo, en los estudios experimentales se ha demostrado que la
mayoría de los oyentes no perciben pequeñas modificaciones
temporales de la audiofrecuencia, y por tanto podría no ser
necesaria la compensación por evolución del tiempo. Asimismo, por
término medio, los transitorios se avanzan y retardan por igual y,
por tanto, sobre un período de tiempo suficientemente largo, el
efecto acumulativo sin compensación por evolución del tiempo podría
ser despreciable. Otra idea a considerar es que, dependiendo del
tipo de escalamiento de tiempo usado para el
pre-tratamiento, el procesamiento adicional de
compensación por evolución del tiempo podría introducir artefactos
audibles en la audiofrecuencia. Estos artefactos podrían surgir
debido a que el procesamiento de escalamiento de tiempo, en muchos
casos, no es un proceso perfectamente reversible. Dicho de otro
modo, la reducción de audiofrecuencia mediante una cantidad fija
usando un proceso de escalamiento de tiempo y luego expandiendo en
el tiempo posteriormente la misma audiofrecuencia podría introducir
artefactos audibles.
Una ventaja del tratamiento de audiofrecuencia
que contenga material de transitorios mediante escalamiento de
tiempo es que los artefactos de escalamiento de tiempo podrían
enmascararse por las propiedades de enmascaramiento temporal de las
señales de transitorios. Un transitorio de audiofrecuencia provee
enmascaramiento temporal hacia delante y hacia atrás. El material
de audiofrecuencia de transitorios "enmascara" material audible
tanto antes como después del transitorio, de tal manera que la
audiofrecuencia que precede y sigue directamente no es perceptible
para un oyente. El pre-enmascaramiento se ha medido,
es relativamente breve y dura solamente unos pocos milisegundos,
mientras que el post-enmascaramiento podría durar
más de 100 milisegundos. Por tanto, el tratamiento con compensación
por evolución de tiempo y por escalamiento de tiempo podría ser
inaudible debido a efectos de post-enmascaramiento
temporal. De ese modo, si se realiza, es ventajoso realizar la
compensación por evolución del tiempo y el escalamiento de tiempo
dentro de regiones temporalmente enmascaradas
Las Figuras 11a-11f muestran un
ejemplo en el que se ha realizado una compensación inteligente de
evolución de tiempo que sigue una transformación inversa en el
descodificador usando información de metadatos. Los metadatos
reducen enormemente la cantidad de análisis requerido para realizar
compensación de evolución de tiempo, porque indica dónde debería
realizarse el tratamiento de escalamiento de tiempo y la duración
del escalamiento de tiempo requerido. Como se ha explicado
anteriormente, el tratamiento de compensación de evolución de
tiempo está destinado a devolver la señal de audiofrecuencia
descodificada a su evolución temporal original en la que el tren de
señales, incluyendo el transitorio, tiene su ubicación original en
el tren de audiofrecuencia. La Figura 11a muestra tres bloques
consecutivos de codificación con ventana solapados al 50%. La Figura
11b presenta un tren de señales de entrada de audiofrecuencia antes
del pre-tratamiento que tiene un transitorio T
muestras después de un extremo de bloque. La Figura 11c muestra que
el tren de señales de audiofrecuencia de entrada se trata mediante
la eliminación de T muestras antes del transitorio para cambiar el
transitorio a una ubicación más tempranera. Las T muestras se suman
después del transitorio con el fin de dejar invariable el número de
muestras de datos de audiofrecuencia (compensación de número de
muestras). La Figura 11d presenta el tren de señales de
audiofrecuencia modificadas en el que el transitorio se ha cambiado
a una ubicación más tempranera y la audiofrecuencia que sigue al
transitorio se ha vuelto a cambiar a su ubicación original. La
Figura 11e muestra las regiones requeridas de escalamiento de tiempo
y de compensación de evolución de tiempo en las que la eliminación
de T muestras (compresión de tiempo) se compensa añadiendo T
muestras (expansión de tiempo) y la adición de T muestras
(expansión de tiempo) se compensa eliminando T muestras (compresión
de tiempo). El resultado, presentado en la Figura 11f, es una señal
de salida "casi perfecta" que tiene la misma evolución de
tiempo que la señal de entrada de la Figura 11a (sujeta
principalmente a imperfecciones en los procesos de escalamiento de
tiempo).
Como se ha demostrado en una serie de ejemplos
anteriores, aún con la ubicación óptima de un transitorio en un
bloque de codificación de audiofrecuencia, todavía se introduce
algún pre-ruido por el proceso del sistema de
codificación de audiofrecuencia a baja velocidad de transferencia de
bits. Según se ha indicado anteriormente, son preferibles bloques
de codificación de audiofrecuencia más largos sobre los bloques de
codificación más cortos, porque proporcionan mayor resolución de
frecuencia y un aumento de la ganancia de codificación. Sin
embargo, incluso si los transitorios se ubican de un modo óptimo
mediante un escalamiento de tiempo antes de la codificación de
audiofrecuencia (pre-tratamiento), a medida que
aumenta la longitud del bloque de codificación de audiofrecuencia,
aumenta también el pre-ruido. El
pre-enmascaramiento del pre-ruido
temporal de transitorios está en el orden de 5 milisegundos, que
corresponde a 240 muestras para audiofrecuencia muestreadas a 48
kHz. Esto implica que, para codificadores con tamaños de bloque
mayor de aproximadamente 512 muestras, el pre-ruido
de transitorio comienza a ser audible aún con ubicación óptima
(solamente la mitad se enmascara en el caso del bloque solapado al
50%). (Esto no tiene en cuenta la reducción de
pre-ruido de transitorios causada por efectos de
borde de ventana en los bloques de codificador).
Aunque el pre-ruido de
transitorios no se puede eliminar totalmente de un sistema de
codificación a baja velocidad de transferencia de bits, es posible
realizar un post-tratamiento con escalamiento de
tiempo (por sí solo o además de un pre-tratamiento)
sobre datos de audiofrecuencia que hayan experimentado
transformación inversa en un descodificador de audiofrecuencia a
baja velocidad de transferencia de bits basado en transformación
para reducir la cantidad de pre-ruido de
transitorios tanto si se aplica también
pre-tratamiento como si no se aplica. El
post-tratamiento con escalamiento de tiempo se
podría realizar o bien en conjunción con un descodificador de
audiofrecuencia a baja velocidad de transferencia de bits (es decir,
como parte del descodificador y/o mediante la recepción de
metadatos del descodificador y/o del codificador a través del
descodificador) o como un post-tratamiento
autónomo. Se prefiere el uso de metadatos porque la información útil
tal como la ubicación de transitorios con respecto a bloques de
codificación de audiofrecuencia, así como la longitud (o
longitudes) de bloque de codificación de audiofrecuencia están
fácilmente disponibles y se podrían pasar al proceso de
post-tratamiento por medio de los metadatos. Sin
embargo, el post-tratamiento se podría usar sin
interacción con un descodificador de audiofrecuencia a baja
velocidad de transferencia de bits. Ambos métodos se describen más
adelante.
La Figura 12 es un diagrama de flujo de un
proceso para realizar un post-tratamiento de
escalamiento de tiempo en conjunción con un descodificador de
audiofrecuencia a baja velocidad de transferencia de bits para
reducir los artefactos de pre-ruido de
transitorios. El proceso ilustrado en la Figura 12 supone que los
datos de entrada son datos de audiofrecuencia codificados a baja
velocidad de transferencia de bits (etapa 802). Siguiendo a la
descodificación de los datos comprimidos a señal de audiofrecuencia
(etapa 804), la señal de audiofrecuencia correspondiente a un
bloque (o a unos bloques) se envía al escalador de tiempos (etapa
806) junto con información de metadatos que es útil para reducir la
duración de pre-ruidos de transitorios. Esta
información podría incluir, por ejemplo, la ubicación de
transitorios, la longitud del bloque (o de los bloques) de
codificador de audiofrecuencia, la relación de los límites de
bloque de codificador a los datos de audiofrecuencia, y una longitud
deseada del pre-ruido de transitorio. Si está
disponible la ubicación de los transitorios con respecto a los
límites de bloque de codificador de audiofrecuencia, la ubicación
del artefacto de pre-ruido se podría estimar y
reducir con precisión mediante un post-tratamiento.
Como los transitorios sí que proveen cierto
pre-enmascaramiento temporal, podría no ser
necesario eliminar por completo el pre-ruido de
transitorio. Dando al proceso de post-tratamiento
con escalamiento de tiempo una longitud deseada de
pre-ruido, se podría conseguir cierto control sobre
la cantidad de pre-ruido que queda en la salida de
audiofrecuencia mediante la etapa 808. Los resultados de un
tratamiento adecuado con escala de tiempo para la etapa 806 se
describen más adelante en relación con la descripción de las
Figuras 13a-13c
Nótese que el post-tratamiento
podría ser útil tanto si se ha aplicado un
pre-tratamiento antes de la codificación como si no
se ha aplicado. Con independencia de dónde está ubicado el
transitorio con respecto a los extremos de bloque, existe cierto
pre-ruido de transitorio. Por ejemplo, como mínimo
es la mitad de la longitud de la ventana de codificación de
audiofrecuencia para el caso de solapa del 50%. Los tamaños mayores
de ventana todavía podrían introducir artefactos audibles. Mediante
la realización del post-tratamiento, es posible
reducir la longitud del pre-ruido aún más de lo que
se haya reducido mediante una ubicación óptima del transitorio con
respecto a los extremos de bloque antes de la cuantificación por el
codificador.
Las Figuras 13a-13c ilustran un
ejemplo de post-tratamiento para un solo transitorio
con el fin de reducir el artefacto de pre-ruido
presente después de la transformación inversa. Dependiendo de la
longitud de bloque de codificación, el pre-ruido,
incluso después del pre-tratamiento, si lo hay,
podría tener un tiempo mayor que podría enmascararse por los
efectos de enmascaramiento temporal del transitorio. Sin embargo,
como se muestra en la Figura 13b, mediante el uso de la información
de metadatos de ubicación de transitorio procedente del
descodificador, se podría identificar una región de audiofrecuencia
que contenga el pre-ruido en la que podría
reducirse el pre-ruido en longitud mediante el
escalamiento en el tiempo de la señal de audiofrecuencia para
reducir el pre-ruido por T muestras. El número T
podría elegirse de tal manera que la longitud del
pre-ruido se minimice para aprovechar el
pre-enmascaramiento, o bien podría elegirse con el
fin de eliminar el pre-ruido por completo o casi
por completo. Si se desea mantener el mismo número de muestras que
en la señal original, la señal de audiofrecuencia que sigue al
transitorio se podría expandir con escalamiento de tiempo por + T
muestras. Alternativamente, como se ha mostrado en relación con el
ejemplo de la Figura 16A, dicha compensación de número de muestras
se podría aplicar antes del pre-ruido, lo cual tiene
la ventaja de proveer también una compensación de evolución de
tiempo.
Debe hacerse notar que, si se realiza el
post-tratamiento en conjunción con el
pre-tratamiento con escalamiento de tiempo, se
podría minimizar la cantidad de interrupción adicional a la
evolución en el tiempo del tren de señales de audiofrecuencia de
salida. Como el pre-tratamiento con escalamiento de
tiempo anteriormente expuesto reduce la longitud del
pre-ruido a N/2 muestras para el caso de una solapa
del 50% (donde N es la longitud del bloque de codificación de
audiofrecuencia) se garantiza la introducción de menos de N/2
muestras de interrupción adicional de evolución de tiempo en la
audiofrecuencia de salida comparada con la señal de audiofrecuencia
de entrada original. En ausencia de pre-tratamiento,
el pre-ruido puede alcanzar hasta N muestras,
longitud del bloque de codificación para el caso de una solapa del
50%.
En algunos sistemas de codificación de
audiofrecuencia a baja velocidad de transferencia de bits, la
ubicación de los transitorios de señal podría no estar fácilmente
disponible si el codificador no transporta la información de
ubicación. Si ése es el caso, el descodificador o el proceso de
escalamiento de tiempo podrían, usando cualquier número de procesos
de detección de transitorios o el método eficaz anteriormente
descrito, realizar la detección de transitorios.
Según se ha mencionado anteriormente, en algunos
casos podría ser conveniente mejorar la calidad percibida de la
señal de audiofrecuencia que ha experimentado codificación a baja
velocidad de transferencia de bits usando sistemas de compresión
que no implementen un procesamiento con escalamiento de tiempo de
pre-ruido de transitorio
(pre-tratamiento). La Figura 14 esquematiza un
proceso para realizarlo.
La primera etapa 1402 comprueba la
disponibilidad de N muestras de datos de audiofrecuencia que han
experimentado codificación y descodificación de audiofrecuencia a
baja velocidad de transferencia de bits. Estas muestras de datos de
audiofrecuencia podrían pertenecer a un archivo en un disco duro de
un PC o a una memoria intermedia de datos de un dispositivo de
hardware. Si están disponibles N muestras de datos de
audiofrecuencia, se pasan al proceso de
post-tratamiento con escalamiento de tiempo mediante
la etapa 1404.
La tercera etapa 1406 en el proceso de
post-tratamiento con escalamiento de tiempo es la
identificación de la ubicación de señales de transitorio de datos
de audiofrecuencia que tengan probabilidades de introducir
artefactos de pre-ruido. Se dispone de muchos
procesos diferentes para realizar esta función, y su implementación
específica no es importante en tanto en cuanto provea una detección
precisa de las señales de transitorio que tengan probabilidades de
introducir artefactos de pre-ruido. Sin embargo, el
proceso descrito anteriormente es un método eficaz y preciso que
se podría usar.
La cuarta etapa 1408 es determinar si existen
transitorios en la agrupación actual de datos de entrada de N
muestras según se haya detectado por la etapa 1406. Si no existen
transitorios, los datos de entrada se podrían descargar como salida
mediante la etapa 1414 sin realizarse ningún tratamiento con
escalamiento de tiempo. Si existen transitorios, el número de
transitorios y su ubicación (o sus ubicaciones) se pasan a la etapa
de proceso de estimación de pre-ruido de
transitorios (1410) del proceso para identificar la ubicación y
duración del pre-ruido de transitorio.
Las etapas quinta y sexta (1410) en el
tratamiento implican estimar la ubicación y duración de los
artefactos de pre-ruido de transitorio y reducir su
longitud con el procesamiento con escalamiento de tiempo 1412. Dado
que, por definición, los artefactos de pre-ruido
están limitados a las regiones que preceden a transitorios en los
datos de audiofrecuencia, el área de exploración viene limitada por
la información facilitada por el proceso de detección de
transitorios. Como se muestra en la Figura 1, la longitud del
pre-ruido está limitada desde un mínimo de N/2
hasta un máximo de N muestras, donde N es el número de muestras de
audiofrecuencia en un bloque de codificación de audiofrecuencia
solapado en un 50%. Así, cuando N son 1.024 muestras y la
audiofrecuencia se muestrea a 48 kHz, el pre-ruido
de transitorio podría abarcar desde 10,7 mseg. hasta 21,3 mseg.
antes del comienzo del transitorio, dependiendo de la ubicación del
transitorio en el tren de señales de audiofrecuencia, que excede
significativamente a cualquier enmascaramiento temporal que pudiera
esperarse de la señales de transitorios. Alternativamente, en lugar
de estimar la longitud de los artefactos de
pre-ruido que preceden a un transitorio, se podría
aplicar la etapa 1410 suponiendo que los artefactos de
pre-ruido tengan una longitud por defecto.
Se podrían implementar dos soluciones para la
reducción de pre-ruidos de transitorios. La primera
supone que todos los transitorios contienen
pre-ruido, y por tanto las señales de
audiofrecuencia antes de cada transitorio se podrían escalar en el
tiempo (comprimir en el tiempo) por una cantidad predeterminada (por
defecto) que se base en una magnitud esperada de
pre-ruido por transitorio. Si se usa esta técnica,
se podría realizar una expansión de escala de tiempo de la
audiofrecuencia antes del pre-ruido temporal, para
proveer una compensación por número de muestras para el proceso de
escalamiento de tiempo con compresión de tiempo empleado para
reducir la longitud del pre-ruido, y para proveer
una compensación por evolución de tiempo (la expansión de tiempo
antes del pre-ruido que compensa por la compresión
de tiempo dentro del pre-ruido deja al transitorio
en o cerca de su ubicación temporal original). Sin embargo, si no
se conoce la ubicación exacta del pre-ruido, dicho
proceso de compensación por número de muestras podría aumentar
involuntariamente la duración de partes del componente d el
pre-ruido.
Las Figuras 15a-15c demuestran
una técnica que usa un valor por defecto para escalar en el tiempo
la señal de audiofrecuencia antes de cada transitorio con el fin de
reducir la duración del pre-ruido, pero no se
realiza la compensación por número de muestras. Como se muestra en
la Figura 15a, una señal de audiofrecuencia procedente de un
descodificador de audiofrecuencia a baja velocidad de transferencia
de bits tiene un transitorio precedido por un
pre-ruido. La Figura 15b muestra una longitud de
procesamiento por defecto que se usa como la cantidad de compresión
de tiempo a realizar por el proceso de escalamiento de tiempo. La
Figura 15c muestra el tren resultante de señales de audiofrecuencia
que tiene pre-ruido reducido. En este ejemplo, no
se ha realizado la compensación por evolución de tiempo para
devolver el transitorio a su ubicación original en el tren de datos
de audiofrecuencia. Sin embargo, de una manera similar a los
ejemplos de tratamiento anteriores, si se desea un número constante
de muestras de entrada a salida, se podría realizar un proceso de
expansión con escala de tiempos siguiendo al transitorio, similar
al ejemplo de la Figura 13b o, posiblemente, antes del
pre-ruido según se describe más adelante en relación
con el ejemplo de las Figuras 16a-16c. Sin embargo,
cuando se aplique una longitud de procesamiento por defecto, la
provisión de dicha compensación antes del pre-ruido
corre el riesgo de realizar el proceso de expansión de escala de
tiempo dentro del pre-ruido (aumentando así de un
modo no deseable la longitud del pre-ruido) si la
longitud real del pre-ruido excede a la longitud
por defecto. Además, en algunos casos, el
post-tratamiento podría no tener acceso al tren de
audiofrecuencia antes del pre-ruido - la
audiofrecuencia se podría haber descargado ya como salida con el fin
de reducir el tiempo de espera.
Una segunda técnica de reducción de
pre-ruido con post-tratamiento,
ilustrada en las Figuras 16a-16c, implica la
realización de un análisis del pre-ruido resultante
de un transitorio para determinar su longitud y procesar la
audiofrecuencia para que solamente se trate el segmento del
pre-ruido. Como se ha hecho notar anteriormente, el
pre-ruido del transitorio se produce cuando los
componentes de alta frecuencia del material de transitorios de
audiofrecuencia se contamina temporalmente por todo un bloque como
resultado del proceso de cuantificación realizado en el
codificador. Por tanto, un método sencillo de detección es filtrar
con paso alto la audiofrecuencia antes de un transitorio y medir la
energía de alta frecuencia. El comienzo del
pre-ruido de transitorio se identifica cuando el
pre-ruido de alta frecuencia, parecido a un ruido,
relacionado con el transitorio y causado por éste, excede de un
valor umbral predeterminado. Cuando se conocen el tamaño y la
ubicación del pre-ruido del transitorio, se podría
realizar una expansión con compensación por escala de tiempos antes
de la reducción de escala de tiempos del pre-ruido
para devolver la señal de audiofrecuencia a su evolución temporal
original y restablecer la evolución de tiempo del tren de señales
de audiofrecuencia sustancialmente a su condición original. El
invento no se limita a emplear detección de alta frecuencia. Se
podrían emplear otras técnicas para detectar o estimar la longitud
del pre-ruido.
En la Figura 16a, un tren de señales de
audiofrecuencia procedente de un descodificador de audiofrecuencia
a baja velocidad de transferencia de bits tiene un transitorio
precedido por un pre-ruido. La Figura 16 muestra
una longitud de tratamiento por compresión de tiempo que se usa como
la cantidad de reducción con escala de tiempos a realizar por el
proceso de escalamiento de tiempo basándose en una longitud estimada
de pre-ruido medida mediante el contenido de
audiofrecuencia de alta frecuencia en el bloque. La Figura 16b
presenta también el uso de la expansión de tiempo por T muestras
con el fin de restablecer la evolución original de tiempo del tren
de señales y también de restablecer el número original de muestras.
La figura 16c presenta el tren resultante de señales de
audiofrecuencia que tiene un pre-ruido reducido
junto con la evolución original de tiempo y el mismo número de
muestras que el tren original de señales.
El presente invento y sus diversos aspectos se
podrían implementar como funciones de software realizadas en
procesadores de señales digitales, ordenadores digitales programados
de uso general, y/u ordenadores digitales de uso especial. Las
interfaces entre los trenes de señales analógicas y digitales se
podrían realizar en un hardware apropiado y/o como funciones en
software y/o en microprograma.
Claims (2)
1. Un método para reducir los artefactos de
distorsión que preceden a un transitorio de señal en un tren de
señales de audiofrecuencia subsiguiente a una transformación
inversa, en el descodificador o en un sistema de codificación de
audiofrecuencia a baja velocidad de transferencia de bits basado en
transformación, que emplea bloques de codificación, cuyo método
comprende
recibir información de metadatos que es útil en
la reducción de la duración del pre-ruido del
transitorio, cuya información de metadatos incluye la ubicación de
transitorios, y
alterar la duración de tiempo de al menos una
parte de dichos artefactos de distorsión, en respuesta a dicha
información de metadatos, de tal manera que se reduce la duración de
tiempo de dichos artefactos de distorsión.
2. El método de la reivindicación 1, en el que
dicha información de metadatos incluye también una o más de: la
longitud del bloque (o de los bloques) de codificador de
audiofrecuencia, la relación entre los límites de bloque de
codificador con los datos de audiofrecuencia, y una longitud deseada
del pre-ruido del transitorio.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29028601P | 2001-05-10 | 2001-05-10 | |
US290286P | 2001-05-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2298394T3 true ES2298394T3 (es) | 2008-05-16 |
Family
ID=23115313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES02769666T Expired - Lifetime ES2298394T3 (es) | 2001-05-10 | 2002-04-25 | Mejora de sesiones transitorias de sistemas de codificacion de señales de audiofrecuencia a baja velocidad de transferencia de bits por reduccion de preruidos. |
Country Status (14)
Country | Link |
---|---|
US (1) | US7313519B2 (es) |
EP (1) | EP1386312B1 (es) |
JP (1) | JP4290997B2 (es) |
KR (1) | KR100945673B1 (es) |
CN (1) | CN1312662C (es) |
AT (1) | ATE387000T1 (es) |
AU (1) | AU2002307533B2 (es) |
CA (1) | CA2445480C (es) |
DE (1) | DE60225130T2 (es) |
DK (1) | DK1386312T3 (es) |
ES (1) | ES2298394T3 (es) |
HK (1) | HK1070457A1 (es) |
MX (1) | MXPA03010237A (es) |
WO (1) | WO2002093560A1 (es) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8063809B2 (en) | 2008-12-29 | 2011-11-22 | Huawei Technologies Co., Ltd. | Transient signal encoding method and device, decoding method and device, and processing system |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4134297A1 (de) * | 1991-10-17 | 1993-04-22 | Behringwerke Ag | Monoclonale antikoerper gegen mycoplasma pneumoniae, diese produzierende hybridome, verfahren zu deren herstellung sowie deren verwendung |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7461002B2 (en) * | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
DE60225130T2 (de) | 2001-05-10 | 2009-02-26 | Dolby Laboratories Licensing Corp., San Francisco | Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches |
US7171367B2 (en) * | 2001-12-05 | 2007-01-30 | Ssi Corporation | Digital audio with parameters for real-time time scaling |
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US20030182106A1 (en) * | 2002-03-13 | 2003-09-25 | Spectral Design | Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal |
JP4076887B2 (ja) * | 2003-03-24 | 2008-04-16 | ローランド株式会社 | ボコーダ装置 |
KR101058062B1 (ko) * | 2003-06-30 | 2011-08-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 잡음 부가에 의한 디코딩된 오디오의 품질 개선 |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
WO2005086139A1 (en) * | 2004-03-01 | 2005-09-15 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
US20090196126A1 (en) * | 2004-07-30 | 2009-08-06 | Dietmar Peter | Method for buffering audio data in optical disc systems in case of mechanical shocks or vibrations |
US7508947B2 (en) * | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
JP2006084754A (ja) * | 2004-09-16 | 2006-03-30 | Oki Electric Ind Co Ltd | 音声録音再生装置 |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
KR100750115B1 (ko) * | 2004-10-26 | 2007-08-21 | 삼성전자주식회사 | 오디오 신호 부호화 및 복호화 방법 및 그 장치 |
CA2610430C (en) * | 2005-06-03 | 2016-02-23 | Dolby Laboratories Licensing Corporation | Channel reconfiguration with side information |
US7562021B2 (en) | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
US7630882B2 (en) * | 2005-07-15 | 2009-12-08 | Microsoft Corporation | Frequency segmentation to obtain bands for efficient coding of digital media |
US7546240B2 (en) | 2005-07-15 | 2009-06-09 | Microsoft Corporation | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition |
TWI396188B (zh) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
US7917358B2 (en) * | 2005-09-30 | 2011-03-29 | Apple Inc. | Transient detection by power weighted average |
DE102006049154B4 (de) * | 2006-10-18 | 2009-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodierung eines Informationssignals |
CN101308655B (zh) * | 2007-05-16 | 2011-07-06 | 展讯通信(上海)有限公司 | 一种音频编解码方法与装置 |
CN101308656A (zh) * | 2007-05-17 | 2008-11-19 | 展讯通信(上海)有限公司 | 音频暂态信号的编解码方法 |
JP5021809B2 (ja) * | 2007-06-08 | 2012-09-12 | ドルビー ラボラトリーズ ライセンシング コーポレイション | アンビエンス信号成分とマトリックスデコードされた信号成分とを制御可能に結合することによるサラウンドサウンドオーディオチャンネルのハイブリッド導出 |
US7761290B2 (en) * | 2007-06-15 | 2010-07-20 | Microsoft Corporation | Flexible frequency and time partitioning in perceptual transform coding of audio |
US8046214B2 (en) | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
CA2697920C (en) * | 2007-08-27 | 2018-01-02 | Telefonaktiebolaget L M Ericsson (Publ) | Transient detector and method for supporting encoding of an audio signal |
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
ES2666719T3 (es) * | 2007-12-21 | 2018-05-07 | Orange | Codificación/decodificación por transformada, con ventanas adaptativas |
CN101488344B (zh) * | 2008-01-16 | 2011-09-21 | 华为技术有限公司 | 一种量化噪声泄漏控制方法及装置 |
EP2296145B1 (en) * | 2008-03-10 | 2019-05-22 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Device and method for manipulating an audio signal having a transient event |
JP2010017216A (ja) * | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | 音声データ処理装置,音声データ処理方法、および、イメージング装置 |
ES2654433T3 (es) | 2008-07-11 | 2018-02-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de señal de audio, método para codificar una señal de audio y programa informático |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
US8380498B2 (en) * | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
US9384748B2 (en) * | 2008-11-26 | 2016-07-05 | Electronics And Telecommunications Research Institute | Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching |
EP2214165A3 (en) * | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
US8554348B2 (en) * | 2009-07-20 | 2013-10-08 | Apple Inc. | Transient detection using a digital audio workstation |
US8153882B2 (en) * | 2009-07-20 | 2012-04-10 | Apple Inc. | Time compression/expansion of selected audio segments in an audio file |
KR100940532B1 (ko) | 2009-09-28 | 2010-02-10 | 삼성전자주식회사 | 저비트율 복호화방법 및 장치 |
TWI443646B (zh) | 2010-02-18 | 2014-07-01 | Dolby Lab Licensing Corp | 音訊解碼器及使用有效降混之解碼方法 |
EP2372703A1 (en) * | 2010-03-11 | 2011-10-05 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window |
CN102222505B (zh) * | 2010-04-13 | 2012-12-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
FR2961938B1 (fr) * | 2010-06-25 | 2013-03-01 | Inst Nat Rech Inf Automat | Synthetiseur numerique audio ameliore |
ES2585587T3 (es) | 2010-09-28 | 2016-10-06 | Huawei Technologies Co., Ltd. | Dispositivo y método para post-procesamiento de señal de audio multicanal decodificada o de señal estéreo decodificada |
WO2012040898A1 (en) | 2010-09-28 | 2012-04-05 | Huawei Technologies Co., Ltd. | Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal |
WO2013075753A1 (en) * | 2011-11-25 | 2013-05-30 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
US9064503B2 (en) | 2012-03-23 | 2015-06-23 | Dolby Laboratories Licensing Corporation | Hierarchical active voice detection |
CN105378835B (zh) | 2013-02-20 | 2019-10-01 | 弗劳恩霍夫应用研究促进协会 | 使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法 |
US20150179181A1 (en) * | 2013-12-20 | 2015-06-25 | Microsoft Corporation | Adapting audio based upon detected environmental accoustics |
KR20160119859A (ko) * | 2014-02-10 | 2016-10-14 | 아우디맥스, 엘엘씨 | 개선된 잡음 내성을 갖는 통신 시스템들, 방법들 및 디바이스들 |
PL232466B1 (pl) * | 2015-01-19 | 2019-06-28 | Zylia Spolka Z Ograniczona Odpowiedzialnoscia | Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio |
EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
US10726851B2 (en) * | 2017-08-31 | 2020-07-28 | Sony Interactive Entertainment Inc. | Low latency audio stream acceleration by selectively dropping and blending audio blocks |
Family Cites Families (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4624009A (en) | 1980-05-02 | 1986-11-18 | Figgie International, Inc. | Signal pattern encoder and classifier |
US4464784A (en) | 1981-04-30 | 1984-08-07 | Eventide Clockworks, Inc. | Pitch changer with glitch minimizer |
US4723290A (en) | 1983-05-16 | 1988-02-02 | Kabushiki Kaisha Toshiba | Speech recognition apparatus |
US4792975A (en) | 1983-06-03 | 1988-12-20 | The Variable Speech Control ("Vsc") | Digital speech signal processing for pitch change with jump control in accordance with pitch period |
US4700391A (en) | 1983-06-03 | 1987-10-13 | The Variable Speech Control Company ("Vsc") | Method and apparatus for pitch controlled voice signal processing |
US5202761A (en) | 1984-11-26 | 1993-04-13 | Cooper J Carl | Audio synchronization apparatus |
USRE33535E (en) | 1985-09-16 | 1991-02-12 | Audio to video timing equalizer method and apparatus | |
US4703355A (en) | 1985-09-16 | 1987-10-27 | Cooper J Carl | Audio to video timing equalizer method and apparatus |
US5040081A (en) | 1986-09-23 | 1991-08-13 | Mccutchen David | Audiovisual synchronization signal generator using audio signature comparison |
US4852170A (en) | 1986-12-18 | 1989-07-25 | R & D Associates | Real time computer speech recognition system |
JPS63225300A (ja) | 1987-03-16 | 1988-09-20 | 株式会社東芝 | パタ−ン認識装置 |
GB8720527D0 (en) | 1987-09-01 | 1987-10-07 | King R A | Voice recognition |
US5055939A (en) | 1987-12-15 | 1991-10-08 | Karamon John J | Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track |
IL84902A (en) | 1987-12-21 | 1991-12-15 | D S P Group Israel Ltd | Digital autocorrelation system for detecting speech in noisy audio signal |
JP2739950B2 (ja) | 1988-03-31 | 1998-04-15 | 株式会社東芝 | パターン認識装置 |
WO1991019989A1 (en) | 1990-06-21 | 1991-12-26 | Reynolds Software, Inc. | Method and apparatus for wave analysis and event recognition |
US5313531A (en) | 1990-11-05 | 1994-05-17 | International Business Machines Corporation | Method and apparatus for speech analysis and speech recognition |
US5216744A (en) | 1991-03-21 | 1993-06-01 | Dictaphone Corporation | Time scale modification of speech signals |
FR2674710B1 (fr) * | 1991-03-27 | 1994-11-04 | France Telecom | Procede et systeme de traitement des preechos d'un signal audio-numerique code par transformee frequentielle. |
JP3134338B2 (ja) * | 1991-03-30 | 2001-02-13 | ソニー株式会社 | ディジタル音声信号符号化方法 |
US5175769A (en) | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
US5450522A (en) | 1991-08-19 | 1995-09-12 | U S West Advanced Technologies, Inc. | Auditory model for parametrization of speech |
US5621857A (en) | 1991-12-20 | 1997-04-15 | Oregon Graduate Institute Of Science And Technology | Method and system for identifying and recognizing speech |
JP3104400B2 (ja) * | 1992-04-27 | 2000-10-30 | ソニー株式会社 | オーディオ信号符号化装置及び方法 |
EP0608833B1 (en) | 1993-01-25 | 2001-10-17 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for performing time-scale modification of speech signals |
KR100372208B1 (ko) | 1993-09-09 | 2003-04-07 | 산요 덴키 가부시키가이샤 | 음성신호의시간축압축/신장방법 |
JP3186412B2 (ja) * | 1994-04-01 | 2001-07-11 | ソニー株式会社 | 情報符号化方法、情報復号化方法、及び情報伝送方法 |
JPH0863194A (ja) * | 1994-08-23 | 1996-03-08 | Hitachi Denshi Ltd | 残差駆動形線形予測方式ボコーダ |
JP3307138B2 (ja) * | 1995-02-27 | 2002-07-24 | ソニー株式会社 | 信号符号化方法及び装置、並びに信号復号化方法及び装置 |
US5920840A (en) | 1995-02-28 | 1999-07-06 | Motorola, Inc. | Communication system and method using a speaker dependent time-scaling technique |
US5730140A (en) | 1995-04-28 | 1998-03-24 | Fitch; William Tecumseh S. | Sonification system using synthesized realistic body sounds modified by other medically-important variables for physiological monitoring |
US5699404A (en) | 1995-06-26 | 1997-12-16 | Motorola, Inc. | Apparatus for time-scaling in communication products |
US6002776A (en) | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
FR2739736B1 (fr) * | 1995-10-05 | 1997-12-05 | Jean Laroche | Procede de reduction des pre-echos ou post-echos affectant des enregistrements audio |
US5960390A (en) * | 1995-10-05 | 1999-09-28 | Sony Corporation | Coding method for using multi channel audio signals |
WO1997019444A1 (en) | 1995-11-22 | 1997-05-29 | Philips Electronics N.V. | Method and device for resynthesizing a speech signal |
US5749073A (en) | 1996-03-15 | 1998-05-05 | Interval Research Corporation | System for automatically morphing audio information |
US5828994A (en) * | 1996-06-05 | 1998-10-27 | Interval Research Corporation | Non-uniform time scale modification of recorded audio |
JPH1074097A (ja) | 1996-07-26 | 1998-03-17 | Ind Technol Res Inst | オーディオ信号のパラメータを変更する方法及び装置 |
US6049766A (en) | 1996-11-07 | 2000-04-11 | Creative Technology Ltd. | Time-domain time/pitch scaling of speech or audio signals with transient handling |
US5893062A (en) | 1996-12-05 | 1999-04-06 | Interval Research Corporation | Variable rate video playback with synchronized audio |
DE19710545C1 (de) | 1997-03-14 | 1997-12-04 | Grundig Ag | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
US6211919B1 (en) | 1997-03-28 | 2001-04-03 | Tektronix, Inc. | Transparent embedment of data in a video signal |
TW357335B (en) | 1997-10-08 | 1999-05-01 | Winbond Electronics Corp | Apparatus and method for variation of tone of digital audio signals |
JP2001513225A (ja) | 1997-12-19 | 2001-08-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 伸長オーディオ信号からの周期性の除去 |
US6266003B1 (en) | 1998-08-28 | 2001-07-24 | Sigma Audio Research Limited | Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals |
US6266644B1 (en) | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
US6374225B1 (en) * | 1998-10-09 | 2002-04-16 | Enounce, Incorporated | Method and apparatus to prepare listener-interest-filtered works |
SE9903552D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching |
JP3430968B2 (ja) * | 1999-05-06 | 2003-07-28 | ヤマハ株式会社 | ディジタル信号の時間軸圧伸方法及び装置 |
JP3430974B2 (ja) * | 1999-06-22 | 2003-07-28 | ヤマハ株式会社 | ステレオ信号の時間軸圧伸方法及び装置 |
US6505153B1 (en) | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
EP1340317A1 (en) * | 2000-11-03 | 2003-09-03 | Koninklijke Philips Electronics N.V. | Parametric coding of audio signals |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7283954B2 (en) | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
JP4152192B2 (ja) | 2001-04-13 | 2008-09-17 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | オーディオ信号の高品質タイムスケーリング及びピッチスケーリング |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US20020116178A1 (en) | 2001-04-13 | 2002-08-22 | Crockett Brett G. | High quality time-scaling and pitch-scaling of audio signals |
DE60225130T2 (de) | 2001-05-10 | 2009-02-26 | Dolby Laboratories Licensing Corp., San Francisco | Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches |
MXPA03010749A (es) | 2001-05-25 | 2004-07-01 | Dolby Lab Licensing Corp | Comparacion de audio usando caracterizaciones basadas en eventos auditivos. |
MXPA03010751A (es) | 2001-05-25 | 2005-03-07 | Dolby Lab Licensing Corp | Segmentacion de senales de audio en eventos auditivos. |
US7346667B2 (en) | 2001-05-31 | 2008-03-18 | Ubs Ag | System for delivering dynamic content |
US20040122772A1 (en) | 2002-12-18 | 2004-06-24 | International Business Machines Corporation | Method, system and program product for protecting privacy |
-
2002
- 2002-04-25 DE DE60225130T patent/DE60225130T2/de not_active Expired - Lifetime
- 2002-04-25 JP JP2002590350A patent/JP4290997B2/ja not_active Expired - Lifetime
- 2002-04-25 MX MXPA03010237A patent/MXPA03010237A/es active IP Right Grant
- 2002-04-25 DK DK02769666T patent/DK1386312T3/da active
- 2002-04-25 WO PCT/US2002/012957 patent/WO2002093560A1/en active IP Right Grant
- 2002-04-25 US US10/476,347 patent/US7313519B2/en not_active Expired - Lifetime
- 2002-04-25 AT AT02769666T patent/ATE387000T1/de active
- 2002-04-25 ES ES02769666T patent/ES2298394T3/es not_active Expired - Lifetime
- 2002-04-25 AU AU2002307533A patent/AU2002307533B2/en not_active Expired
- 2002-04-25 KR KR1020037014462A patent/KR100945673B1/ko active IP Right Grant
- 2002-04-25 CN CNB028095421A patent/CN1312662C/zh not_active Expired - Lifetime
- 2002-04-25 EP EP02769666A patent/EP1386312B1/en not_active Expired - Lifetime
- 2002-04-25 CA CA2445480A patent/CA2445480C/en not_active Expired - Lifetime
-
2005
- 2005-04-08 HK HK05102947A patent/HK1070457A1/xx not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8063809B2 (en) | 2008-12-29 | 2011-11-22 | Huawei Technologies Co., Ltd. | Transient signal encoding method and device, decoding method and device, and processing system |
Also Published As
Publication number | Publication date |
---|---|
KR20040034604A (ko) | 2004-04-28 |
CN1552060A (zh) | 2004-12-01 |
EP1386312A1 (en) | 2004-02-04 |
CA2445480A1 (en) | 2002-11-21 |
MXPA03010237A (es) | 2004-03-16 |
JP2004528597A (ja) | 2004-09-16 |
AU2002307533B2 (en) | 2008-01-31 |
US20040133423A1 (en) | 2004-07-08 |
ATE387000T1 (de) | 2008-03-15 |
KR100945673B1 (ko) | 2010-03-05 |
CN1312662C (zh) | 2007-04-25 |
WO2002093560A1 (en) | 2002-11-21 |
DE60225130T2 (de) | 2009-02-26 |
JP4290997B2 (ja) | 2009-07-08 |
CA2445480C (en) | 2011-04-12 |
DE60225130D1 (de) | 2008-04-03 |
HK1070457A1 (en) | 2005-06-17 |
EP1386312B1 (en) | 2008-02-20 |
DK1386312T3 (da) | 2008-06-09 |
US7313519B2 (en) | 2007-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2298394T3 (es) | Mejora de sesiones transitorias de sistemas de codificacion de señales de audiofrecuencia a baja velocidad de transferencia de bits por reduccion de preruidos. | |
US10515652B2 (en) | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency | |
JP3224130B2 (ja) | 高品質オーディオ用符号器・復号器 | |
AU2002307533A1 (en) | Improving transient performance of low bit rate audio coding systems by reducing pre-noise | |
Sinha et al. | Audio compression at low bit rates using a signal adaptive switched filterbank | |
KR101632599B1 (ko) | 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법 | |
KR101376762B1 (ko) | 디코더 및 대응 디바이스에서 디지털 신호의 반향들의 안전한 구별과 감쇠를 위한 방법 | |
ES2654432T3 (es) | Codificador de señal de audio, método para generar una señal de audio y programa informático | |
EP1080542B1 (en) | System and method for masking quantization noise of audio signals | |
US20040186735A1 (en) | Encoder programmed to add a data payload to a compressed digital audio frame | |
EP2959479A1 (en) | Methods for parametric multi-channel encoding | |
RU2001123694A (ru) | Улучшение перцепционной характеристики дублирования полосы спектра и связанных способов кодирования высокочастотного восстановления путем адаптивного добавления минимального уровня шума и ограничения подстановки шумов | |
US8907822B2 (en) | Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window | |
US10170126B2 (en) | Effective attenuation of pre-echoes in a digital audio signal | |
CN105122357A (zh) | 频域中基于cpl进行编码的低频增强 | |
RU2665281C2 (ru) | Временное согласование данных обработки на основе квадратурного зеркального фильтра | |
KR100361720B1 (ko) | 고능율부호화방법및장치 | |
Zurera et al. | A new algorithm for translating psycho-acoustic information to the wavelet domain | |
Singh et al. | Audio watermarking based on quantization index modulation using combined perceptual masking | |
JP7279160B2 (ja) | サブバンド併合および時間領域エイリアシング低減を使用した適応的な非均一時間/周波数タイリングによる知覚音声符号化 | |
JP2002182695A (ja) | 高能率符号化方法及び装置 | |
Chen et al. | Fast time-frequency transform algorithms and their applications to real-time software implementation of AC-3 audio codec | |
Leslie et al. | Audio compression using wavelets | |
Ahmed et al. | A time domain based efficient block decision algorithm for audio coders |