ES2231090T3 - Codificador de audio con sub-bandas basado en la conmutacion de bloques. - Google Patents
Codificador de audio con sub-bandas basado en la conmutacion de bloques.Info
- Publication number
- ES2231090T3 ES2231090T3 ES00116221T ES00116221T ES2231090T3 ES 2231090 T3 ES2231090 T3 ES 2231090T3 ES 00116221 T ES00116221 T ES 00116221T ES 00116221 T ES00116221 T ES 00116221T ES 2231090 T3 ES2231090 T3 ES 2231090T3
- Authority
- ES
- Spain
- Prior art keywords
- blocks
- conversion
- acoustic signal
- short
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 111
- 238000006243 chemical reaction Methods 0.000 claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000011002 quantification Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 description 37
- 238000007906 compression Methods 0.000 description 37
- 238000010586 diagram Methods 0.000 description 27
- 230000000873 masking effect Effects 0.000 description 27
- 230000008569 process Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000006866 deterioration Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 5
- 230000001154 acute effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000002427 irreversible effect Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000002542 deteriorative effect Effects 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004800 psychological effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Un procedimiento para codificar una señal acústica digital que comprende las etapas de: - proporcionar el marco de una señal acústica digital a lo largo del eje del tiempo; - dividir dicho marco de la señal acústica digital en bloques mediante el uso de un ordenador; - poner en práctica procesamientos entre los que se incluyen la división en subbandas o la conversión al área de frecuencia para cada uno de los respectivos bloques; - dividir dicha señal acústica en una pluralidad de bandas de frecuencia; - asignar bits codificados a cada una de dichas bandas de frecuencia respectivas; - obtener un factor de escala correspondiente al número de bits codificados de los bits asignados; y - comprimir y codificar dicha señal acústica digital mediante la cuantificación de dicha señal acústica con dicho factor de escala; en el que, una vez que se ha llevado a cabo la conversión a dicha área de frecuencia, dicho marco de señal acústica dividida en bloques se convierte usando bien un bloque largo de conversión o bien una pluralidad de bloques cortos de conversión; en el que, cuando se emplean dichos bloques cortos de conversión, dicha pluralidad de bloques cortos de conversión se dividen en grupos de una pluralidad de bloques que incluyen respectivamente uno o una pluralidad de bloques cortos de conversión; y en el que dicha señal acústica se cuantifica, haciendo que uno o una pluralidad de bloques cortos de conversión incluidos en el mismo grupo corresponda a un factor de escala común.
Description
Codificador de audio con
sub-bandas basado en la conmutación de bloques.
La presente invención se refiere a un aparato de
codificación de señales acústicas digitales, un procedimiento de
codificación de una señal acústica digital y un programa de
ordenador para grabar un programa de codificación de la señal
acústica digital, en particular, la codificación por compresión de
una señal acústica digital que se utiliza, por ejemplo, en los DVD,
en la radiodifusión digital, etc.
Las técnicas ya conocidas relacionadas con los
contenidos anteriormente mencionados de la presente invención se
describen a continuación, resaltando, principalmente, en la
compresión de una señal acústica.
En la actualidad, dentro del campo de los
sistemas digitales de audio, el MP3 se ha hecho enormemente popular
con gran rapidez. MP3 es una abreviatura del procedimiento de
codificación por compresión de señales acústicas denominado
"MPEG-1 Audio Layer III". Mediante el empleo
del MP3, los datos de audio digital como los CD pueden comprimirse
hasta 1/11 sin deteriorar la calidad del sonido. Debido a la
conveniencia de comprimir datos acústicos extensos (volumen) con
compacidad y transmitir los datos comprimidos en un período de
tiempo breve, el MP3 comenzó a popularizarse, primero, en el campo
de Internet. En la actualidad, los aparatos reproductores de MP3
comienzan a anunciarse sin cesar por sus respectivas compañías
fabricantes, y algunas empresas distribuidoras de música comienzan a
funcionar.
Por otro lado, incluso en el campo de la
radiodifusión, de acuerdo con el desarrollo de la digitalización, la
adopción de la tecnología de compresión de señales de sonido
(señales acústicas) ha avanzado significativamente. En la
actualidad, la radiodifusión CS emplea el procedimiento de
MPEG-2 Audio BC. Además, está previsto el empleo del
procedimiento de MPEG-2 Audio AAC en la BS o la
radiodifusión digital de onda de tierra, que comenzará, en ambos
casos, en el año 2000 o los años siguientes.
Las cuestiones anteriormente mencionadas se
refieren a la tecnología perteneciente a la norma internacional de
compresión de señales acústicas, todo ello denominado "MPEG
Audio". Aparte de MPEG Audio, por ejemplo, los procedimientos de
compresión de señales acústicas, Dolby Digital
(AC-3) y ATRAC, se emplean respectivamente para DVD
y MD.
Como se ha expuesto anteriormente, la tecnología
de codificación por compresión de señales digitales de audio se ha
vuelto cada vez más conocida. A continuación, se describen la
tecnología fundamental del procedimiento de compresión de señales
acústicas y la reciente tendencia de la misma.
En el procedimiento de compresión de señales
acústicas, las señales acústicas se clasifican, en su mayoría, en
"sonido vocal" y "sonido musical". En la presente
invención, el sonido vocal significa la voz humana y el sonido
musical no sólo significa la voz humana sino la señal acústica en
general, incluidos la música, el sonido ambiente, el sonido natural,
etc. La razón por la que debe clasificarse el sonido es que el
objeto y la tecnología utilizada de la codificación difieren entre
sí.
En el procedimiento de codificación de sonidos de
voz, la señal de voz humana con un rango de muestreo bajo de casi
8-16 KHz se comprime para su uso en el rango de bits
bajo, como por ejemplo, el circuito de teléfono. Por otro lado, en
el procedimiento de codificación de sonidos musicales, la señal
acústica de rango de muestreo alto de casi 32-96 KHz
se comprime con la calidad de sonido más alta posible. En el primer
procedimiento, no puede evitarse el deterioro de la calidad del
sonido en comparación con el sonido original, mientras que, en el
segundo procedimiento, puede lograrse la compresión del sonido
fundamentalmente no deteriorado. Tanto el MP3 como el AAC se
incluyen en la segunda codificación (codificación de sonidos
musicales). En el presente documento, se describe la tecnología de
la codificación de sonidos musicales.
El procedimiento de la compresión de información
digital se clasifica en dos métodos; éstos son la compresión
reversible y la compresión irreversible. En el primero, la señal
original puede reproducirse fielmente en el momento de la
descodificación. Sin embargo, en el segundo, se produce generalmente
una distorsión de la señal. En el procedimiento de codificación de
compresión de señales acústicas, se combinan ambos métodos
adecuadamente. En primer lugar, se describe el método de compresión
reversible.
En el presente documento, se describe el código
Huffman empleado también en el MPEG Audio como método representativo
de compresión reversible. La codificación de Huffman es el método en
el que se asigna un código corto y un código largo al valor de
frecuencia grande y al valor de frecuencia pequeño, respectivamente,
de acuerdo con la frecuencia aparente del valor de la señal
original, y la señal se comprime de tal manera que el valor del
código completo se hace lo más pequeño posible. El código con
longitud inconstante se denomina código de longitud variable,
mientras que el código con longitud igual (constante) para todos los
valores se denomina código de longitud fija. La señal original de la
compresión acústica es el código de longitud fija representado por
el número de bits de los respectivos valores constantes de las
muestras digitales (16 bits, en el caso de un CD).
La Fig. 21 muestra el ejemplo el código de
longitud fija y el código de Huffman, y la Fig. 28 muestra el
ejemplo de asignación del código a la fila de valores numéricos
reales utilizando los dos códigos anteriormente mencionados. Como
muestra la Fig. 21, para discriminar seis clases de valores de
señales originales diferentes con código de longitud fija, es
necesario asignar un código de al menos 3 bits a los respectivos
valores.
Por otro lado, a partir de la fila de valores
numéricos que muestra la Fig. 28, es evidente que, en el caso de que
la frecuencia aparente "2" sea la más grande (por ejemplo, 7
veces) y las frecuencias aparentes "1" y "5" sean las más
pequeñas (por ejemplo, una vez), en el presente documento, con
respecto al código de Huffman que muestra la Fig. 21, se asigna un
código de 2 bits a "2" y un código de 4 bits a "1" y
"5". Con respecto a los otros valores restantes, se asigna a
los mismos el código de la longitud correspondiente a las
respectivas frecuencias aparentes.
Como propiedad importante del código de Huffman,
la fila de señales originales puede descodificarse en un
significado. En el ejemplo de la Fig. 21, si la fila de códigos de
Huffman es "00110", la fila de señales originales es "20",
aparentemente. Puesto que la propiedad de descodificación de un
significado está garantizada, la codificación de Huffman es
reversible.
Como referencia, también se muestra en la Fig. 21
el ejemplo del código incapaz de descodificar en un significado. En
el ejemplo, cuando se recibe la fila de códigos "000001", es
imposible distinguir los significados de la señal original; éstos
son, "25", "13" ó "223". Además, el procedimiento de
construcción del código capaz de descodificar en un significado ya
se conoce. La descripción del mismo se omite en el presente
documento.
Ahora, en el caso de asignarse el código de
longitud fija que se muestra en la Fig. 21 a la fila de valores
numéricos que se muestra en (a) de la Fig. 28, la fila de códigos se
convierte en la que se muestra en (b) de la Fig. 28, y la cantidad
completa de códigos pasa a ser 3 x 20 = 60 bits. Por otro lado, en
el caso de asignarse el código de Huffman que se muestra también en
la Fig. 21 a la fila de valores numéricos que se muestra en (a) de
la Fig. 28, la fila de códigos se convierte en la que se muestra en
(c) de la Fig. 28, y la cantidad completa de códigos pasa a ser más
pequeña (46) bits. De este modo, la cantidad completa de códigos se
reduce más en el caso de asignar el código de Huffman, en
comparación con el caso del código de longitud fija. Es decir,
cuando se emplea el código de Huffman, el valor de la señal original
puede reproducirse fielmente con una cantidad de códigos más
pequeña, en comparación con el código de longitud fija. No obstante,
existe una limitación en el factor de compresión, por ejemplo, casi
77% en el límite superior. Por lo tanto, en tal situación, es
imposible esperar un factor de compresión alto, por ejemplo 1/11,
como se mencionó anteriormente. Así pues, se requiere forzosamente
la tecnología de compresión irreversible. Por consiguiente, la
tecnología de cuantificación básica se describe más adelante.
La cuantificación significa el procedimiento de
clasificar el nivel del valor de la señal original en varias etapas
y hacer que los valores que representan los respectivos niveles se
correspondan con el valor de restablecimiento, valor
(descodificado). El procedimiento anteriormente mencionado se
describe con referencia al ejemplo de la Fig. 22.
Se da por sentado aquí que el valor de la señal
original se distribuye como el número entero 0^{-}59. Cuando el
valor se convierte en el código de longitud fija, tal como es con el
número binario, el valor respectivo tiene que expresarse con 6 bits.
En este ejemplo, el valor de la señal original se cuantifica en 6
niveles y se hace que corresponda a los respectivos valores de
restablecimiento (descodificados), como se muestra en la Fig.
22.
En el momento de la codificación, el valor de la
señal original se divide entre 10 y se elimina la parte de la
fracción decimal (recorte). El "10" anterior se denomina factor
de escala. La parte entera del cociente se limita a seis clases del
valor 0^{-}5. el procedimiento anterior se denomina la
"cuantificación". Como se muestra en la Fig. 22, basta con
expresar el valor con un código de longitud fija de 3 bits y así
puede conseguirse el factor de compresión del 50%. Además, si el
valor cuantificado se convierte al código Huffman correspondiente a
las respectivas frecuencias aparentes, el factor de compresión puede
mejorarse más. La Fig. 22 muestra como ejemplo el caso de la
asignación del código Huffman de la Fig. 21.
En relación con la descodificación, el valor
cuantificado se restablece (se descodifica) primero a partir del
código Huffman. Sin embargo, el procedimiento no puede llevarse a
cabo con un significado como se mencionó antes. Después, el valor
cuantificado se multiplica por el factor de escala "10"
anteriormente mencionado y se añade a "5=10/2". De este modo,
el valor se restablece (se descodifica). Sin embargo, el valor de la
señal original no coincide, en general, con el valor restablecido y,
por lo tanto, se produce un error. Dicho error se denomina "error
de cuantificación". En la Fig. 23 se muestra el ejemplo concreto
del número.
De este modo, en caso de utilizar la
cuantificación, el valor de la señal original no puede restablecerse
completamente. En ese sentido, aunque la cuantificación sea
irreversible, el factor de compresión de la misma puede mejorarse,
debido a dicha cuantificación irreversible. Además, el alcance de la
compresión corresponde al número de niveles de la cuantificación.
Cuanto menor es el número de niveles, más se puede comprimir la
señal acústica. Sin embargo, se incrementa el error medio de
cuantificación.
Ahora, hasta aquí, se ha descrito de manera
general la compresión de la información digital. Tanto el código
Huffman como la cuantificación, descritos hasta aquí, son la
tecnología más básica que se utiliza comúnmente para la compresión
no sólo de señales acústicas sino también de señales de imágenes
estáticas e imágenes dinámicas (en movimiento).
A continuación, se describen en lo sucesivo el
efecto de enmascaramiento y el error de cuantificación. En la
compresión de señales acústicas, el error de cuantificación
anteriormente mencionado provoca el deterioro de la calidad del
sonido. Por otro lado, en la codificación del sonido musical, es
preciso comprimir los datos de las señales acústicas para no
percibir el deterioro de la calidad del sonido.
En cuanto al procedimiento de determinación del
número óptimo de niveles de la cuantificación, la propiedad del
sentido del oído humano denominada "efecto de enmascaramiento"
se utiliza hábilmente. El efecto de enmascaramiento es un fenómeno
que consiste en que el sonido grande borra (apaga o extingue) el
sonido pequeño circundante. El fenómeno se ha vuelto ampliamente
conocido. Para explicarlo de una forma un poco más precisa, un
sonido fuerte con una frecuencia determinada borra un sonido débil
con otra frecuencia próxima a (en las proximidades de) la frecuencia
anterior.
En lo sucesivo, los detalles del efecto de
enmascaramiento anterior se describen más ampliamente. Se describen
la relación entre la frecuencia (KHz) representada por la coordenada
horizontal (abscisa) y la intensidad del sonido representada por la
coordenada vertical (ordenada), y la distribución de la intensidad
del sonido de los datos acústicos de entrada en ambas coordenadas.
Por ejemplo, en el presente documento, los sonidos de entrada (b) y
(c) se borran por el sonido más fuerte (a), y (b) y (c) no pueden
oírse. Esto es el efecto de enmascaramiento. El valor umbral de
enmascaramiento significa una barrera (línea divisoria) entre el
sonido audible y el sonido inaudible.
Asimismo, el oído humano tiene una característica
inherente que tiene un valor umbral absoluto (o valor umbral audible
mínimo). Éste representa el sonido mínimo (intensidad) que el ser
humano puede oír en un entorno de calma. El oído humano tiene la
sensibilidad más aguda para el sonido en la proximidad de
2KHz-5KHz. El oído humano se vuelve progresivamente
incapaz de oír el sonido con una frecuencia inferior a 2KHz o
superior a 5KHz.
El valor umbral de enmascaramiento cambia aquí de
acuerdo con los datos de entrada de la señal acústica. Sin embargo,
debe prestarse atención al hecho de que el valor umbral absoluto no
cambia nada.
En conclusión, de todos los sonidos, sólo está en
el área audible el sonido con una intensidad más fuerte que el valor
umbral de enmascaramiento y el valor umbral absoluto. Como
resultado, aunque se elimine la información del sonido de la otra
área (área inaudible), el oído humano puede oír el sonido en el
mismo estado que el sonido de entrada inicial.
En la compresión de las señales acústicas,
utilizando dicha propiedad del efecto de enmascaramiento, sólo
pueden codificarse los datos de la señal acústica de entrada del
área más fuerte que el valor umbral de enmascaramiento, esto es, los
datos del área gris y, por lo tanto, la cantidad de datos puede
reducirse en gran medida.
A decir verdad, ambos valores umbral anteriores
se corresponden con el límite superior tolerable del error de
cuantificación anteriormente mencionado. Es decir, cuando se
cuantifican los datos de la señal acústica de entrada, si el error
de cuantificación no excede del valor umbral superior, el oído
humano no nota el deterioro de la calidad del sonido audible. En el
área del valor umbral inferior, si el número de niveles de
cuantificación no se ha hecho grande, el deterioro de la calidad del
sonido puede volverse importante. Por otro lado, en el área del
valor umbral superior, puede permitirse reducir el número de niveles
de cuantificación.
A continuación, se describe en lo sucesivo el
procedimiento de conversión de los datos de la señal acústica de
entrada. Los datos acústicos de entrada se representan (se
expresan), generalmente, como la fila del valor de muestra digital
en la dirección del tiempo. Sin embargo, el efecto de
enmascaramiento anteriormente mencionado no puede aplicarse
adecuadamente tal como es. Por esta razón, es necesario convertir la
fila del valor de muestra digital anteriormente mencionado en
aquella que va a procesarse fácilmente.
Existen diversos procedimientos de conversión de
los datos de la señal acústica de entrada. Uno de ellos es un
procedimiento que combina en un bloque la fila de datos del área del
tiempo por número de muestras constantes y convierte la fila de
datos a la otra fila de datos del área de frecuencia por el mismo
número de muestras constantes. La Fig. 24 muestra las formas de onda
de las señales acústicas antes y después de la conversión anterior.
Para explicarlo de forma concreta, la Fig. 24A muestra la forma de
onda de la fila de datos de la señal acústica de 1.024 muestras en
el área del tiempo, y la Fig. 24B muestra la fila de datos
convertida a la forma de onda de la fila de datos de la señal
acústica de 1.024 muestras en el área de frecuencia.
Generalmente, cuando la señal acústica se
convierte a la del área de frecuencia, se produce una desviación de
la cantidad de sonido (energía) en una determinada área de
frecuencia. Por ejemplo, como muestran las Figs. 24A y 24B, aunque
el valor de la señal se distribuya de manera uniforme en el área del
tiempo, la energía de la señal acústica del área de frecuencia se
desvía al lado de frecuencia baja. En el momento de la codificación,
se distribuyen los bits, poniendo énfasis en la parte en la que se
concentra la energía. Como resultado, puede mejorarse la eficacia de
la compresión.
Además, con respecto a la conversión del tiempo a
la frecuencia, existen algunos procedimientos; por ejemplo, DFT
(Digital Fourier Transform), DCT (Digital Cosine Transform), etc. No
obstante, para la compresión de datos visuales (imagen) y datos
acústicos, el procedimiento DCT y su modificación, MDCT (Modified
Digital Cosine Transform), se utilizan con mucha frecuencia.
Con respecto a la conversión de los datos de la
señal acústica de entrada, aparte del anteriormente mencionado,
existe un procedimiento de subbandas. En el procedimiento de
división de subbandas, (la banda de) la forma de onda de entrada se
divide en varias bandas de frecuencia, y la respectiva forma de onda
dividida se mantiene como la del área del tiempo. Éste es un punto
diferente del procedimiento anterior.
Además, si los datos de entrada compuestos por
las muestras del número m se dividen en bandas de muestra del número
n, el número de muestras de las respectivas subbandas pasa a ser
m/n. La Fig. 25 muestra un ejemplo sencillo de la división de la
forma de onda de entrada en dos subbandas.
A continuación, se describe el flujo del proceso
básico de la codificación por compresión de la señal acústica. La
tecnología más básica utilizada para la codificación de señales
acústicas se ha descrito hasta aquí en profundidad. Aquí, se resume
el flujo del proceso básico de la codificación por compresión de la
señal acústica a partir de la combinación de los procesos
anteriormente mencionados. La Fig. 26 muestra el flujo.
En primer lugar, se practica la conversión de los
datos de la señal acústica de entrada a los datos del área de
frecuencia o la división en subbandas para los datos de la señal
acústica de entrada. A continuación, se cuantifican los respectivos
valores de muestra tras la conversión. En este momento, se calculan
en paralelo los valores umbral de enmascaramiento de los datos de la
señal acústica y, previamente, el límite superior del error de
cuantificación de las respectivas frecuencias se obtiene a partir
del valor umbral anteriormente calculado con el valor umbral
absoluto. La etapa anteriormente mencionada se lleva a cabo por la
parte del modelo de psicología de audio que se muestra en la Fig.
26. La cuantificación se lleva a cabo de tal manera que el error no
exceda del límite superior de la misma. Finalmente, se asigna el
código de Huffman de acuerdo con la frecuencia aparente de la
respectiva cuantificación, y después se crean los datos finales de
codificación.
Asimismo, la etapa anterior muestra el esquema
del proceso más básico de la codificación por compresión de señales
acústicas. En el procedimiento práctico de codificación, como MP3,
AAC, etc., pueden idearse varios procesos aparte del anterior, y,
por lo tanto, puede pretenderse que la mejora del factor de
compresión mejore en mayor medida el factor de compresión.
En el presente documento, se describe el proceso
de codificación de MP3, haciendo hincapié la diferencia entre MP3 y
AAC. El flujo del proceso básico es:
(1) conversión al área de frecuencia,
(2) cuantificación y
(3) codificación de Huffman.
A continuación, se describen la división en
subbandas y el proceso MDCT. La Fig. 27 muestra el flujo del proceso
de codificación de MP3 haciendo hincapié en la división en subbandas
y el proceso MDCT. La gran diferencia entre MP3 y AAC es que, en
MP3, el proceso de división en subbandas existe antes que el de
MDCT. La división en subbandas significa la división de los datos de
entrada en varias bandas de frecuencia. Los datos se disponen en el
eje del tiempo en las respectivas áreas de división.
En MP3, los datos de entrada se dividen en 32
bandas, y se practica el MDCT para cada una de las respectivas
bandas divididas. Como en el caso del AAC, pueden usarse
correctamente dos clases de función de la ventana LARGA/CORTA. La
longitud de la LARGA es 36 muestras, mientras que la longitud de la
CORTA es 12 muestras. Sin embargo, al contrario que en AAC, en MP3
puede existir una mezcla de LARGA/CORTA. En la Fig. 27, la
frecuencia alta se usa para la CORTA y la frecuencia baja se usa
para la LARGA. No hace falta mencionar que puede permitirse el uso
de toda la frecuencia para la CORTA y para la LARGA. Además, en AAC,
la longitud de la ventana LARGA es 2.048 muestras. En MP3, el
cálculo de conversión de las 36 muestras anteriormente mencionadas a
la longitud se realiza antes de la división en subbandas, pasando el
valor calculado a ser igual a 36 x 32 = 1.152 muestras.
Hasta aquí, se ha mencionado el concepto general
de la compresión de señales acústicas en conexión con la presente
invención. En lo sucesivo, se describirán concretamente las técnicas
anteriores, sobre la base de las cuestiones anteriores previamente
mencionadas.
En la compresión/codificación de alta calidad de
las señales acústicas digitales, se ha utilizado hasta ahora la
propiedad psicológica del sentido del oído humano. Como se ha
mencionado anteriormente, según dicha propiedad, el sonido pequeño
es enmascarado por el sonido grande. Como resultado, el sonido
pequeño no puede oírse. Es decir, cuando se emite el sonido grande
con una frecuencia, el oído humano no puede oír el sonido pequeño
con otra frecuencia cercana a la frecuencia anterior. En el presente
documento, la intensidad del sonido limitada (crítica) que no puede
oírse debido a dicho enmascaramiento se denomina "valor umbral de
enmascaramiento".
Por otro lado, el oído humano tiene la propiedad
de que la sensibilidad para el sonido con una frecuencia cercana a
4KHz es la más alta, y a medida que la frecuencia se aleja de 4KHz,
la sensibilidad para el sonido con la misma frecuencia se vuelve
progresivamente más baja. Dicha propiedad se expresa como la
sensibilidad crítica capaz de percibir el sonido en una situación de
calma, y la sensibilidad se denomina "valor umbral audible
absoluto".
En lo sucesivo, las cuestiones anteriormente
mencionadas se describen en mayor medida con referencia a la Fig. 9,
que ilustra la distribución de la intensidad de la señal acústica.
En la Fig. 9, una línea continua gruesa (a), una línea de puntos (B)
y una línea continua fina representan, respectivamente, la
distribución de la intensidad de la señal acústica, el valor umbral
de enmascaramiento de la señal acústica y el valor umbral audible
absoluto. Como se muestra en la Fig. 9, el oído humano sólo puede
percibir el sonido de intensidad mayor (más fuerte) que el valor
umbral de enmascaramiento y el valor umbral audible absoluto para la
señal acústica. Por consiguiente, aunque sólo se extraiga la
información de la porción superior al valor umbral de
enmascaramiento y el valor umbral audible absoluto para la señal
acústica en la distribución de la intensidad de la señal acústica,
el oído humano percibe la información en la misma medida que la
señal acústica original.
En la codificación de la señal acústica, la
cuestión anterior equivale a asignar el bit codificado sólo a las
porciones que muestran las líneas inclinadas en la Fig. 9. No
obstante, el área completa de la señal acústica está dividida en
varias áreas pequeñas y, en el presente documento, la asignación del
bit se lleva a cabo en la unidad de la banda de frecuencia (D). El
ancho transversal de las respectivas áreas que muestran las líneas
inclinadas corresponde a la banda de frecuencia.
En las respectivas bandas de frecuencia, el oído
humano no puede oír el sonido de intensidad no superior a la del
límite inferior del área inclinada. Así pues, si el error de
intensidad del sonido original y el sonido codificado/descodificado
no excede del límite inferior del mismo, la diferencia entre ambos
no puede percibirse. En este sentido, la intensidad del límite
inferior se denomina "intensidad con error tolerable". Cuando
la señal acústica se cuantifica y se comprime, si la intensidad con
error de cuantificación del sonido codificado/descodificado para el
sonido original se cuantifica para que no sea superior a la
intensidad con error tolerable, la señal acústica puede comprimirse
sin dañar la calidad del sonido original. Así pues, la asignación
del bit codificado sólo al área de la línea inclinada que se muestra
en la Fig. 9 equivale a llevar a cabo la cuantificación de tal
manera que la intensidad con error de cuantificación en las
respectivas áreas de frecuencia sea justo igual a la intensidad con
error tolerable.
En cuanto al procedimiento de codificación de la
señal acústica, existen MPEG (Moving Picture Experts Group) Audio y
Dolby Digital, etc. Todos ellos utilizan la propiedad aquí descrita.
Entre esos procedimientos, el que tiene una eficacia de codificación
más alta en la actualidad es el procedimiento MPEG-2
Audio AAC (Advanced Audio Encoding), normalizado en
ISO/IEC13818-7.
La Fig. 10 es un diagrama de bloques que ilustra
la estructura fundamental de la codificación AAC. En la Fig. 10, la
sección del modelo psicoacústico 101 calcula la intensidad con error
tolerable para cada una de las respectivas bandas de frecuencia de
la señal acústica de entrada separadas por bloques a lo largo del
eje del tiempo. Por otro lado, la conversión al área de frecuencia
con MDCT (Modified Discrete Cosine Transform) en un control de
ganancia 102 y un banco de filtros 103 para la señal de entrada
también está separada por bloques. Una TNS (Temporal Noise Shaping)
104 y una unidad de predicción 106 llevan a cabo la codificación
estimada. Una intensidad/acoplamiento 105 y un MS Stereo (Middle
Side Stereo) (en lo sucesivo denominado con la abreviatura
"M/S") 107 llevan a cabo el proceso de codificación de
correlación estéreo. Después, se determina un factor de escala 108.
La señal acústica se cuantifica en una unidad de cuantificación 109
en función del factor de escala 108. El factor de escala se
corresponde con la intensidad con error tolerable que se muestra en
la Fig. 9, y se determina el coeficiente para cada una de las
respectivas bandas de frecuencia. Tras la cuantificación, el código
de Huffman se asigna respectivamente al factor de escala y al valor
de cuantificación en una codificación del ruido (sección) 110 en
función de la lista predeterminada de códigos de Huffman.
Finalmente, se forma la corriente de bits codificados en un
multiplexor
111.
111.
Ahora, la MDCT del banco de filtros 103
anteriormente mencionado es el indicado para solapar las áreas de
conversión en un 50% a lo largo del eje del tiempo como muestra la
Fig. 11 y, al mismo tiempo, para practicar la DCT (Discrete Cosine
Transform). Debido a esta función, puede suprimirse la distorsión en
la parte divisoria (barrera) de las respectivas áreas de conversión.
En el AAC (Advance Audio Encoding), bien el área de conversión larga
(bloque largo) de 2048 muestras o bien las ocho áreas de conversión
cortas (bloques cortos) de las respectivas 256 muestras se aplica
para el marco de la señal acústica de entrada. Por consiguiente, el
número de los coeficientes MDCT es 1024 para el bloque largo y 128
para los bloques cortos. En el caso de emplear los bloques cortos,
siempre se aplican ocho bloques de manera sucesiva y, así, el número
de coeficientes MDCT pasa a ser el mismo que el número de
coeficientes MDCT en el momento de emplear el bloque largo.
Generalmente, el bloque largo se emplea en la
parte regular de la variación pequeña de la forma de onda de la
señal, como se muestra en la Fig. 12, mientras que los bloques
cortos se emplean en la parte de ataque de la variación violenta
(aguda) de la forma de onda de la señal. Es importante emplear el
bloque largo y los bloques cortos de modo diferente. Si se aplica a
la señal el bloque largo, como se muestra en la Fig. 13, se produce
un ruido denominado "pre-eco" antes del ataque
esencial. Al contrario, si se aplican a la señal los bloques cortos,
como se muestra en la Fig. 12, no puede llevarse a cabo la
asignación de bits adecuada debido a la resolución insuficiente del
área de frecuencia. Como resultado, se reduce la eficacia de la
codificación y se produce el ruido. La cuestión es importante, en
particular, para el sonido con baja frecuencia.
En cuanto a los bloques cortos, surge además el
problema de la división (separación) por grupos. La división por
grupos significa que los ocho bloques cortos anteriormente
mencionados se juntan en grupos por cada uno de los bloques
sucesivos con el mismo factor de escala. El efecto de reducir la
cantidad de información puede conseguirse haciendo que el grupo
tenga un factor de escala común. Para explicarlo concretamente,
cuando se asigna el código de Huffman al factor de escala en la
codificación silenciosa (sección) 110 que se muestra en la Fig. 10,
el código no se asigna por la unidad de cada uno de los respectivos
bloques cortos sino por la unidad del grupo. La Fig. 14 ilustra un
ejemplo de división por grupos. Aquí, el número de grupos es tres.
El número de bloques del grupo superior (grupo 0) es cinco; el
número de bloques del siguiente grupo (1er grupo ) es 1; y el número
de bloques del último grupo (2ndo grupo) es dos. Si la división por
grupos no se lleva a cabo adecuadamente, esto se traduce en el
incremento de la cantidad (número) de códigos y en la reducción de
la calidad del sonido. Si el número de división de los grupos es
demasiado grande, el factor de escala que debería poder hacerse
común esencialmente pasa a estar codificado por duplicado (doble).
Como resultado, se reduce la eficacia de codificación. Por el
contrario, si el número (de división) de grupos es demasiado
pequeño, como la cuantificación se lleva a cabo con el factor de
escala común a pesar de la variación violenta (aguda) de la señal
acústica, se reduce la calidad del sonido. Además, en
ISO/IEC13818-7, aunque existe una prescripción sobre
la sintaxis de los códigos con respecto a la división por grupos, la
norma concreta y el procedimiento de división por grupos no se han
tomado en consideración.
Como se mencionó antes, en relación con la
codificación, el bloque largo y los bloques cortos tienen que
aplicarse adecuadamente para el bloque de la señal acústica de
entrada con la distinción entre ambos. La sección del modelo
psicoacústico 101 que se muestra en la Fig. 10 lleva a cabo la
estimación largo/corto. En la ISO/IEC13818-7 se
muestra un ejemplo del procedimiento de estimación largo/corto para
los respectivos bloques que debe apreciarse en la sección del modelo
psicológico del sentido auditivo 101. A continuación se explica el
esquema del proceso de estima-
ción.
ción.
Etapa
1
Se leen (incluyen) 1024 nuevas muestras para el
bloque largo y se reconstruye el sistema (la serie) de la señal de
2048 muestras, aparte de las 1024 muestras incluidas previamente en
el nuevo bloque, mientras que se leen (incluyen) 128 nuevas muestras
para los bloques cortos y se reconstruye el sistema (la serie) de la
señal de 256 muestras, aparte de las 128 muestras incluidas
previamente en el nuevo bloque.
Etapa
2
La señal acústica de 2048 muestras (256 muestras)
construida en la etapa 1 se multiplica por la ventana de Hann
(Hanning). Asimismo, se practica la FFT (Fast Fourier Transform) y,
así, se calculan 1024 (128) coeficientes
FFT.
FFT.
Etapa
3
La parte del número real y la parte del número
imaginario de los respectivos coeficientes FFT del bloque que se
aprecia actualmente, se estiman a partir de la parte del número real
y la parte del número imaginario de los coeficientes FFT de los dos
bloques precedentes, y después se calculan respectivamente los
valores estimados de 1024
(128).
(128).
Etapa
4
Los respectivos valores de imprevisibilidad se
calculan a partir de los valores estimados del número real y el
número imaginario de los respectivos coeficientes FFT calculados en
la etapa 2 y los de los respectivos coeficientes FFT calculados en
la etapa 3. Aquí, el valor de imprevisibilidad toma un valor entre 0
y 1. Cuanto más cercano a 0 es el valor, más alta es la tonalidad de
la señal acústica, mientras que, cuanto más cercano a 1 es el valor,
más alta es la propiedad de ruido de la señal acústica. En otras
palabras, el hecho muestra que la tonalidad es baja.
Etapa
5
En el presente documento, la banda de frecuencia
corresponde a la que se muestra en la Fig. 9. La intensidad de la
señal acústica se calcula en función de los respectivos coeficientes
FFT calculados en la etapa 2 para el ancho de cada una de las
respectivas bandas divididas. Asimismo, el valor de imprevisibilidad
calculado en la etapa 4 se pondera con la intensidad y se calcula el
valor de imprevisibilidad para cada una de las respectivas bandas de
frecuen-
cia.
cia.
\newpage
Etapa
6
Los efectos debidos a la intensidad de la señal
acústica y el valor de imprevisibilidad de la otra banda de
frecuencia en las respectivas bandas de frecuencia se obtienen
mediante el uso de la función de expansión (difusión). Los efectos
obtenidos de este modo se pliegan (combinan) respectivamente y, por
tanto, se normalizan.
Etapa
7
En el ancho de las respectivas bandas divididas
b, el índice de tonalidad tb(b) C = -0,299 - 0,43
log.(cb(b)) se calcula en función del valor de
imprevisibilidad plegado (combinado) (cb(b)) calculado en la
etapa 6. Además, el índice de tonalidad está limitado dentro del
área entre 0 y 1. Aquí, todo lo dicho muestra que, cuanto más
cercano a 1 es el índice, más alta es la tonalidad de la señal
acústica, mientras que, cuanto más cercano a 0 es el índice, más
alta es la propiedad de ruido de la señal acústica.
Etapa
8
La relación S/R (relación
señal-ruido) se calcula en función del índice de
tonalidad calculado en la etapa 7, en las respectivas bandas de
frecuencia. Aquí, se utiliza en general la propiedad de que el
efecto de enmascaramiento del componente de ruido es superior al del
componente de sonido puro.
Etapa
9
La relación de la intensidad de la señal acústica
plegada (combinada) y el valor umbral de enmascaramiento se calcula
en función de la relación S/R calculada en la etapa 8, en los anchos
de las respectivas bandas divididas.
Etapa
10
El valor umbral de enmascaramiento se calcula en
función de la intensidad de la señal acústica plegada calculada en
la etapa 6 y de la relación de la intensidad de la señal acústica
calculada en la etapa 9 y el valor umbral de enmascaramiento, en los
anchos de las respectivas bandas divididas.
Etapa
11
El ajuste del preeco se lleva a cabo para el
valor umbral de enmascaramiento calculado en la etapa 10 mediante el
uso de la intensidad con error tolerable del bloque precedente, en
los anchos de las respectivas bandas divididas. Asimismo, el valor
superior del valor ajustado y el valor umbral (de frecuencia)
audible absoluto se emplea como la intensidad con error tolerable
del bloque actual.
Etapa
12
La entropía de sensación PE (entropía perceptiva)
según se define en la ecuación (1) se calcula respectivamente para
el bloque largo y para los bloques cortos.
Ecuación
(1)
PE =
-\sum\limits_{b}w(b)\cdot
log_{10}\frac{nb(b)}{e(b)+1}
=
-\sum\limits_{b}w(b)\cdot[log_{10}nb(b)-log_{10}\{e(b)+1\}]
=
-\sum\limits_{b}w(b)\cdot[log_{10}\{e(b)+1\}-log_{10}nb(b)]
En la ecuación (1), w(b) representa el
ancho del ancho de banda dividido b, nb(b) representa la
intensidad con error tolerable en la banda de frecuencia b calculada
en la etapa 11, y e(b) representa la intensidad de la señal
acústica en la banda de frecuencia b calculada en la etapa 5. Aquí,
la PE está pensada para corresponder al total de medidas cuadradas
de las áreas de asignación de bits (áreas de líneas inclinadas),
como se muestra en la Fig. 9.
Etapa
13
Con respecto a la estimación de bloque
largo/bloques cortos, la Fig. 15 muestra el flujo operativo de
estimación de bloque largo/bloques cortos.
Cuando el valor de la PE (etapa S10) para el
bloque largo calculada en la etapa 12 es superior a la constante
predeterminada (conexión_pe), se estima que el bloque que se aprecia
son los bloques cortos (etapas S11 y S12). Cuando el mismo valor de
la PE es inferior a la constante predeterminada, se estima que el
bloque que se aprecia es el bloque largo (etapas S11 y S13). En el
presente documento, la constante (conexión_pe) es un valor
determinado en función de la aplicación.
El procedimiento mencionado hasta aquí es el
procedimiento de estimación largo/corto que se describe en
ISO/
IEC13818-7. No obstante, en el procedimiento de estimación de bloque largo/bloques cortos anterior, no siempre se lleva a cabo una estimación adecuada. Es decir, que la parte que esencialmente ha de estimarse corta se estima larga (o viceversa) y, por ello, se deteriora la calidad del sonido en algunas ocasiones.
IEC13818-7. No obstante, en el procedimiento de estimación de bloque largo/bloques cortos anterior, no siempre se lleva a cabo una estimación adecuada. Es decir, que la parte que esencialmente ha de estimarse corta se estima larga (o viceversa) y, por ello, se deteriora la calidad del sonido en algunas ocasiones.
Por otro lado, en la memoria descriptiva
publicada de la publicación de patente japonesa abierta a consulta
por el público nº 9-232964, un estado transitorio
que detecta el circuito 2 se construye de tal manera que la señal
acústica se recoge por cada una de las respectivas secciones
predeterminadas, y las sumas cuadradas de las mismas se obtienen
respectivamente, y el estado transitorio de la señal anteriormente
mencionada de acuerdo con la tasa (el grado) de variación sobre las
al menos dos o más secciones de la señal sumadas al cuadrado por
cada una de las respectivas secciones. En dicha estructura, es
posible detectar el estado transitorio, esto es, la parte en la que
largo/corto varía únicamente llevando a cabo el cálculo de la suma
cuadrada de la señal de entrada en el eje del tiempo sin llevar a
cabo ningún procesamiento de conversión perpendicular (rectangular)
ni procesamiento de filtros. De acuerdo con dicho procedimiento,
puesto que la entropía perceptiva no se considera mediante el uso
exclusivo de la suma cuadrada de la señal de entrada, no siempre
puede llevarse a cabo la estimación que coincida con la propiedad de
audio. Por consiguiente, se teme que la calidad del sonido se
deteriore.
En dicha situación, el bloque de la señal
acústica de entrada se divide (se clasifica) en varios grupos en
función de la diferencia entre el valor máximo y el valor mínimo de
la entropía perceptiva con respecto a los respectivos bloques cortos
del mismo grupo. Como resultado, existe un procedimiento en el que,
cuando el número de grupos es 1, o cuando el número de grupos es 1 y
se cumple la otra condición, el bloque de la señal acústica de
entrada se convierte al área de frecuencia con un bloque largo, y en
el otro caso, el bloque de la señal se convierte al área de
frecuencia con varios bloques cortos. En lo sucesivo, se describe de
manera más concreta el bloque anteriormente mencionado, con
referencia a la Fig. 16 que ilustra el flujo operativo del mismo.
Asimismo, como ejemplo de la señal acústica de entrada, se emplean
los datos acústicos que se muestran en la Fig. 17 y se adjuntan
todos los números correspondientes a los ocho bloque cortos
sucesivos de la Fig. 17.
En primer lugar, la señal acústica de entrada se
divide en ocho bloques cortos sucesivos. Después, se calculan
respectivamente las entropías perceptivas de los ocho bloques
cortos. Se supone que los valores calculados son PE (i) (0 \leq i
\leq 7) en orden (etapa S20). El cálculo puede realizarse llevando
a cabo, para los respectivos bloques cortos, el procedimiento que se
explica en las etapas 1 a 12 del procedimiento de estimación
largo/corto para los respectivos bloques que se aprecian en la
ISO/IEC13818-7 anteriormente mencionada. A
continuación, se lleva a cabo la operación de inicialización con la
condición de grupo_len [0] = 1, grupo_len [gnum] = 0 (0 \leq gnum
\leq 7) (etapa S21).
Aquí, gnum representa el número total de un grupo
determinado en los grupos generales, y grupo_len [gnum] representa
el número de bloques cortos incluidos en el grupo
gnum-th; y después, la operación de inicialización
se lleva a cabo respectivamente con la condición de gnum = 0, mín =
PE (0), y máx = PE (0) (etapa S20). En la condición anterior, mín y
máx representan respectivamente el valor mínimo y el valor máximo de
PE (i). En la Fig. 18, mín y máx son respectivamente iguales a 110 y
110. (mín = 110 y máx = 110). Asimismo, el índice i se inicializa
con i = 1 (etapa S23). El índice corresponde al número total de
bloques cortos.
A continuación, mín y máx se renuevan de acuerdo
con PE (i). Es decir, si PE (i) es inferior a mín, mín es igual a PE
(i), o si PE (i) es superior a máx, máx es igual a PE (i)' (etapa
S24).
- EP (i) < mín \cdot\cdot\cdot\cdot\cdot\cdot\cdot mín = PE (i)
- EP (i) > máx \cdot\cdot\cdot\cdot\cdot\cdot\cdot máx = PE (i)
En el ejemplo que se muestra en la Fig. 18, si PE
(i) > máx,
- Máx = PE (i) \cdot (etapa S24)
Y se estima la clasificación de grupos (etapa
S25). Es decir, el valor obtenido (máx-mín) se
compara con el valor umbral predeterminado th. Cuando el valor
obtenido (máx-mín) es igual o superior al valor th,
la etapa avanza hasta la etapa S26 para llevar a cabo la
clasificación de grupos entre los bloques cortos
(i-1) e i. Cuando el valor (máx-mín)
es inferior al valor th, se estima que los bloques cortos
(i-1) e i se incluyan en el mismo grupo, y la etapa
avanza hasta la etapa S27. En este ejemplo, el valor th es igual a
50 (th = 50). Es decir, la clasificación de grupos se lleva a cabo
de tal manera que la diferencia entre el valor máximo y el valor
mínimo de las PE (i) de los respectivos bloques cortos incluidos en
el mismo grupo pasa a ser inferior a 50.
Cuando i = 1, dado que máx-mín =
110-96 = 14 < 50 = th, se estima que los bloques
cortos 0 y 1 se incluyan en el mismo grupo, y la etapa avanza hasta
la etapa S27. En el presente documento, dado que gnum = 0, los
bloques cortos 0 y 1 avanzan hasta la etapa S27. Además, dado que
aquí gnum = 0, los bloques cortos 0 y 1 se incluyen en el grupo 0 y
se incrementa en uno el valor de grupo_len [gnum] (etapa S28). Esto
significa que se disminuye en uno el número de bloques cortos
incluidos en el grupo gnum-th. En el ejemplo, dado
que la inicialización se lleva a cabo en el estado de gnum = 0 y
grupo_len [0] = 1, el estado pasa a ser grupo_len [0] = 2 en la
etapa S27. Esto corresponde al hecho de que los dos bloques de los
bloques 0 y 1 como los bloques cortos incluidos en el grupo 0 ya se
han fijado
(establecido).
(establecido).
A continuación, el índice i se incrementa en 1
(etapa S28). Cuando i es inferior a 7, la etapa retrocede a la etapa
S24 (etapa S29). En este ejemplo, dado que i es igual a 2 (< 7),
i = 2 < 7, la etapa retrocede a la etapa S24.
Después, la misma operación, tal como se ha
descrito hasta aquí, continúa hasta i = 4. Cuando i es igual a 4,
dado que los valores de mín y máx son respectivamente iguales a 96 y
137 en la etapa S24 de la Fig. 16, como se muestra en la Fig. 18, la
estimación máx - mín = 41 < 50 = th se lleva a cabo en la etapa
S25, y la etapa avanza directamente desde la etapa S25 hasta la
etapa S27. En la etapa S27, grupo_len [0] pasa a ser igual a 5.
- grupo_len [0] = 5
Es decir, que corresponde al hecho de que los
cinco bloques; 0, 1, 2, 3 y 4, establecidos como los bloques cortos
incluidos en el grupo 0, ya están fijados. Después, cuando la etapa
retrocede otra vez a la etapa S24 a través de la etapa S29, después
de que i pase a ser igual a 5 en la etapa S28, PE (5) pasa a ser
igual a 152 en este momento, y, por lo tanto, los valores de mín y
máx pasan a ser respectivamente iguales a 96 y 152. Después, dado
que la estimación máx-mín = 56 > 50 = th se lleva
a cabo en la etapa S25, la etapa avanza hasta la etapa S26. Esto
significa que la clasificación de grupos se lleva a cabo entre los
bloques cortos 4 y 5. El valor de gnum se incrementa en 1 en la
etapa S26, y los valores de mín y máx son respectivamente
reemplazados por la última PE (i). Aquí, los respectivos valores de
gnum, mín y máx son 1, 152 y 152. La ecuación gnum = 1 corresponde
al hecho de que el grupo de los 5 bloques cortos incluidos en el
mismo es el primer grupo.
A continuación, el valor de grupo_len [1] se
incrementa en 1 en la etapa S27. Dado que el valor de grupo_len [1]
se ha inicializado a 0 (cero) en la etapa S21, el valor de grupo_len
[1] pasa a ser otra vez igual a 1 en dicho estado. Esto corresponde
al hecho de que un bloque del bloque 5 se considera como los bloques
cortos incluidos en el primer grupo.
Después, de un modo similar, i pasa a ser igual a
6 en la etapa 28 de la Fig. 16. Cuando la etapa retrocede desde la
etapa S29 a la etapa S24, dado que el valor de PE (6) pasa a ser
igual a 269, a continuación, como se muestra en la Fig. 18, los
valores de mín y máx pasan a ser iguales a 152 y 269
respectivamente. En este momento, la estimación de
máx-mín = 117 > 50 se lleva a cabo en la etapa
S25, y la etapa avanza hasta la etapa S26. Es decir, la
clasificación de grupos se lleva a cabo entre los bloques cortos 5 y
6. Y entonces, gnum = 2, mín = 269 y máx = 269 en la etapa S26, y
grupo_len [2] = 1 en la etapa S27. E i = 7 en la etapa S28. Después,
dado que PE (7) = 231 en la etapa S24, del mismo modo que ocurría
anteriormente, mín = 231 y máx = 269, y la estimación de
máx-mín = 38 < 50 se lleva a cabo en la etapa
S25, y la etapa avanza hasta la etapa S27. Es decir, que ambos
bloques cortos 6 y 7, se incluyen en el segundo grupo. En
correspondencia con lo mencionado anteriormente, el valor de
grupo_len [2] = 2 en la etapa S27. Ahora, cuando i pasa a ser igual
a 8 (i = 8) en la siguiente etapa S28, la etapa avanza hasta la
etapa S30 de acuerdo con la estimación de la etapa S29. En este
momento, la clasificación de grupos se ha completado para el total
de los ocho bloques cortos.
En este ejemplo, se logra finalmente la
existencia de la siguiente relación:
- Gnum = 2;
- Grupo_len [0] = 5;
- Grupo_len [1] = 1; y
- Grupo_len [2] = 2.
Es decir, como resultado, el número de grupos es
5 y el número de bloques cortos incluidos en los respectivos grupos
es 5, 1 y 2, para el grupo 0, el grupo 1 y el grupo 2,
respectivamente. El resultado anterior es el mismo que el del
ejemplo de la clasificación de grupos que se muestra en la Fig.
14.
Sin embargo, existe un caso en el que no puede
llevarse a cabo la estimación adecuada largo/corto ni siquiera según
el procedimiento mencionado anteriormente. Por ejemplo, es el caso
de la codificación de los datos acústicos que incluye el componente
de la propiedad de sonido puro alto en el componente (área) de baja
frecuencia. La conversión llevada a cabo mediante el uso de los
bloques cortos se traduce en el incremento de la resolución en el
área del tiempo, mientras que se reduce (disminuye) la resolución en
el área de frecuencia. Por otro lado, el oído humano tiene la
propiedad de enmascaramiento de la resolución alta en el área de
baja frecuencia. En particular, sólo se enmascara una banda de
frecuencia muy estrecha para los datos acústicos de la propiedad de
sonido puro alto.
Por el contrario, si los datos acústicos que
incluyen el componente de la propiedad tonal en el componente (área)
de baja frecuencia se convierten con los bloques cortos, la energía
de los datos acústicos originales (iniciales) se dispersa en el
ancho de la banda de frecuencia circunferencial (periférico) debido
a la resolución insuficiente en el ancho de la banda de frecuencia
causada por los bloques cortos y la energía se difunde, además,
sobre el ancho del enmascaramiento en la frecuencia de audio baja
que puede oír el oído humano. Como resultado, el oído humano percibe
el deterioro de la calidad del sonido. La cuestión anteriormente
mencionada significa que no basta con llevar a cabo simplemente la
estimación largo/corto sólo en función de la entropía perceptiva con
respecto a los bloques cortos y que, además, es necesario tomar en
consideración la combinación de la tonalidad de los datos acústicos
y la dependencia de la frecuencia de la propiedad de
enmascaramiento.
En dicha situación, a continuación, el marco de
la señal acústica de entrada se divide en varios bloques cortos, y
se estima si el índice de tonalidad del componente acústico incluido
en una o varias bandas (áreas) de frecuencia predeterminadas es
superior al valor umbral. En el caso de que exista al menos un
bloque corto superior al valor umbral predeterminado mencionado
anteriormente en todas las bandas (áreas) de frecuencia divididas
predeterminadas, se estima que el marco de la señal acústica de
entrada se convierta al área de frecuencia con un bloque largo. En
el pasado, ya presentamos la solicitud relativa a dicho
procedimiento según se mencionó anteriormente. La Fig. 19 ilustra el
ejemplo concreto de realización de dicho procedimiento.
La Fig. 19 es un gráfico de producción que
ilustra el funcionamiento de un aparato de codificación de señales
acústicas digitales. En lo sucesivo, se describe concretamente el
funcionamiento de la presente forma de realización, con referencia a
la Fig. 19. En esta ocasión, los datos acústicos de la Fig. 17 se
emplean como ejemplo de la señal acústica de entrada. En la Fig. 17,
se adjuntan todos los números en correspondencia con los respectivos
ocho bloques cortos sucesivos.
En primer lugar, en conexión con los ocho bloques
cortos sucesivos i (0 \leq i \leq 7), la señal acústica de
entrada calcula respectivamente los valores del índice de tonalidad
en las respectivas bandas de frecuencia sfb. Se supone que los
valores calculados son tb[i][sfb] (etapa S40). Aquí, como se
muestra en la Fig. 17, sfb es el número total para reconocer la
respectiva banda de frecuencia. El cálculo del índice de tonalidad
se lleva a cabo mediante el procedimiento explicado en la etapa 7 en
la etapa de estimación largo/corto para los respectivos bloques que
se aprecian en la ISO/IEC 13818-7 anteriormente
mencionada. A continuación, se realiza la operación de
inicialización de indicador tonal = 0 (etapa S41). Asimismo, el
número total i de los bloques cortos se inicializa como i = 0 (etapa
S42). Y entonces, con respecto a los bloques cortos i, se busca en
las áreas divididas predeterminadas si los respectivos índices de
tonalidad son superiores al valor umbral predeterminado para las
respectivas áreas de frecuencia (etapa S43). En el ejemplo que se
muestra en la Fig. 19, la búsqueda se realiza con respecto a las
bandas, sfb = 7, 8 y 9, y los respectivos índices de tonalidad, th7,
th8 y th9.
Ahora, en este ejemplo, se supone que los valores
de los índices de tonalidad en sfb = 7, 8 y 9 son los que se
muestran en la Fig. 20 con respecto a los respectivos bloques cortos
i, y se supone además que los respectivos valores umbral se fijan
del siguiente modo:
- th7 = 0,6,
- th8 = 0,9, y
- th9 = 0,8.
En el primer i = 0, se establecen las siguientes
relaciones:
- tb[0][7] = 0,12 < 0,6 = th7,
- tb[0][8] = 0,08 < 0,9 = th8, y
- tb[0][9] = 0,15 < 0,8 = th9.
Por consiguiente, la estimación en la etapa S43
pasa a ser "no", y la etapa avanza hasta la etapa S45. Y
entonces, el valor de i se incrementa en 1 y el valor de i pasa a
ser igual a 1 (i = 1), y la etapa retrocede de nuevo a la etapa S43
a través de la estimación de la etapa S46.
A continuación, la misma operación que se ha
mencionado anteriormente continúa hasta i = 5. Después que i pase a
ser igual a 6 (i = 6) (etapa S45), la etapa retrocede de nuevo a la
etapa S43 a través de la etapa S46. Y entonces, dado que se
establecen las siguientes relaciones:
- tb[6][7] = 0,67 < 0,6 = th7;
- tb[6][8] = 0,95 < 0,9 = th8; y
- tb[6][9] = 0,89 < 0,8 = th9,
la estimación de la etapa S43 pasa
a ser "sí", y la etapa avanza hasta la etapa S44. En este
momento, el valor del indicador_tonal pasa a ser igual a 1 (etapa
S44).
- Indicador_tonal = 1
A continuación, i pasa a ser igual a 7 (i = 7)
(etapa S45), y la etapa retrocede de nuevo a la etapa S43 a través
de la etapa S43. En el momento en que i = 7, dado que se establecen
las siguientes relaciones:
- tb[7][7] = 0,42 < 0,6 = th7;
- tb[7][8] = 0,84 < 0,9 = th8; y
- tb[7][9] = 0,81 < 0,8 = th9,
la estimación de la etapa S43 pasa
a ser "no", y la etapa avanza hasta la etapa S45. Por otro
lado, el valor del indicador_tonal se mantiene en 1 y no cambia en
absoluto. Y entonces, después de que i pase a ser igual a 8 (i = 8)
(etapa S45), la etapa avanza, en este momento, hasta la etapa S47 a
través de la estimación de la etapa S46, y entonces, el valor del
indicador_tonal (etapa S47). En este ejemplo, dado que
indicador_tonal = 1, la estimación pasa a ser "sí", y la etapa
avanza hasta la etapa S48. Por consiguiente, se estima que el bloque
acústico de entrada se convierta por MDCT mediante un bloque
largo.
Hasta aquí, se han descrito las técnicas
anteriores relacionadas con el aparato de codificación de señales
acústicas digitales, el procedimiento de codificación de la señal
acústica digital y el medio de grabación para grabar el programa de
codificación de la señal acústica digital.
Sin embargo, según dichas técnicas anteriores,
por ejemplo, reveladas en los documentos de la técnica anterior, por
ejemplo, la memoria descriptiva publicada de la patente japonesa
públicamente consultable nº 9-232964 y otros
documentos relacionados con el MPEG-2 Audio AAC
(Advanced Audio Encoding) estandarizado en la ISO/IEC
13818-7, el MDCT (Modified Discrete Cosine
Transform), y el M/S (MS stereo-Middle Side Stereo),
etc., no existe ningún efecto funcional ventajoso para mejorar el
aparato, el procedimiento y el medio de grabación anteriormente
mencionados. La presente invención se ha hecho en vista de los
problemas anteriormente mencionados y otros problemas, con el fin de
resolver los defectos anteriores y las cuestiones problemáticas de
las técnicas anteriores. La presente invención mejora los diversos
problemas de las técnicas anteriores mencionados hasta aquí. La
presente invención proporciona un aparato de codificación de señales
acústicas digitales según la reivindicación 4, un procedimiento
según la reivindicación 1 y un medio de grabación según la
reivindicación 8 para grabar un programa según la reivindicación 7
de codificación de señales acústicas digitales.
Sin embargo, incluso en el procedimiento de la
técnica anterior mencionado anteriormente, la estimación largo/corto
no se lleva a cabo adecuadamente en algunas ocasiones. Esto
significa que, a pesar de que la conversión mediante el uso de
bloque(s) corto(s) es esencialmente el procedimiento
habitual, dado que el resultado de la clasificación de grupos de la
técnica anterior mencionado anteriormente pasa a ser 1 grupo, en
algunas ocasiones, se estima que éste sea un bloque largo.
Asimismo, en la Fig. 9, dado que la frecuencia de
muestreo inferior (más baja) de la señal acústica digital en el área
de frecuencia pasa a ser igual o superior a 4 KHz, el alcance de la
contribución pasa a ser inferior debido al valor umbral audible
absoluto, la medida cuadrada (total) de las áreas de asignación de
bits (área de la línea inclinada en la Fig. 9) aumenta
relativamente. Como resultado, el valor de la entropía de sensación
(EP) calculado en la etapa S12 por el procedimiento de estimación de
bloques largo/corto que se describe en la ISO/IEC
13818-7 mencionada anteriormente también aumenta
progresivamente.
Por otro lado, cuando el valor umbral con
respecto a la diferencia entre las sumas (valores sumatorios) de las
entropías perceptivas de los respectivos bloques cortos toma un
valor común independientemente de la frecuencia de muestreo, surge
un problema que debe resolverse, por el que, incluso aunque la
estimación largo/corto pueda llevarse a cabo adecuadamente con una
frecuencia de muestreo (determinada), la misma estimación no puede
llevarse a cabo adecuadamente con otra frecuencia de muestreo.
El documento EP 0 986 047 A2, que establece el
estado de la técnica anterior en el sentido del art. 54(3)
EPC, revela un procedimiento de conexión entre la codificación de
bloques largos y cortos de los marcos de los datos de audio, en el
que se calcula la diferencia de la entropía perceptiva del bloque
largo de el marco actual y el marco precedente y en el que se toman
decisiones en función del cálculo de la diferencia de las entropías
perceptivas.
El documento US 5,627,938 revela un procedimiento
y un aparato para cuantificar señales de audio usando un factor de
escala, que se interpola entre un valor umbral basado en el umbral
de audición calculado con una frecuencia dada y el umbral de
audición absoluto con la misma frecuencia.
De acuerdo con la invención, los bloques cortos
pueden clasificarse adecuadamente en grupos sin deteriorar la
calidad del sonido, tomando una contramedida para la diferencia
entre las frecuencias de muestreo de la señal acústica de entrada y,
asimismo, puede estimarse (discriminarse) claramente la diferencia
de largo/corto. El otro objeto de la presente invención es
proporcionar un aparato de señales acústicas digitales según la
reivindicación 4, un procedimiento de codificación de la señal
acústica digital según la reivindicación 1 y un medio de grabación
según la reivindicación 8 para grabar en el mismo el programa de
codificación de la señal acústica digital según la reivindicación
7.
Se obtendrá una apreciación más completa de la
invención y muchas de las ventajas intrínsecas de la misma al
comprenderse ésta mejor mediante la referencia a la siguiente
descripción detallada, considerada en conexión con los dibujos
adjuntos, en los que:
la Fig. 1 es un diagrama de bloques que ilustra
la estructura del aparato de codificación se señales acústicas
digitales según la presente invención;
la Fig. 2 es un diagrama de flujo que ilustra el
funcionamiento del procedimiento de codificación de señales
acústicas digitales de la primera forma de realización según la
presente invención;
la Fig. 3 es un diagrama ilustrativo de la forma
de onda para explicar, a modo de ejemplo, la forma de onda de la
señal acústica en la primera forma de realización según la presente
invención;
la Fig. 4 es un diagrama (lista) para explicar la
relación entre las entropías perceptivas en los dos marcos que son
sucesivos en el tiempo que transcurre para los respectivos bloques
cortos;
la Fig. 5 es un diagrama de flujo que ilustra el
funcionamiento del procedimiento de codificación de señales
acústicas digitales de la segunda forma de realización según la
presente invención;
la Fig. 6 es un diagrama ilustrativo de la forma
de onda para explicar la clasificación de grupos en la segunda forma
de realización según la presente invención;
la Fig. 7 es un diagrama (lista) para explicar un
ejemplo del valor umbral para cada una de las frecuencias de
muestreo;
la Fig. 8 es un diagrama de bloques del sistema
que ilustra la estructura del sistema según la presente
invención;
la Fig. 9 es un diagrama ilustrativo de la forma
de onda para explicar las distribuciones de la intensidad de la
señal acústica, el valor umbral de enmascaramiento y el valor umbral
de audio absoluto;
la Fig. 10 es un diagrama de bloques que ilustra
la estructura básica de la codificación AAC;
la Fig. 11 es un diagrama que muestra el área de
conversión de MDCT;
la Fig. 12 es un diagrama que muestra el área de
conversión de MDCT para la forma de onda de la señal que experimenta
un cambio leve;
la Fig. 13 es un diagrama que muestra la forma de
onda de la señal que experimenta un cambio violento (agudo);
la Fig. 14 es un diagrama ilustrativo para
explicar un ejemplo de la clasificación de grupos;
la Fig. 15 es un diagrama de flujo que ilustra el
funcionamiento de la estimación de bloques largo/cortos en la
ISO/IEC 13818-7;
las Figs. 16A y 16B son un diagrama de flujo que
ilustra el funcionamiento del procedimiento de codificación de
señales acústicas digitales de la técnica anterior;
la Fig. 17 es un diagrama ilustrativo de la forma
de onda, a modo de ejemplo, de la señal acústica;
la Fig. 18 es un diagrama (lista) que muestra la
relación entre los bloques cortos y la entropía perceptiva;
las Figs. 19A y 19B son un diagrama de flujo que
ilustra el funcionamiento del otro procedimiento de codificación de
señales acústicas digitales;
la Fig. 20 es un diagrama ilustrativo para
explicar la relación entre el bloque corto y el índice de
tonalidad;
la Fig. 21 es un diagrama ilustrativo para
explicar la relación entre el valor de la señal original, el código
de longitud fija, el código de Huffman y el código incapaz de
descodificar;
la Fig. 22 es un diagrama ilustrativo para
explicar la cuantificación;
la Fig. 23 es un diagrama ilustrativo para
explicar el ejemplo numérico concreto del error de
cuantificación;
las Figs. 24A y 24B son diagramas ilustrativos de
la forma de onda para explicar la conversión de la forma de onda del
área de tiempo a la forma de onda del área de frecuencia, en los que
la Fig. 24A muestra la relación entre la amplitud del sonido y el
tiempo y la Fig. 24B muestra la relación entre el volumen del sonido
y la frecuencia;
la Fig. 25 es un diagrama explicativo para
explicar el ejemplo de división de la señal en el área de frecuencia
en dos anchos de banda;
la Fig. 26 es un diagrama de flujo de la señal
para mostrar la producción básica de la codificación de la señal
acústica;
la Fig. 27 es un diagrama de flujo de la señal
para mostrar la producción de la codificación de señales acústicas
de MP3; y
la Fig. 28 muestra un ejemplo de una fila de
valores numéricos y dos casos en los que se asigna a la fila de
valores numéricos el código de longitud fija y el código de Huffman,
respectivamente.
Para describir la forma de realización preferente
de la presente invención, se emplea terminología específica por
motivos de claridad. No obstante, no se pretende limitar la presente
invención a la terminología específica seleccionada y debe
comprenderse que cada elemento técnico incluye todos los
equivalentes técnicos que funcionen de una manera similar.
Ahora, con referencia a los dibujos, en los que
los mismos números de referencia designan partes idénticas o
correspondientes en cada una de las diversas vistas (diagramas) y,
más concretamente, con referencia a las Figs. 1 a 8 de los mismos,
se ilustran el aparato mejorado de codificación de señales acústicas
digitales, el procedimiento mejorado de codificación de la señal
acústica digital y el medio mejorado para grabar el programa de
codificación de la señal acústica digital.
Para explicarlo de una manera más detallada, con
el fin de resolver la cuestión principal anteriormente mencionada,
el aparato de codificación de señales acústicas digitales de la
presente invención se compone de unos medios de cálculo de la
entropía perceptiva para calcular la entropía perceptiva de una
señal acústica de entrada calculada para cada uno de los respectivos
bloques cortos de conversión; unos medios de cálculo de la suma
total de las entropías perceptivas para obtener la suma total en el
marco de la entropía perceptiva calculada por los medios de cálculo
de la entropía perceptiva; unos medios de comparación para comparar
el valor absoluto de la diferencia entre las respectivas sumas
totales en el marco de la entropía perceptiva de los dos marcos que
son sucesivos en relación con el tiempo transcurrido con un valor
umbral determinado previamente; y unos medios de estimación de
bloques largo/corto para estimar si debe ser el bloque largo o el
bloque corto el que convierta el bloque de la señal acústica de
entrada en función del resultado de la comparación obtenido por los
medios de comparación.
Asimismo, en el aparato de codificación de
señales acústicas digitales de la presente invención, cuando el
valor absoluto es superior al valor umbral según el resultado de la
comparación obtenido por los medios de comparación, los medios de
estimación de los bloques largo/corto estiman que sean los bloques
cortos los que conviertan el último marco de los dos marcos
sucesivos en el tiempo transcurrido; y cuando el valor absoluto es
inferior al valor umbral, los medios de estimación de los bloques
largo/corto estiman que sea el bloque largo el que convierta el
último de los dos marcos.
Por consiguiente, es posible proporcionar el
aparato de codificación de señales acústicas digitales capaz de
llevar a cabo la conversión de los bloques reflejando (utilizando
eficazmente) además la propiedad de la señal acústica de
entrada.
Asimismo, el otro aparato de codificación de
señales acústicas digitales de la presente invención se compone de
unos medios de cálculo de la entropía perceptiva para calcular la
entropía perceptiva de una señal acústica de entrada calculada para
cada uno de los respectivos bloques cortos de conversión; unos
medios de cálculo de la suma total de las entropías perceptivas para
obtener la suma total en el marco de la entropía perceptiva
calculada por los medios de cálculo de la entropía perceptiva; unos
medios de comparación para comparar el valor absoluto de la
diferencia entre las respectivas sumas totales en el marco de la
entropía perceptiva de los dos marcos que son sucesivos en relación
con el tiempo transcurrido con un valor umbral determinado
previamente; y unos medios de estimación que estiman que sean los
bloques cortos los que conviertan el último marco de los dos marcos
sucesivos en el tiempo transcurrido cuando el valor absoluto sea
superior al valor umbral según el resultado de la comparación
obtenido por dichos medios de comparación, y que la estimación no
pueda llevarse a cabo cuando el valor absoluto sea inferior al
valor
umbral.
umbral.
Además, en el aparato de codificación de señales
acústicas digitales de la presente invención, el valor umbral es
igual al valor determinado para la frecuencia de muestreo de la
señal acústica de entrada. Según otro aspecto de la forma de
realización de la presente invención, el procedimiento de
codificación de la señal acústica digital incluye las etapas de:
calcular la entropía perceptiva de
una señal acústica de entrada calculada para cada uno de los
respectivos bloques cortos de conversión; obtener la suma total en
el marco de la entropía perceptiva calculada; comparar el valor
absoluto de la diferencia entre las respectivas sumas totales en el
marco de la entropía perceptiva de los dos marcos que son sucesivos
en relación con el tiempo transcurrido con un valor umbral
determinado previamente; y estimar si es el bloque largo o los
bloques cortos los que deben convertir el bloque de la señal
acústica de entrada en función del resultado de la
comparación.
En el otro procedimiento de codificación de
señales acústicas digitales de la presente invención, cuando el
valor absoluto es superior al valor umbral, se estima que los sean
los bloques cortos los que conviertan el último marco de los dos
marcos sucesivos en el tiempo transcurrido; y cuando el valor
absoluto es inferior al valor umbral, se estima que sea el bloque
largo el que convierta el último de los dos marcos.
El otro procedimiento de codificación de señales
acústicas digitales de la presente invención incluye las etapas de:
calcular la entropía perceptiva de una señal acústica de entrada
calculada para cada uno de los respectivos bloques cortos de
conversión; obtener la suma total en el marco de la entropía
perceptiva calculada; comparar el valor absoluto de la diferencia
entre las respectivas sumas totales en el marco de la entropía
perceptiva de los dos marcos que son sucesivos en relación con el
tiempo transcurrido con un valor umbral determinado previamente; y
estimar que sean los bloques cortos los que conviertan el último
marco de los dos marcos sucesivos en el tiempo transcurrido cuando
el valor absoluto es superior al valor umbral, y que sea el bloque
largo el que convierta el último marco de los dos marcos sucesivos
en el tiempo transcurrido cuando el valor absoluto es inferior al
valor umbral.
En el otro procedimiento de codificación de
señales acústicas digitales de la presente invención, el valor
umbral es igual a un valor determinado para la frecuencia de
muestreo de la señal acústica de entrada.
Además, utilizando un programa de ordenador, que
puede grabarse en un medio de grabación, para poner en práctica el
procedimiento de codificación de señales acústicas digitales según
la presente invención, el aparato para construir el sistema de
codificación puede usarse ampliamente para diversos fines, sin
modificar el sistema existente. Más adelante, se describe de manera
más detallada el programa de ordenador o medio de grabación
anteriormente mencionado.
En el aparato de codificación de señales
acústicas digitales de la presente invención en el que una señal
acústica digital entra a lo largo del eje del tiempo y se divide en
bloques a lo largo del mismo, se ponen en práctica procesamientos
tales como la división en subbandas, la conversión al área de
frecuencia, etc. para cada uno de los respectivos bloques. La señal
acústica se divide en una pluralidad de bandas de frecuencia. Se
asignan bits codificados a cada una de las respectivas bandas de
frecuencia. Se obtiene un factor de escala correspondiente al número
de bits codificados de los bits asignados. La señal acústica digital
se comprime y se codifica mediante la cuantificación de la señal
acústica con el factor de escala. Una vez que se ha llevado a cabo
la conversión al área de frecuencia, la señal acústica dividida en
bloques se convierte bien a un bloque largo de conversión o bien a
varios bloques cortos de conversión. Cuando se emplean los bloques
cortos de conversión, la pluralidad de bloques cortos de conversión
se dividen en grupos de varios bloques que incluyen respectivamente
uno o varios bloques cortos de conversión. La señal acústica se
cuantifica, lo que hace que el bloque o la pluralidad de bloques
cortos de conversión incluidos en el mismo grupo correspondan a un
factor de escala común.
El aparato de codificación de señales acústicas
digitales se compone de unos medios de cálculo de la entropía
perceptiva para calcular la entropía perceptiva de una señal
acústica de entrada calculada para cada uno de los respectivos
bloques cortos de conversión; de unos medios de cálculo de la suma
total de las entropías perceptivas para obtener la suma total en el
marco de la entropía perceptiva calculada por los medios de cálculo
de la entropía perceptiva; de unos medios de comparación para
comparar el valor absoluto de la diferencia entre las respectivas
sumas totales en el marco de la entropía perceptiva de los dos
marcos que son sucesivos en relación con el tiempo transcurrido con
un valor umbral determinado previamente; y de unos medios de
estimación de bloques largo/corto para estimar si es el bloque largo
o el bloque corto el que debe convertir el bloque de la señal
acústica de entrada en función del resultado de la comparación
obtenido por los medios de comparación.
Primera forma de
realización
A continuación se describe la primera forma de
realización de la presente invención, con referencia a los dibujos
adjuntos.
La Fig. 1 es un diagrama de bloques que ilustra
la estructura del aparato de codificación de señales acústicas
digitales en relación con la primera forma de realización de la
presente invención. El aparato de codificación de señales acústicas
digitales de la forma de realización según se muestra en la Fig. 1
se construye con un medio divisor de bloques 11 para dividir la
señal acústica de entrada en un número predeterminado de bloques,
por ejemplo, los ocho bloques sucesivos en la siguiente explicación;
un medio de cálculo de la entropía perceptiva 12 para calcular la
entropía perceptiva PE de los respectivos bloques divididos de
acuerdo con la fórmula de cálculo anteriormente mencionada; un medio
de cálculo de la suma total de las entropías perceptivas 13 para
obtener la suma total en el marco de la entropía perceptiva
calculada; un medio de comparación 14 para comparar el valor
absoluto de la diferencia entre las respectivas sumas totales en el
marco de la entropía perceptiva de los dos marcos que son sucesivos
en el tiempo transcurrido con el valor umbral predeterminado; y un
medio de estimación de bloques largo/corto 15 para estimar bien el
bloque largo o bien los bloques cortos de acuerdo con el resultado
de la comparación.
En el presente documento, la Fig. 2 es un
diagrama de flujo que ilustra el funcionamiento del aparato de
codificación de señales acústicas digitales en relación con la
primera forma de realización de la invención. En lo sucesivo, se
describe concretamente el funcionamiento de la forma de realización,
con referencia a la Fig. 1 y la Fig. 2. En esta ocasión, los datos
acústicos que se muestran en la Fig. 3 se emplean como ejemplo de la
señal acústica de entrada. Aquí, la Fig. 3 muestra 16 bloques cortos
en total contenidos en los dos marcos que son sucesivos en el tiempo
transcurrido. Con respecto al marco, el marco f-1 y
el marco f se disponen en este orden de tiempo. El marco que se
aprecia es el último marco f. Todos los números correspondientes a
los respectivos bloques cortos se adjuntan a los respectivos
marcos.
En primer lugar, los medios divisores de bloques
11 dividen la señal acústica en bloques y los medios de cálculo de
la entropía perceptiva 12 calculan respectivamente la entropía
perceptiva PE[f][I] para los ocho bloques cortos sucesivos I
(0 \leq i \leq 7) en el marco f (etapa S101). El cálculo de la
entropía perceptiva se lleva a cabo por el procedimiento explicado
en la etapa 12 del procedimiento de estimación de bloques
largo/corto que se describe en la ISO/IEC 13818-7
anteriormente mencionada. A continuación, el valor sumatorio
SPE[f] con respecto a 0 \leq i \leq 7 de PE[f][I]
se obtiene como se define en la siguiente ecuación (2) mediante el
uso del medio de cálculo de la suma total de las entropías
perceptivas 13 (etapa S102).
Ecuación
(2)
SPE[f]
=
\sum\limits^{7}_{i=0}EP(f)(i)
El valor absoluto de la diferencia entre el valor
de SPE [f-1] obtenido previamente de un modo similar
en el marco precedente f-1 se obtiene mediante el
uso del medio de comparación 14 y el valor de SPE [f]. El valor
absoluto así obtenido se compara con el valor umbral determinado
previamente conexión_pe_s, es decir, se realiza la comparación de
qué valor es superior (etapa S103). Se estima que, en los medios de
estimación de bloques largo/corto 15, cuando el valor absoluto
obtenido es superior al valor conexión_pe_s, la etapa avanza hasta
la etapa S104 y el marco f se convierte con la pluralidad de bloques
cortos. Por otro lado, se estima que, en los medios de estimación de
bloques largo/corto 15, cuando el valor absoluto obtenido es
inferior al valor conexión_pe_s, la etapa avanza hasta la etapa S105
y el marco f se convierte con un (único) bloque largo.
La Fig. 4 es un diagrama (lista) que muestra los
valores PE[f][I] correspondientes a los respectivos bloques
cortos que se muestran en la Fig. 3. En el ejemplo que se muestra en
la Fig. 4,
- SPE[f-1] = 1390 y
- SPE[f] = 1030.
Por lo tanto, cuando conexión_pe_s = 500,
- I SPE[f-1] - SPE[f] I
- = 360 < conexión_pe_s = 500.
Por consiguiente, se estima que, con respecto al
marco f, la conversión se realiza con un (único) bloque largo.
\newpage
Segunda forma de
realización
A continuación, se explica el funcionamiento del
aparato de codificación de señales acústicas digitales en relación
con la segunda forma de realización de la presente invención de
acuerdo con el gráfico de producción que se muestra en la Fig. 5.
Los mismos procesamientos de las etapas comprendidas entre la etapa
S101 y la etapa S104 que se muestran en la Fig. 2 se llevan a cabo
respectivamente en las etapas comprendidas entre la etapa S201 y la
etapa S204 que se muestran en la Fig. 5. En el presente documento,
se omiten las operaciones iguales y únicamente se describen las
operaciones diferentes.
En la etapa S203, se obtiene el valor absoluto de
la diferencia entre el valor SPE[f-1] que ya
se ha obtenido en el marco previo f-1 del mismo modo
que se mencionó anteriormente y el valor SPE[f], y el valor
absoluto así obtenido se compara con el valor umbral predeterminado
conexión_pe_s. Cuando el valor absoluto obtenido es superior a
conexión_pe_s, la etapa avanza hasta la etapa S204 y se estima que
el marco f se convierta con varios bloques cortos. Por otro lado,
cuando el valor absoluto obtenido es inferior a conexión_pe_s, la
estimación no puede realizarse sólo con la información relativa a la
diferencia entre los valores de la suma total de la entropía
perceptiva de los respectivos bloques cortos en el marco, y la
estimación largo/corto se realiza con los otros medios.
Como ejemplo de ello, el marco f se divide (se
clasifica) en grupos de tal manera que la diferencia entre el valor
máximo y el valor mínimo de la entropía perceptiva relativa a los
respectivos bloques cortos del mismo grupo pasa a ser inferior al
valor umbral predeterminado. Como resultado, cuando el número de
grupos es 1, la etapa avanza hasta la etapa S206 y el marco f se
convierte al área de frecuencia con un (único) bloque largo. Cuando
el número de grupos es 2 o más, la etapa avanza hasta la etapa S204
y se estima que la conversión se realice con varios bloques cortos.
Los detalles de la clasificación de grupos son tal como se muestra
en el diagrama de flujo de la Fig. 16.
Como ejemplo concreto, además de la Fig. 3 y la
Fig. 4, se considera un ejemplo según se muestra en los dibujos,
incluida la Fig. 6, que muestran el resultado de la clasificación de
grupos del marco f. Aquí, conexión_pe_s es igual a 500. Como se
mencionó anteriormente, dado que
- I SPE[f-1] - SPE[f] I = 360 < conexión_pe_s = 500,
finalmente, depende de la
estimación debido al resultado de la clasificación de grupos. Dado
que el marco f se clasifica en tres grupos en la Fig. 6 (el grupo 0
son los bloques cortos i = 0, 1, 2, 3 y 4; el primer grupo es el
bloque corto i = 5; y el segundo grupo son los bloques cortos i = 6
y 7), se estima que la conversión se realice con varios bloques
cortos. Aquí, el procedimiento de estimación largo/corto empleado en
la etapa S205 no se limita al procedimiento basado en el resultado
de la clasificación de grupos que se emplea aquí. Se permite emplear
otro procedimiento de
estimación.
Tercera forma de
realización
Asimismo, aunque conexión_pe_s se determina en la
Fig. 2 y la Fig. 5, también se permite determinar previamente el
valor para cada una de las frecuencias de muestreo de la señal
acústica de entrada, como en el caso de la Fig. 7, que muestra el
ejemplo del valor de conexión_pe_s para cada una de las frecuencias
de muestreo, y establece el valor de conexión_pe_s con referencia a
la Fig. 7 prácticamente de acuerdo con la frecuencia de muestreo de
la señal acústica de entrada.
A continuación, la estructura del sistema de la
presente invención se ilustra en el diagrama de bloques de la Fig.
8. Es decir, la Fig. 8 muestra el hardware construido con el
microprocesador que pone en práctica el software mediante el
procedimiento de codificación de señales acústicas digitales en la
forma de realización anteriormente mencionada. En la Fig. 8, el
sistema de codificación de señales acústicas digitales se construye
con una interfaz (en lo sucesivo, abreviada como I/F) 81, una CPU
82, una ROM 83, una RAM 84, un aparato de visualización 85, un disco
duro 86, un teclado 87 y una unidad de CD-ROM
88.
Asimismo, se prepara el aparato de procesamiento
comúnmente usado, y el programa para poner en práctica el
procedimiento de codificación de la señal acústica digital según la
presente invención se graba en el medio de grabación capaz de leer
el CD-ROM 89, etc. La señal de control entra desde
el aparato externo a través de la I/F 81, y el operador emite el
comando (instrucción) por medio del teclado 87 o el programa de la
presente invención se inicializa automáticamente. La CPU 82 pone en
práctica el proceso de control de la codificación que acompaña al
procedimiento de codificación de señales acústicas digitales de
acuerdo con el programa anterior. El resultado del proceso se
almacena en el aparato de memorización (memoria), tal como la RAM
84, el disco duro 86, etc. La información así almacenada es
exportada al aparato de visualización según requiera la ocasión.
Como se ha mencionado hasta aquí, utilizando el
programa de ordenador o el medio de grabación para poner en práctica
el procedimiento de codificación de la señal acústica digital según
la presente invención, el aparato para construir el sistema de
codificación puede emplearse comúnmente sin modificar el sistema
usado actualmente.
A continuación, se describen más ampliamente los
detalles del programa de ordenador, que puede almacenarse en un
medio de grabación.
Un medio de grabación de la presente invención se
emplea para grabar un programa de ordenador o un programa de
codificación del aparato de codificación de señales acústicas
digitales. En el medio de grabación, la señal acústica digital entra
a lo largo del eje del tiempo y se divide en bloques a lo largo del
mismo mediante el uso de un ordenador. Procesamientos tales como la
división en subbandas o la conversión al área de frecuencia, etc. se
ponen en práctica para cada uno de los respectivos bloques. La señal
acústica se divide en varias bandas de frecuencia. Los bits
codificados se asignan a cada uno de los respectivos anchos de
banda. Se obtiene el factor de escala correspondiente al número de
bits codificados de los bits asignados. La señal acústica digital se
comprime y se codifica mediante la cuantificación de la señal
acústica con el factor de escala. Una vez que la conversión al área
de frecuencia se ha llevado a cabo, la señal acústica dividida en
bloques se convierte bien a un bloque largo de conversión o bien a
una pluralidad de bloques cortos de conversión. Cuando se emplean
los bloques cortos de conversión, la pluralidad de bloques cortos de
conversión se dividen en los grupos de varios bloques que incluyen
respectivamente uno o varios bloques cortos de conversión. La señal
acústica se cuantifica, haciendo que el bloque o la pluralidad de
bloques cortos de conversión incluidos en el mismo grupo
correspondan a un factor de escala común.
El medio tiene las funciones de: calcular la
entropía perceptiva de una señal acústica de entrada calculada para
cada uno de los respectivos bloques cortos de conversión; obtener la
suma total en el marco de dicha entropía perceptiva calculada;
comparar el valor absoluto de la diferencia entre las respectivas
sumas totales en el marco de la entropía perceptiva de los dos
marcos que son sucesivos en relación con el tiempo transcurrido con
un valor umbral determinado previamente; y estimar si la conversión
del bloque de dicha señal acústica de entrada debe realizarse por el
bloque largo o por los bloques cortos en función del resultado de la
comparación.
Otro medio de grabación de la presente invención
también se emplea para grabar un programa de codificación del
aparato de codificación de señales acústicas digitales. En el medio
de grabación, la señal acústica digital entra a lo largo del eje del
tiempo y se divide en bloques a lo largo del mismo mediante el uso
de un ordenador. Procesamientos tales como la división en subbandas
o la conversión al área de frecuencia se ponen en práctica para cada
uno de los respectivos bloques. La señal acústica se divide en
varios anchos de banda. Los bits codificados se asignan a cada uno
de los respectivos anchos de banda. Se obtiene el factor de escala
correspondiente al número de bits codificados de los bits asignados.
La señal acústica digital se comprime y se codifica mediante la
cuantificación de la señal acústica con el factor de escala. Una vez
que la conversión al área de frecuencia se ha llevado a cabo, la
señal acústica dividida en bloques se convierte bien a un bloque
largo de conversión o bien a una pluralidad de bloques cortos de
conversión. Cuando se emplean los bloques cortos de conversión,
dicha pluralidad de bloques cortos de conversión se dividen en
grupos de varios bloques que incluyen respectivamente uno o varios
bloques cortos de conversión. La señal acústica se cuantifica,
haciendo que uno o varios bloques cortos de conversión incluidos en
el mismo grupo correspondan a un factor de escala común. El medio
tiene las funciones de: calcular la entropía perceptiva de una señal
acústica de entrada calculada para cada uno de los respectivos
bloques cortos de conversión; obtener la suma total en el marco de
dicha entropía perceptiva calculada; comparar el valor absoluto de
la diferencia entre las respectivas sumas totales en el marco de la
entropía perceptiva de los dos marcos que son sucesivos en relación
con el tiempo transcurrido con un valor umbral determinado
previamente; y estimar que el último marco de los dos marcos
sucesivos en el tiempo transcurrido se convierta mediante los
bloques cortos cuando el valor absoluto es superior al valor umbral,
y estimar que el último marco de los dos marcos sucesivos en el
tiempo transcurrido se convierta mediante el bloque largo cuando el
valor absoluto es inferior al valor umbral.
Hasta aquí, se han descrito el aparato de
codificación de señales acústicas digitales, el procedimiento de
codificación de la señal acústica digital y el medio de grabación
para grabar el programa de codificación de la señal acústica
digital.
Sin embargo, la presente invención no se limita a
la forma de realización anteriormente mencionada. Es decir, no es
necesario mencionar que pueden usarse diversos tipos de
modificación, variación o sustitución, sin apartarse del ámbito de
la invención según se describe en las reivindicaciones adjuntas.
Como se desprende de la descripción anterior, la
forma de realización de la presente invención se caracteriza porque
el aparato de codificación de señales acústicas digitales se
construye con el medio de cálculo para calcular la entropía
perceptiva de la señal acústica de entrada, el medio de cálculo de
la suma total de las entropías perceptivas para calcular la suma
total de las entropías perceptivas en el marco de la entropía
perceptiva calculada por el medio de cálculo de la entropía
perceptiva, el medio de comparación para comparar el valor absoluto
de la diferencia entre las respectivas sumas totales en el marco de
los dos marcos sucesivos en el tiempo de la entropía perceptiva con
el valor umbral predeterminado, y los medios de estimación de los
bloques largo/corto para estimar si la conversión del bloque de la
señal acústica de entrada se realiza mediante el bloque largo o
mediante los bloques cortos en función del resultado de la
comparación. Asimismo, la forma de realización se caracteriza porque
los medios de estimación de los bloques largo/corto estiman que el
último marco de los dos marcos sucesivos en el tiempo transcurrido
se convierta mediante el bloque corto cuando el valor absoluto es
superior al valor umbral según el resultado de la comparación
obtenido por los medios de comparación, mientras que los medios de
estimación de los bloques largo/corto estiman que el último de
dichos dos marcos se convierta mediante el bloque largo cuando el
valor absoluto es inferior al valor umbral.
Por consiguiente, es posible proporcionar el
aparato de codificación de señales acústicas digitales capaz de
llevar a cabo la estimación largo/corto correspondiente a la
propiedad de la señal acústica de entrada.
La otra forma de realización de la presente
invención se caracteriza porque el aparato de codificación de
señales acústicas digitales se construye con los medios de cálculo
de la entropía perceptiva para calcular la entropía perceptiva de la
señal acústica de entrada, los medios de cálculo de la suma total de
las entropías perceptivas para calcular la suma total de las
entropías perceptivas en el marco de la entropía perceptiva
calculada por el medio de cálculo de la entropía perceptiva, los
medios de comparación para comparar el valor absoluto de la
diferencia entre las respectivas sumas totales en el marco de los
dos marcos sucesivos en el tiempo de la entropía perceptiva con el
valor umbral predeterminado, y los medios de estimación que estiman
que el último marco de los dos marcos sucesivos en el tiempo
transcurrido se convierta mediante el bloque corto cuando el valor
absoluto es superior al valor umbral según el resultado de la
comparación obtenido por los medios de comparación, y que la
estimación no pueda llevarse a cabo cuando el valor absoluto es
inferior al valor umbral.
Por consiguiente, es posible proporcionar el
aparato de codificación de señales acústicas digitales capaz de
llevar a cabo la estimación de la conversión de los bloques
reflejando además la propiedad de la señal acústica de entrada.
Asimismo, el valor umbral se determina para cada
una de las frecuencias de muestreo de la señal acústica de entrada
y, por ello, puede llevarse a cabo la estimación adecuada
largo/corto correspondiente a la diferencia entre las frecuencias de
muestreo de la señal acústica de entrada.
Otra forma de realización más de la presente
invención se caracteriza porque el procedimiento de codificación de
la señal acústica digital comprende las etapas de: calcular la
entropía perceptiva de una señal acústica de entrada calculada para
cada uno de los respectivos bloques cortos de conversión; obtener la
suma total en el marco de la entropía perceptiva calculada; comparar
el valor absoluto de la diferencia entre las respectivas sumas
totales en el marco de la entropía perceptiva de los dos marcos que
son sucesivos en relación con el tiempo transcurrido con un valor
umbral determinado previamente; y estimar si debe ser el bloque
largo o el bloque corto el que convierta el bloque de la señal
acústica de entrada en función del resultado de la comparación.
Por consiguiente, es posible proporcionar el
procedimiento de codificación de la señal acústica digital capaz de
llevar a cabo la estimación largo/corto correspondiente a la
propiedad de la señal acústica de entrada.
Asimismo, el procedimiento de codificación de la
señal acústica digital comprende las etapas de: calcular la entropía
perceptiva de una señal acústica de entrada calculada para cada uno
de los bloques cortos de conversión; obtener la suma total en el
marco de la entropía perceptiva calculada; comparar el valor
absoluto de la diferencia entre las respectivas sumas totales en el
marco de la entropía perceptiva de los dos marcos que son sucesivos
en el tiempo transcurrido con un valor umbral determinado
previamente; y estimar que el último de los dos marcos sucesivos en
el tiempo transcurrido se convierta mediante el bloque corto cuando
el valor absoluto es superior al valor umbral, y estimar que el
último de los dos marcos sucesivos en el tiempo transcurrido se
convierta mediante el bloque largo cuando el valor absoluto es
inferior al valor umbral.
Por consiguiente, es posible proporcionar el
procedimiento de codificación de señales acústicas digitales capaz
de llevar a cabo la estimación de la conversión de bloques
reflejando además la propiedad de la señal acústica de entrada.
Asimismo, empleando el medio en el que se graba
el programa para poner en práctica el procedimiento de codificación
de señales acústicas digitales según la presente invención, el
aparato para construir el sistema de codificación puede usarse
comúnmente, sin modificar el sistema usado hasta aquí.
Hasta aquí se han descrito las formas de
realización preferentes de la presente invención. No obstante, son
posibles numerosas modificaciones y variaciones adicionales a la luz
de las enseñanzas anteriores. Por lo tanto, debe comprenderse que,
dentro del ámbito de las reivindicaciones adjuntas, la presente
invención puede ponerse en práctica de un modo distinto al descrito
específicamente en el presente documento.
Esta solicitud reclama el beneficio de prioridad
sobre la solicitud de patente japonesa nº 11-222054
presentada en la Oficina de Patentes Japonesa el 5 de agosto de
1999.
Claims (8)
1. Un procedimiento para codificar una señal
acústica digital que comprende las etapas de:
- proporcionar el marco de una señal acústica digital a lo largo del eje del tiempo;
- dividir dicho marco de la señal acústica digital en bloques mediante el uso de un ordenador;
- poner en práctica procesamientos entre los que se incluyen la división en subbandas o la conversión al área de frecuencia para cada uno de los respectivos bloques;
- dividir dicha señal acústica en una pluralidad de bandas de frecuencia;
- asignar bits codificados a cada una de dichas bandas de frecuencia respectivas;
- obtener un factor de escala correspondiente al número de bits codificados de los bits asignados; y
- comprimir y codificar dicha señal acústica digital mediante la cuantificación de dicha señal acústica con dicho factor de escala;
en el que, una vez que se ha llevado a cabo la
conversión a dicha área de frecuencia, dicho marco de señal acústica
dividida en bloques se convierte usando bien un bloque largo de
conversión o bien una pluralidad de bloques cortos de
conversión;
en el que, cuando se emplean dichos bloques
cortos de conversión, dicha pluralidad de bloques cortos de
conversión se dividen en grupos de una pluralidad de bloques que
incluyen respectivamente uno o una pluralidad de bloques cortos de
conversión; y
en el que dicha señal acústica se cuantifica,
haciendo que uno o una pluralidad de bloques cortos de conversión
incluidos en el mismo grupo corresponda a un factor de escala
común;
caracterizado porque dicho procedimiento
comprende además las etapas de:
calcular la entropía perceptiva del marco de una
señal acústica de entrada calculada para cada uno de dichos bloques
cortos de conversión respectivos (S101; S201);
obtener dicha suma total en el marco de dicha
entropía perceptiva calculada (S102; S202);
comparar el valor absoluto de la diferencia entre
las respectivas sumas totales en el marco de la entropía perceptiva
de los dos marcos que son sucesivos en relación con el tiempo
transcurrido con un valor umbral determinado previamente (S103;
S203); y
estimar si el bloque de dicha señal acústica de
entrada debe convertirse mediante dicho bloque largo o mediante
dichos bloques cortos en función del resultado de la
comparación.
2. Procedimiento según la reivindicación 1,
en el que, cuando dicho valor absoluto es
superior a dicho valor umbral, se estima que el último de dichos dos
marcos sucesivos en el tiempo transcurrido se convierta mediante
dicho bloque largo; y
en el que, cuando dicho valor absoluto es
inferior a dicho valor umbral, se estima que el último de dichos dos
marcos se convierta mediante dicho bloque largo.
3. Procedimiento según cualquiera de las
reivindicaciones 1 a 2, en el que dicho valor umbral es igual a un
valor determinado para la frecuencia de muestreo de dicha señal
acústica de entrada.
4. Aparato de codificación de señales acústicas
digitales que comprende unos medios en los que el marco de una señal
acústica digital se proporciona a lo largo de un eje del tiempo y se
divide en bloques, unos medios de procesamiento que incluyen una
división en subbandas o una conversión al área de frecuencia para
cada uno de los respectivos bloques aplicados, unos medios de
división en los que dicha señal acústica se divide en una pluralidad
de bandas de frecuencia, unos medios de cuantificación en los que se
asignan bits codificados a cada una de las dichas bandas de
frecuencia respectivas, se obtiene un factor de escala
correspondiente al número de bits codificados de los bits asignados
y dicha señal acústica digital se comprime y se codifica mediante la
cuantificación de dicha señal acústica con dicho factor de
escala,
unos medios para convertir dicho marco de señal
acústica dividida en bloques bien a un bloque largo de conversión o
bien a una pluralidad de bloques cortos de conversión, una vez que
se ha llevado a cabo la conversión a dicha área de frecuencia;
unos medios para dividir dicha pluralidad de
bloques cortos de conversión en grupos de una pluralidad de bloques
que incluyen respectivamente un bloque o una pluralidad de bloques
cortos de conversión, cuando se emplean dichos bloques cortos de
conversión; y
unos medios para cuantificar dicha señal
acústica, haciendo que un bloque o una pluralidad de bloques cortos
de conversión incluidos en el mismo grupo correspondan a un factor
de escala común;
caracterizado porque dicho aparato de
codificación de señales acústicas digitales comprende además:
unos medios de cálculo de la entropía perceptiva
(12) para calcular la entropía perceptiva del marco de una señal
acústica de entrada calculada para cada uno de dichos bloques cortos
de conversión respectivos;
unos medios de cálculo de la suma total de las
entropías perceptivas (13) para obtener dicha suma total en el marco
de dicha entropía perceptiva calculada por dichos medios de cálculo
de la entropía perceptiva (12);
unos medios de comparación (14) para comparar el
valor absoluto de la diferencia entre las respectivas sumas totales
en el marco de la entropía perceptiva de los dos marcos que son
sucesivos en relación con el tiempo transcurrido con un valor umbral
determinado previamente; y
unos medios de estimación de los bloques
largo/corto (15) para estimar si el bloque de dicha señal acústica
de entrada debe convertirse mediante dicho bloque largo o mediante
dichos bloques cortos en función del resultado de la comparación
obtenido por dichos medios de comparación.
5. Aparato según la reivindicación 4,
en el que dichos medios de estimación de los
bloques largo/corto (15) están adaptados de tal manera que estiman
que el último marco de dichos dos marcos sucesivos en el tiempo
transcurrido se convierta mediante dichos bloques cortos, cuando
dicho valor absoluto es superior a dicho valor umbral según el
resultado de la comparación obtenido por dichos medios de
comparación; y
estiman que el último de dichos dos marcos se
convierta mediante dicho bloque largo cuando dicho valor absoluto es
inferior a dicho valor umbral.
6. Aparato según cualquiera de las
reivindicaciones 4 a 5, que comprende unos medios de determinación
del umbral, en el que dicho valor umbral es igual a un valor
determinado para la frecuencia de muestreo de dicha señal acústica
de entrada.
7. Un programa de ordenador que puede cargarse
directamente en la memoria interna de un ordenador digital (82), que
comprende porciones del código del software para llevar a cabo las
etapas de cualquiera de las reivindicaciones 1 a 3, cuando dicho
programa se hace funcionar en un ordenador.
8. Un programa de ordenador almacenado en un
medio de grabación que puede usarse por un aparato de codificación
de señales acústicas digitales, comprendiendo dicho programa
instrucciones para llevar a cabo las etapas de cualquiera de las
reivindicaciones 1 a 3 para controlar dicho aparato de
codificación.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22205499A JP3762579B2 (ja) | 1999-08-05 | 1999-08-05 | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
JP22205499 | 1999-08-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2231090T3 true ES2231090T3 (es) | 2005-05-16 |
Family
ID=16776386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00116221T Expired - Lifetime ES2231090T3 (es) | 1999-08-05 | 2000-08-04 | Codificador de audio con sub-bandas basado en la conmutacion de bloques. |
Country Status (6)
Country | Link |
---|---|
US (1) | US6799164B1 (es) |
EP (1) | EP1074976B1 (es) |
JP (1) | JP3762579B2 (es) |
KR (1) | KR100348368B1 (es) |
DE (1) | DE60015030T2 (es) |
ES (1) | ES2231090T3 (es) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7006555B1 (en) | 1998-07-16 | 2006-02-28 | Nielsen Media Research, Inc. | Spectral audio encoding |
US7065416B2 (en) * | 2001-08-29 | 2006-06-20 | Microsoft Corporation | System and methods for providing automatic classification of media entities according to melodic movement properties |
US7035873B2 (en) | 2001-08-20 | 2006-04-25 | Microsoft Corporation | System and methods for providing adaptive media property classification |
US7532943B2 (en) * | 2001-08-21 | 2009-05-12 | Microsoft Corporation | System and methods for providing automatic classification of media entities according to sonic properties |
AU2001276588A1 (en) * | 2001-01-11 | 2002-07-24 | K. P. P. Kalyan Chakravarthy | Adaptive-block-length audio coder |
JP4141235B2 (ja) * | 2002-02-08 | 2008-08-27 | 株式会社リコー | 画像補正装置及びプログラム |
US20030215013A1 (en) * | 2002-04-10 | 2003-11-20 | Budnikov Dmitry N. | Audio encoder with adaptive short window grouping |
US7349842B2 (en) * | 2003-09-29 | 2008-03-25 | Sony Corporation | Rate-distortion control scheme in audio encoding |
US7426462B2 (en) * | 2003-09-29 | 2008-09-16 | Sony Corporation | Fast codebook selection method in audio encoding |
US7325023B2 (en) | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
US7283968B2 (en) * | 2003-09-29 | 2007-10-16 | Sony Corporation | Method for grouping short windows in audio encoding |
US7516064B2 (en) * | 2004-02-19 | 2009-04-07 | Dolby Laboratories Licensing Corporation | Adaptive hybrid transform for signal analysis and synthesis |
DE102004009949B4 (de) * | 2004-03-01 | 2006-03-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes |
US7436969B2 (en) * | 2004-09-02 | 2008-10-14 | Hewlett-Packard Development Company, L.P. | Method and system for optimizing denoising parameters using compressibility |
US7627481B1 (en) | 2005-04-19 | 2009-12-01 | Apple Inc. | Adapting masking thresholds for encoding a low frequency transient signal in audio data |
US8090586B2 (en) | 2005-05-26 | 2012-01-03 | Lg Electronics Inc. | Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal |
WO2007004831A1 (en) | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
US7991012B2 (en) | 2005-07-11 | 2011-08-02 | Lg Electronics Inc. | Apparatus and method of encoding and decoding audio signal |
US7565018B2 (en) * | 2005-08-12 | 2009-07-21 | Microsoft Corporation | Adaptive coding and decoding of wide-range coefficients |
AU2006285538B2 (en) | 2005-08-30 | 2011-03-24 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
US7696907B2 (en) | 2005-10-05 | 2010-04-13 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
EP1949366A4 (en) | 2005-10-05 | 2010-01-13 | Lg Electronics Inc | SIGNAL PROCESSING METHOD AND APPARATUS, ENCODING AND DECODING METHOD, AND ASSOCIATED APPARATUS |
US7672379B2 (en) | 2005-10-05 | 2010-03-02 | Lg Electronics Inc. | Audio signal processing, encoding, and decoding |
US7646319B2 (en) | 2005-10-05 | 2010-01-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
KR100857117B1 (ko) | 2005-10-05 | 2008-09-05 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치 |
US7742913B2 (en) | 2005-10-24 | 2010-06-22 | Lg Electronics Inc. | Removing time delays in signal paths |
JP2007183528A (ja) * | 2005-12-06 | 2007-07-19 | Fujitsu Ltd | 符号化装置、符号化方法、および符号化プログラム |
US7752053B2 (en) | 2006-01-13 | 2010-07-06 | Lg Electronics Inc. | Audio signal processing using pilot based coding |
US20090144054A1 (en) * | 2007-11-30 | 2009-06-04 | Kabushiki Kaisha Toshiba | Embedded system to perform frame switching |
US9313359B1 (en) | 2011-04-26 | 2016-04-12 | Gracenote, Inc. | Media content identification on mobile devices |
US20190379931A1 (en) | 2012-02-21 | 2019-12-12 | Gracenote, Inc. | Media Content Identification on Mobile Devices |
EP2830063A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for decoding an encoded audio signal |
US9943253B2 (en) | 2015-03-20 | 2018-04-17 | Innovo IP, LLC | System and method for improved audio perception |
WO2019007969A1 (en) * | 2017-07-03 | 2019-01-10 | Dolby International Ab | DETECTION AND CODING OF LOW COMPLEXITY DENSED TRANSIENT EVENTS |
JP7257975B2 (ja) * | 2017-07-03 | 2023-04-14 | ドルビー・インターナショナル・アーベー | 密集性の過渡事象の検出及び符号化の複雑さの低減 |
US10922139B2 (en) * | 2018-10-11 | 2021-02-16 | Visa International Service Association | System, method, and computer program product for processing large data sets by balancing entropy between distributed data segments |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0559348A3 (en) * | 1992-03-02 | 1993-11-03 | AT&T Corp. | Rate control loop processor for perceptual encoder/decoder |
US5537510A (en) * | 1994-12-30 | 1996-07-16 | Daewoo Electronics Co., Ltd. | Adaptive digital audio encoding apparatus and a bit allocation method thereof |
EP0721257B1 (en) * | 1995-01-09 | 2005-03-30 | Daewoo Electronics Corporation | Bit allocation for multichannel audio coder based on perceptual entropy |
US5699479A (en) * | 1995-02-06 | 1997-12-16 | Lucent Technologies Inc. | Tonality for perceptual audio compression based on loudness uncertainty |
GB9819920D0 (en) | 1998-09-11 | 1998-11-04 | Nds Ltd | Audio encoding system |
-
1999
- 1999-08-05 JP JP22205499A patent/JP3762579B2/ja not_active Expired - Fee Related
-
2000
- 2000-08-04 US US09/633,290 patent/US6799164B1/en not_active Expired - Fee Related
- 2000-08-04 KR KR1020000045308A patent/KR100348368B1/ko not_active IP Right Cessation
- 2000-08-04 DE DE60015030T patent/DE60015030T2/de not_active Expired - Lifetime
- 2000-08-04 EP EP00116221A patent/EP1074976B1/en not_active Expired - Lifetime
- 2000-08-04 ES ES00116221T patent/ES2231090T3/es not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1074976A3 (en) | 2001-06-27 |
EP1074976A2 (en) | 2001-02-07 |
DE60015030T2 (de) | 2005-11-10 |
JP3762579B2 (ja) | 2006-04-05 |
KR100348368B1 (ko) | 2002-08-10 |
DE60015030D1 (de) | 2004-11-25 |
US6799164B1 (en) | 2004-09-28 |
EP1074976B1 (en) | 2004-10-20 |
KR20010021226A (ko) | 2001-03-15 |
JP2001053617A (ja) | 2001-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2231090T3 (es) | Codificador de audio con sub-bandas basado en la conmutacion de bloques. | |
ES2646814T3 (es) | Codificación de señales de audio por transformada modificada deformada en el tiempo | |
ES2928335T3 (es) | Método para codificar señales multicanal y codificador | |
US8612215B2 (en) | Method and apparatus to extract important frequency component of audio signal and method and apparatus to encode and/or decode audio signal using the same | |
EP1440300B1 (en) | Encoding device, decoding device and audio data distribution system | |
TWI555008B (zh) | 使用在智慧間隙填充架構內之雙聲道處理之音頻編碼器、音頻解碼器及相關方法 | |
JP5627843B2 (ja) | スペクトル領域において適応切り替え式時間分解を使用して音声信号を符号化及び復号化する方法及び装置 | |
US9305558B2 (en) | Multi-channel audio encoding/decoding with parametric compression/decompression and weight factors | |
US6456963B1 (en) | Block length decision based on tonality index | |
ES2619277T3 (es) | Detector de transitorio y método para soportar la codificación de una señal de audio | |
ES2372064T3 (es) | Procedimiento y aparato para codificar y decodificar señales digitales. | |
US6772111B2 (en) | Digital audio coding apparatus, method and computer readable medium | |
US11062715B2 (en) | Time-domain stereo encoding and decoding method and related product | |
US20050144017A1 (en) | Device and process for encoding audio data | |
US6128593A (en) | System and method for implementing a refined psycho-acoustic modeler | |
KR20090060100A (ko) | 음성코덱의 품질향상장치 및 그 방법 | |
US7860721B2 (en) | Audio encoding device, decoding device, and method capable of flexibly adjusting the optimal trade-off between a code rate and sound quality | |
JP3894722B2 (ja) | ステレオオーディオ信号高能率符号化装置 | |
US20080004870A1 (en) | Method of detecting for activating a temporal noise shaping process in coding audio signals | |
JP6318904B2 (ja) | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム | |
KR0161945B1 (ko) | 엠펙시스템의 오디오 코팅을 위한 비트할당장치 | |
Absar et al. | AC-3 Encoder Implementation on the D950 DSP-Core | |
JP2005351977A (ja) | オーディオ信号符号化装置及びオーディオ信号符号化方法 | |
JP2000276198A (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |