ES2231090T3

ES2231090T3 - Codificador de audio con sub-bandas basado en la conmutacion de bloques.

Info

Publication number: ES2231090T3
Application number: ES00116221T
Authority: ES
Inventors: Tadashi Araki
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1999-08-05
Filing date: 2000-08-04
Publication date: 2005-05-16
Anticipated expiration: 2020-08-04
Also published as: EP1074976A3; EP1074976A2; DE60015030T2; JP3762579B2; KR100348368B1; DE60015030D1; US6799164B1; EP1074976B1; KR20010021226A; JP2001053617A

Abstract

Un procedimiento para codificar una señal acústica digital que comprende las etapas de: - proporcionar el marco de una señal acústica digital a lo largo del eje del tiempo; - dividir dicho marco de la señal acústica digital en bloques mediante el uso de un ordenador; - poner en práctica procesamientos entre los que se incluyen la división en subbandas o la conversión al área de frecuencia para cada uno de los respectivos bloques; - dividir dicha señal acústica en una pluralidad de bandas de frecuencia; - asignar bits codificados a cada una de dichas bandas de frecuencia respectivas; - obtener un factor de escala correspondiente al número de bits codificados de los bits asignados; y - comprimir y codificar dicha señal acústica digital mediante la cuantificación de dicha señal acústica con dicho factor de escala; en el que, una vez que se ha llevado a cabo la conversión a dicha área de frecuencia, dicho marco de señal acústica dividida en bloques se convierte usando bien un bloque largo de conversión o bien una pluralidad de bloques cortos de conversión; en el que, cuando se emplean dichos bloques cortos de conversión, dicha pluralidad de bloques cortos de conversión se dividen en grupos de una pluralidad de bloques que incluyen respectivamente uno o una pluralidad de bloques cortos de conversión; y en el que dicha señal acústica se cuantifica, haciendo que uno o una pluralidad de bloques cortos de conversión incluidos en el mismo grupo corresponda a un factor de escala común.

Description

Codificador de audio con sub-bandas basado en la conmutación de bloques.

La presente invención se refiere a un aparato de codificación de señales acústicas digitales, un procedimiento de codificación de una señal acústica digital y un programa de ordenador para grabar un programa de codificación de la señal acústica digital, en particular, la codificación por compresión de una señal acústica digital que se utiliza, por ejemplo, en los DVD, en la radiodifusión digital, etc.

Las técnicas ya conocidas relacionadas con los contenidos anteriormente mencionados de la presente invención se describen a continuación, resaltando, principalmente, en la compresión de una señal acústica.

En la actualidad, dentro del campo de los sistemas digitales de audio, el MP3 se ha hecho enormemente popular con gran rapidez. MP3 es una abreviatura del procedimiento de codificación por compresión de señales acústicas denominado "MPEG-1 Audio Layer III". Mediante el empleo del MP3, los datos de audio digital como los CD pueden comprimirse hasta 1/11 sin deteriorar la calidad del sonido. Debido a la conveniencia de comprimir datos acústicos extensos (volumen) con compacidad y transmitir los datos comprimidos en un período de tiempo breve, el MP3 comenzó a popularizarse, primero, en el campo de Internet. En la actualidad, los aparatos reproductores de MP3 comienzan a anunciarse sin cesar por sus respectivas compañías fabricantes, y algunas empresas distribuidoras de música comienzan a funcionar.

Por otro lado, incluso en el campo de la radiodifusión, de acuerdo con el desarrollo de la digitalización, la adopción de la tecnología de compresión de señales de sonido (señales acústicas) ha avanzado significativamente. En la actualidad, la radiodifusión CS emplea el procedimiento de MPEG-2 Audio BC. Además, está previsto el empleo del procedimiento de MPEG-2 Audio AAC en la BS o la radiodifusión digital de onda de tierra, que comenzará, en ambos casos, en el año 2000 o los años siguientes.

Las cuestiones anteriormente mencionadas se refieren a la tecnología perteneciente a la norma internacional de compresión de señales acústicas, todo ello denominado "MPEG Audio". Aparte de MPEG Audio, por ejemplo, los procedimientos de compresión de señales acústicas, Dolby Digital (AC-3) y ATRAC, se emplean respectivamente para DVD y MD.

Como se ha expuesto anteriormente, la tecnología de codificación por compresión de señales digitales de audio se ha vuelto cada vez más conocida. A continuación, se describen la tecnología fundamental del procedimiento de compresión de señales acústicas y la reciente tendencia de la misma.

En el procedimiento de compresión de señales acústicas, las señales acústicas se clasifican, en su mayoría, en "sonido vocal" y "sonido musical". En la presente invención, el sonido vocal significa la voz humana y el sonido musical no sólo significa la voz humana sino la señal acústica en general, incluidos la música, el sonido ambiente, el sonido natural, etc. La razón por la que debe clasificarse el sonido es que el objeto y la tecnología utilizada de la codificación difieren entre sí.

En el procedimiento de codificación de sonidos de voz, la señal de voz humana con un rango de muestreo bajo de casi 8-16 KHz se comprime para su uso en el rango de bits bajo, como por ejemplo, el circuito de teléfono. Por otro lado, en el procedimiento de codificación de sonidos musicales, la señal acústica de rango de muestreo alto de casi 32-96 KHz se comprime con la calidad de sonido más alta posible. En el primer procedimiento, no puede evitarse el deterioro de la calidad del sonido en comparación con el sonido original, mientras que, en el segundo procedimiento, puede lograrse la compresión del sonido fundamentalmente no deteriorado. Tanto el MP3 como el AAC se incluyen en la segunda codificación (codificación de sonidos musicales). En el presente documento, se describe la tecnología de la codificación de sonidos musicales.

El procedimiento de la compresión de información digital se clasifica en dos métodos; éstos son la compresión reversible y la compresión irreversible. En el primero, la señal original puede reproducirse fielmente en el momento de la descodificación. Sin embargo, en el segundo, se produce generalmente una distorsión de la señal. En el procedimiento de codificación de compresión de señales acústicas, se combinan ambos métodos adecuadamente. En primer lugar, se describe el método de compresión reversible.

En el presente documento, se describe el código Huffman empleado también en el MPEG Audio como método representativo de compresión reversible. La codificación de Huffman es el método en el que se asigna un código corto y un código largo al valor de frecuencia grande y al valor de frecuencia pequeño, respectivamente, de acuerdo con la frecuencia aparente del valor de la señal original, y la señal se comprime de tal manera que el valor del código completo se hace lo más pequeño posible. El código con longitud inconstante se denomina código de longitud variable, mientras que el código con longitud igual (constante) para todos los valores se denomina código de longitud fija. La señal original de la compresión acústica es el código de longitud fija representado por el número de bits de los respectivos valores constantes de las muestras digitales (16 bits, en el caso de un CD).

La Fig. 21 muestra el ejemplo el código de longitud fija y el código de Huffman, y la Fig. 28 muestra el ejemplo de asignación del código a la fila de valores numéricos reales utilizando los dos códigos anteriormente mencionados. Como muestra la Fig. 21, para discriminar seis clases de valores de señales originales diferentes con código de longitud fija, es necesario asignar un código de al menos 3 bits a los respectivos valores.

Por otro lado, a partir de la fila de valores numéricos que muestra la Fig. 28, es evidente que, en el caso de que la frecuencia aparente "2" sea la más grande (por ejemplo, 7 veces) y las frecuencias aparentes "1" y "5" sean las más pequeñas (por ejemplo, una vez), en el presente documento, con respecto al código de Huffman que muestra la Fig. 21, se asigna un código de 2 bits a "2" y un código de 4 bits a "1" y "5". Con respecto a los otros valores restantes, se asigna a los mismos el código de la longitud correspondiente a las respectivas frecuencias aparentes.

Como propiedad importante del código de Huffman, la fila de señales originales puede descodificarse en un significado. En el ejemplo de la Fig. 21, si la fila de códigos de Huffman es "00110", la fila de señales originales es "20", aparentemente. Puesto que la propiedad de descodificación de un significado está garantizada, la codificación de Huffman es reversible.

Como referencia, también se muestra en la Fig. 21 el ejemplo del código incapaz de descodificar en un significado. En el ejemplo, cuando se recibe la fila de códigos "000001", es imposible distinguir los significados de la señal original; éstos son, "25", "13" ó "223". Además, el procedimiento de construcción del código capaz de descodificar en un significado ya se conoce. La descripción del mismo se omite en el presente documento.

Ahora, en el caso de asignarse el código de longitud fija que se muestra en la Fig. 21 a la fila de valores numéricos que se muestra en (a) de la Fig. 28, la fila de códigos se convierte en la que se muestra en (b) de la Fig. 28, y la cantidad completa de códigos pasa a ser 3 x 20 = 60 bits. Por otro lado, en el caso de asignarse el código de Huffman que se muestra también en la Fig. 21 a la fila de valores numéricos que se muestra en (a) de la Fig. 28, la fila de códigos se convierte en la que se muestra en (c) de la Fig. 28, y la cantidad completa de códigos pasa a ser más pequeña (46) bits. De este modo, la cantidad completa de códigos se reduce más en el caso de asignar el código de Huffman, en comparación con el caso del código de longitud fija. Es decir, cuando se emplea el código de Huffman, el valor de la señal original puede reproducirse fielmente con una cantidad de códigos más pequeña, en comparación con el código de longitud fija. No obstante, existe una limitación en el factor de compresión, por ejemplo, casi 77% en el límite superior. Por lo tanto, en tal situación, es imposible esperar un factor de compresión alto, por ejemplo 1/11, como se mencionó anteriormente. Así pues, se requiere forzosamente la tecnología de compresión irreversible. Por consiguiente, la tecnología de cuantificación básica se describe más adelante.

La cuantificación significa el procedimiento de clasificar el nivel del valor de la señal original en varias etapas y hacer que los valores que representan los respectivos niveles se correspondan con el valor de restablecimiento, valor (descodificado). El procedimiento anteriormente mencionado se describe con referencia al ejemplo de la Fig. 22.

Se da por sentado aquí que el valor de la señal original se distribuye como el número entero 0^{-}59. Cuando el valor se convierte en el código de longitud fija, tal como es con el número binario, el valor respectivo tiene que expresarse con 6 bits. En este ejemplo, el valor de la señal original se cuantifica en 6 niveles y se hace que corresponda a los respectivos valores de restablecimiento (descodificados), como se muestra en la Fig. 22.

En el momento de la codificación, el valor de la señal original se divide entre 10 y se elimina la parte de la fracción decimal (recorte). El "10" anterior se denomina factor de escala. La parte entera del cociente se limita a seis clases del valor 0^{-}5. el procedimiento anterior se denomina la "cuantificación". Como se muestra en la Fig. 22, basta con expresar el valor con un código de longitud fija de 3 bits y así puede conseguirse el factor de compresión del 50%. Además, si el valor cuantificado se convierte al código Huffman correspondiente a las respectivas frecuencias aparentes, el factor de compresión puede mejorarse más. La Fig. 22 muestra como ejemplo el caso de la asignación del código Huffman de la Fig. 21.

En relación con la descodificación, el valor cuantificado se restablece (se descodifica) primero a partir del código Huffman. Sin embargo, el procedimiento no puede llevarse a cabo con un significado como se mencionó antes. Después, el valor cuantificado se multiplica por el factor de escala "10" anteriormente mencionado y se añade a "5=10/2". De este modo, el valor se restablece (se descodifica). Sin embargo, el valor de la señal original no coincide, en general, con el valor restablecido y, por lo tanto, se produce un error. Dicho error se denomina "error de cuantificación". En la Fig. 23 se muestra el ejemplo concreto del número.

De este modo, en caso de utilizar la cuantificación, el valor de la señal original no puede restablecerse completamente. En ese sentido, aunque la cuantificación sea irreversible, el factor de compresión de la misma puede mejorarse, debido a dicha cuantificación irreversible. Además, el alcance de la compresión corresponde al número de niveles de la cuantificación. Cuanto menor es el número de niveles, más se puede comprimir la señal acústica. Sin embargo, se incrementa el error medio de cuantificación.

Ahora, hasta aquí, se ha descrito de manera general la compresión de la información digital. Tanto el código Huffman como la cuantificación, descritos hasta aquí, son la tecnología más básica que se utiliza comúnmente para la compresión no sólo de señales acústicas sino también de señales de imágenes estáticas e imágenes dinámicas (en movimiento).

A continuación, se describen en lo sucesivo el efecto de enmascaramiento y el error de cuantificación. En la compresión de señales acústicas, el error de cuantificación anteriormente mencionado provoca el deterioro de la calidad del sonido. Por otro lado, en la codificación del sonido musical, es preciso comprimir los datos de las señales acústicas para no percibir el deterioro de la calidad del sonido.

En cuanto al procedimiento de determinación del número óptimo de niveles de la cuantificación, la propiedad del sentido del oído humano denominada "efecto de enmascaramiento" se utiliza hábilmente. El efecto de enmascaramiento es un fenómeno que consiste en que el sonido grande borra (apaga o extingue) el sonido pequeño circundante. El fenómeno se ha vuelto ampliamente conocido. Para explicarlo de una forma un poco más precisa, un sonido fuerte con una frecuencia determinada borra un sonido débil con otra frecuencia próxima a (en las proximidades de) la frecuencia anterior.

En lo sucesivo, los detalles del efecto de enmascaramiento anterior se describen más ampliamente. Se describen la relación entre la frecuencia (KHz) representada por la coordenada horizontal (abscisa) y la intensidad del sonido representada por la coordenada vertical (ordenada), y la distribución de la intensidad del sonido de los datos acústicos de entrada en ambas coordenadas. Por ejemplo, en el presente documento, los sonidos de entrada (b) y (c) se borran por el sonido más fuerte (a), y (b) y (c) no pueden oírse. Esto es el efecto de enmascaramiento. El valor umbral de enmascaramiento significa una barrera (línea divisoria) entre el sonido audible y el sonido inaudible.

Asimismo, el oído humano tiene una característica inherente que tiene un valor umbral absoluto (o valor umbral audible mínimo). Éste representa el sonido mínimo (intensidad) que el ser humano puede oír en un entorno de calma. El oído humano tiene la sensibilidad más aguda para el sonido en la proximidad de 2KHz-5KHz. El oído humano se vuelve progresivamente incapaz de oír el sonido con una frecuencia inferior a 2KHz o superior a 5KHz.

El valor umbral de enmascaramiento cambia aquí de acuerdo con los datos de entrada de la señal acústica. Sin embargo, debe prestarse atención al hecho de que el valor umbral absoluto no cambia nada.

En conclusión, de todos los sonidos, sólo está en el área audible el sonido con una intensidad más fuerte que el valor umbral de enmascaramiento y el valor umbral absoluto. Como resultado, aunque se elimine la información del sonido de la otra área (área inaudible), el oído humano puede oír el sonido en el mismo estado que el sonido de entrada inicial.

En la compresión de las señales acústicas, utilizando dicha propiedad del efecto de enmascaramiento, sólo pueden codificarse los datos de la señal acústica de entrada del área más fuerte que el valor umbral de enmascaramiento, esto es, los datos del área gris y, por lo tanto, la cantidad de datos puede reducirse en gran medida.

A decir verdad, ambos valores umbral anteriores se corresponden con el límite superior tolerable del error de cuantificación anteriormente mencionado. Es decir, cuando se cuantifican los datos de la señal acústica de entrada, si el error de cuantificación no excede del valor umbral superior, el oído humano no nota el deterioro de la calidad del sonido audible. En el área del valor umbral inferior, si el número de niveles de cuantificación no se ha hecho grande, el deterioro de la calidad del sonido puede volverse importante. Por otro lado, en el área del valor umbral superior, puede permitirse reducir el número de niveles de cuantificación.

A continuación, se describe en lo sucesivo el procedimiento de conversión de los datos de la señal acústica de entrada. Los datos acústicos de entrada se representan (se expresan), generalmente, como la fila del valor de muestra digital en la dirección del tiempo. Sin embargo, el efecto de enmascaramiento anteriormente mencionado no puede aplicarse adecuadamente tal como es. Por esta razón, es necesario convertir la fila del valor de muestra digital anteriormente mencionado en aquella que va a procesarse fácilmente.

Existen diversos procedimientos de conversión de los datos de la señal acústica de entrada. Uno de ellos es un procedimiento que combina en un bloque la fila de datos del área del tiempo por número de muestras constantes y convierte la fila de datos a la otra fila de datos del área de frecuencia por el mismo número de muestras constantes. La Fig. 24 muestra las formas de onda de las señales acústicas antes y después de la conversión anterior. Para explicarlo de forma concreta, la Fig. 24A muestra la forma de onda de la fila de datos de la señal acústica de 1.024 muestras en el área del tiempo, y la Fig. 24B muestra la fila de datos convertida a la forma de onda de la fila de datos de la señal acústica de 1.024 muestras en el área de frecuencia.

Generalmente, cuando la señal acústica se convierte a la del área de frecuencia, se produce una desviación de la cantidad de sonido (energía) en una determinada área de frecuencia. Por ejemplo, como muestran las Figs. 24A y 24B, aunque el valor de la señal se distribuya de manera uniforme en el área del tiempo, la energía de la señal acústica del área de frecuencia se desvía al lado de frecuencia baja. En el momento de la codificación, se distribuyen los bits, poniendo énfasis en la parte en la que se concentra la energía. Como resultado, puede mejorarse la eficacia de la compresión.

Además, con respecto a la conversión del tiempo a la frecuencia, existen algunos procedimientos; por ejemplo, DFT (Digital Fourier Transform), DCT (Digital Cosine Transform), etc. No obstante, para la compresión de datos visuales (imagen) y datos acústicos, el procedimiento DCT y su modificación, MDCT (Modified Digital Cosine Transform), se utilizan con mucha frecuencia.

Con respecto a la conversión de los datos de la señal acústica de entrada, aparte del anteriormente mencionado, existe un procedimiento de subbandas. En el procedimiento de división de subbandas, (la banda de) la forma de onda de entrada se divide en varias bandas de frecuencia, y la respectiva forma de onda dividida se mantiene como la del área del tiempo. Éste es un punto diferente del procedimiento anterior.

Además, si los datos de entrada compuestos por las muestras del número m se dividen en bandas de muestra del número n, el número de muestras de las respectivas subbandas pasa a ser m/n. La Fig. 25 muestra un ejemplo sencillo de la división de la forma de onda de entrada en dos subbandas.

A continuación, se describe el flujo del proceso básico de la codificación por compresión de la señal acústica. La tecnología más básica utilizada para la codificación de señales acústicas se ha descrito hasta aquí en profundidad. Aquí, se resume el flujo del proceso básico de la codificación por compresión de la señal acústica a partir de la combinación de los procesos anteriormente mencionados. La Fig. 26 muestra el flujo.

En primer lugar, se practica la conversión de los datos de la señal acústica de entrada a los datos del área de frecuencia o la división en subbandas para los datos de la señal acústica de entrada. A continuación, se cuantifican los respectivos valores de muestra tras la conversión. En este momento, se calculan en paralelo los valores umbral de enmascaramiento de los datos de la señal acústica y, previamente, el límite superior del error de cuantificación de las respectivas frecuencias se obtiene a partir del valor umbral anteriormente calculado con el valor umbral absoluto. La etapa anteriormente mencionada se lleva a cabo por la parte del modelo de psicología de audio que se muestra en la Fig. 26. La cuantificación se lleva a cabo de tal manera que el error no exceda del límite superior de la misma. Finalmente, se asigna el código de Huffman de acuerdo con la frecuencia aparente de la respectiva cuantificación, y después se crean los datos finales de codificación.

Asimismo, la etapa anterior muestra el esquema del proceso más básico de la codificación por compresión de señales acústicas. En el procedimiento práctico de codificación, como MP3, AAC, etc., pueden idearse varios procesos aparte del anterior, y, por lo tanto, puede pretenderse que la mejora del factor de compresión mejore en mayor medida el factor de compresión.

En el presente documento, se describe el proceso de codificación de MP3, haciendo hincapié la diferencia entre MP3 y AAC. El flujo del proceso básico es:

(1) conversión al área de frecuencia,

(2) cuantificación y

(3) codificación de Huffman.

A continuación, se describen la división en subbandas y el proceso MDCT. La Fig. 27 muestra el flujo del proceso de codificación de MP3 haciendo hincapié en la división en subbandas y el proceso MDCT. La gran diferencia entre MP3 y AAC es que, en MP3, el proceso de división en subbandas existe antes que el de MDCT. La división en subbandas significa la división de los datos de entrada en varias bandas de frecuencia. Los datos se disponen en el eje del tiempo en las respectivas áreas de división.

En MP3, los datos de entrada se dividen en 32 bandas, y se practica el MDCT para cada una de las respectivas bandas divididas. Como en el caso del AAC, pueden usarse correctamente dos clases de función de la ventana LARGA/CORTA. La longitud de la LARGA es 36 muestras, mientras que la longitud de la CORTA es 12 muestras. Sin embargo, al contrario que en AAC, en MP3 puede existir una mezcla de LARGA/CORTA. En la Fig. 27, la frecuencia alta se usa para la CORTA y la frecuencia baja se usa para la LARGA. No hace falta mencionar que puede permitirse el uso de toda la frecuencia para la CORTA y para la LARGA. Además, en AAC, la longitud de la ventana LARGA es 2.048 muestras. En MP3, el cálculo de conversión de las 36 muestras anteriormente mencionadas a la longitud se realiza antes de la división en subbandas, pasando el valor calculado a ser igual a 36 x 32 = 1.152 muestras.

Hasta aquí, se ha mencionado el concepto general de la compresión de señales acústicas en conexión con la presente invención. En lo sucesivo, se describirán concretamente las técnicas anteriores, sobre la base de las cuestiones anteriores previamente mencionadas.

En la compresión/codificación de alta calidad de las señales acústicas digitales, se ha utilizado hasta ahora la propiedad psicológica del sentido del oído humano. Como se ha mencionado anteriormente, según dicha propiedad, el sonido pequeño es enmascarado por el sonido grande. Como resultado, el sonido pequeño no puede oírse. Es decir, cuando se emite el sonido grande con una frecuencia, el oído humano no puede oír el sonido pequeño con otra frecuencia cercana a la frecuencia anterior. En el presente documento, la intensidad del sonido limitada (crítica) que no puede oírse debido a dicho enmascaramiento se denomina "valor umbral de enmascaramiento".

Por otro lado, el oído humano tiene la propiedad de que la sensibilidad para el sonido con una frecuencia cercana a 4KHz es la más alta, y a medida que la frecuencia se aleja de 4KHz, la sensibilidad para el sonido con la misma frecuencia se vuelve progresivamente más baja. Dicha propiedad se expresa como la sensibilidad crítica capaz de percibir el sonido en una situación de calma, y la sensibilidad se denomina "valor umbral audible absoluto".

En lo sucesivo, las cuestiones anteriormente mencionadas se describen en mayor medida con referencia a la Fig. 9, que ilustra la distribución de la intensidad de la señal acústica. En la Fig. 9, una línea continua gruesa (a), una línea de puntos (B) y una línea continua fina representan, respectivamente, la distribución de la intensidad de la señal acústica, el valor umbral de enmascaramiento de la señal acústica y el valor umbral audible absoluto. Como se muestra en la Fig. 9, el oído humano sólo puede percibir el sonido de intensidad mayor (más fuerte) que el valor umbral de enmascaramiento y el valor umbral audible absoluto para la señal acústica. Por consiguiente, aunque sólo se extraiga la información de la porción superior al valor umbral de enmascaramiento y el valor umbral audible absoluto para la señal acústica en la distribución de la intensidad de la señal acústica, el oído humano percibe la información en la misma medida que la señal acústica original.

En la codificación de la señal acústica, la cuestión anterior equivale a asignar el bit codificado sólo a las porciones que muestran las líneas inclinadas en la Fig. 9. No obstante, el área completa de la señal acústica está dividida en varias áreas pequeñas y, en el presente documento, la asignación del bit se lleva a cabo en la unidad de la banda de frecuencia (D). El ancho transversal de las respectivas áreas que muestran las líneas inclinadas corresponde a la banda de frecuencia.

En las respectivas bandas de frecuencia, el oído humano no puede oír el sonido de intensidad no superior a la del límite inferior del área inclinada. Así pues, si el error de intensidad del sonido original y el sonido codificado/descodificado no excede del límite inferior del mismo, la diferencia entre ambos no puede percibirse. En este sentido, la intensidad del límite inferior se denomina "intensidad con error tolerable". Cuando la señal acústica se cuantifica y se comprime, si la intensidad con error de cuantificación del sonido codificado/descodificado para el sonido original se cuantifica para que no sea superior a la intensidad con error tolerable, la señal acústica puede comprimirse sin dañar la calidad del sonido original. Así pues, la asignación del bit codificado sólo al área de la línea inclinada que se muestra en la Fig. 9 equivale a llevar a cabo la cuantificación de tal manera que la intensidad con error de cuantificación en las respectivas áreas de frecuencia sea justo igual a la intensidad con error tolerable.

En cuanto al procedimiento de codificación de la señal acústica, existen MPEG (Moving Picture Experts Group) Audio y Dolby Digital, etc. Todos ellos utilizan la propiedad aquí descrita. Entre esos procedimientos, el que tiene una eficacia de codificación más alta en la actualidad es el procedimiento MPEG-2 Audio AAC (Advanced Audio Encoding), normalizado en ISO/IEC13818-7.

La Fig. 10 es un diagrama de bloques que ilustra la estructura fundamental de la codificación AAC. En la Fig. 10, la sección del modelo psicoacústico 101 calcula la intensidad con error tolerable para cada una de las respectivas bandas de frecuencia de la señal acústica de entrada separadas por bloques a lo largo del eje del tiempo. Por otro lado, la conversión al área de frecuencia con MDCT (Modified Discrete Cosine Transform) en un control de ganancia 102 y un banco de filtros 103 para la señal de entrada también está separada por bloques. Una TNS (Temporal Noise Shaping) 104 y una unidad de predicción 106 llevan a cabo la codificación estimada. Una intensidad/acoplamiento 105 y un MS Stereo (Middle Side Stereo) (en lo sucesivo denominado con la abreviatura "M/S") 107 llevan a cabo el proceso de codificación de correlación estéreo. Después, se determina un factor de escala 108. La señal acústica se cuantifica en una unidad de cuantificación 109 en función del factor de escala 108. El factor de escala se corresponde con la intensidad con error tolerable que se muestra en la Fig. 9, y se determina el coeficiente para cada una de las respectivas bandas de frecuencia. Tras la cuantificación, el código de Huffman se asigna respectivamente al factor de escala y al valor de cuantificación en una codificación del ruido (sección) 110 en función de la lista predeterminada de códigos de Huffman. Finalmente, se forma la corriente de bits codificados en un multiplexor
111.

Ahora, la MDCT del banco de filtros 103 anteriormente mencionado es el indicado para solapar las áreas de conversión en un 50% a lo largo del eje del tiempo como muestra la Fig. 11 y, al mismo tiempo, para practicar la DCT (Discrete Cosine Transform). Debido a esta función, puede suprimirse la distorsión en la parte divisoria (barrera) de las respectivas áreas de conversión. En el AAC (Advance Audio Encoding), bien el área de conversión larga (bloque largo) de 2048 muestras o bien las ocho áreas de conversión cortas (bloques cortos) de las respectivas 256 muestras se aplica para el marco de la señal acústica de entrada. Por consiguiente, el número de los coeficientes MDCT es 1024 para el bloque largo y 128 para los bloques cortos. En el caso de emplear los bloques cortos, siempre se aplican ocho bloques de manera sucesiva y, así, el número de coeficientes MDCT pasa a ser el mismo que el número de coeficientes MDCT en el momento de emplear el bloque largo.

Generalmente, el bloque largo se emplea en la parte regular de la variación pequeña de la forma de onda de la señal, como se muestra en la Fig. 12, mientras que los bloques cortos se emplean en la parte de ataque de la variación violenta (aguda) de la forma de onda de la señal. Es importante emplear el bloque largo y los bloques cortos de modo diferente. Si se aplica a la señal el bloque largo, como se muestra en la Fig. 13, se produce un ruido denominado "pre-eco" antes del ataque esencial. Al contrario, si se aplican a la señal los bloques cortos, como se muestra en la Fig. 12, no puede llevarse a cabo la asignación de bits adecuada debido a la resolución insuficiente del área de frecuencia. Como resultado, se reduce la eficacia de la codificación y se produce el ruido. La cuestión es importante, en particular, para el sonido con baja frecuencia.

En cuanto a los bloques cortos, surge además el problema de la división (separación) por grupos. La división por grupos significa que los ocho bloques cortos anteriormente mencionados se juntan en grupos por cada uno de los bloques sucesivos con el mismo factor de escala. El efecto de reducir la cantidad de información puede conseguirse haciendo que el grupo tenga un factor de escala común. Para explicarlo concretamente, cuando se asigna el código de Huffman al factor de escala en la codificación silenciosa (sección) 110 que se muestra en la Fig. 10, el código no se asigna por la unidad de cada uno de los respectivos bloques cortos sino por la unidad del grupo. La Fig. 14 ilustra un ejemplo de división por grupos. Aquí, el número de grupos es tres. El número de bloques del grupo superior (grupo 0) es cinco; el número de bloques del siguiente grupo (1er grupo ) es 1; y el número de bloques del último grupo (2ndo grupo) es dos. Si la división por grupos no se lleva a cabo adecuadamente, esto se traduce en el incremento de la cantidad (número) de códigos y en la reducción de la calidad del sonido. Si el número de división de los grupos es demasiado grande, el factor de escala que debería poder hacerse común esencialmente pasa a estar codificado por duplicado (doble). Como resultado, se reduce la eficacia de codificación. Por el contrario, si el número (de división) de grupos es demasiado pequeño, como la cuantificación se lleva a cabo con el factor de escala común a pesar de la variación violenta (aguda) de la señal acústica, se reduce la calidad del sonido. Además, en ISO/IEC13818-7, aunque existe una prescripción sobre la sintaxis de los códigos con respecto a la división por grupos, la norma concreta y el procedimiento de división por grupos no se han tomado en consideración.

Como se mencionó antes, en relación con la codificación, el bloque largo y los bloques cortos tienen que aplicarse adecuadamente para el bloque de la señal acústica de entrada con la distinción entre ambos. La sección del modelo psicoacústico 101 que se muestra en la Fig. 10 lleva a cabo la estimación largo/corto. En la ISO/IEC13818-7 se muestra un ejemplo del procedimiento de estimación largo/corto para los respectivos bloques que debe apreciarse en la sección del modelo psicológico del sentido auditivo 101. A continuación se explica el esquema del proceso de estima-
ción.

Etapa 1

Reconstrucción de la señal acústica

Se leen (incluyen) 1024 nuevas muestras para el bloque largo y se reconstruye el sistema (la serie) de la señal de 2048 muestras, aparte de las 1024 muestras incluidas previamente en el nuevo bloque, mientras que se leen (incluyen) 128 nuevas muestras para los bloques cortos y se reconstruye el sistema (la serie) de la señal de 256 muestras, aparte de las 128 muestras incluidas previamente en el nuevo bloque.

Etapa 2

Multiplicación de la ventana de Hann y FFT

La señal acústica de 2048 muestras (256 muestras) construida en la etapa 1 se multiplica por la ventana de Hann (Hanning). Asimismo, se practica la FFT (Fast Fourier Transform) y, así, se calculan 1024 (128) coeficientes
FFT.

Etapa 3

Cálculo del valor estimado del coeficiente FFT

La parte del número real y la parte del número imaginario de los respectivos coeficientes FFT del bloque que se aprecia actualmente, se estiman a partir de la parte del número real y la parte del número imaginario de los coeficientes FFT de los dos bloques precedentes, y después se calculan respectivamente los valores estimados de 1024
(128).

Etapa 4

Cálculo del valor de imprevisibilidad

Los respectivos valores de imprevisibilidad se calculan a partir de los valores estimados del número real y el número imaginario de los respectivos coeficientes FFT calculados en la etapa 2 y los de los respectivos coeficientes FFT calculados en la etapa 3. Aquí, el valor de imprevisibilidad toma un valor entre 0 y 1. Cuanto más cercano a 0 es el valor, más alta es la tonalidad de la señal acústica, mientras que, cuanto más cercano a 1 es el valor, más alta es la propiedad de ruido de la señal acústica. En otras palabras, el hecho muestra que la tonalidad es baja.

Etapa 5

Cálculo de la intensidad de la señal acústica y del valor de imprevisibilidad en la respectiva banda de frecuencia

En el presente documento, la banda de frecuencia corresponde a la que se muestra en la Fig. 9. La intensidad de la señal acústica se calcula en función de los respectivos coeficientes FFT calculados en la etapa 2 para el ancho de cada una de las respectivas bandas divididas. Asimismo, el valor de imprevisibilidad calculado en la etapa 4 se pondera con la intensidad y se calcula el valor de imprevisibilidad para cada una de las respectivas bandas de frecuen-
cia.

\newpage

Etapa 6

Pliegue (combinación) de la intensidad multiplicada por la función de expansión (difusión) y el valor de imprevisibilidad

Los efectos debidos a la intensidad de la señal acústica y el valor de imprevisibilidad de la otra banda de frecuencia en las respectivas bandas de frecuencia se obtienen mediante el uso de la función de expansión (difusión). Los efectos obtenidos de este modo se pliegan (combinan) respectivamente y, por tanto, se normalizan.

Etapa 7

Cálculo del índice de tonalidad

En el ancho de las respectivas bandas divididas b, el índice de tonalidad tb(b) C = -0,299 - 0,43 log.(cb(b)) se calcula en función del valor de imprevisibilidad plegado (combinado) (cb(b)) calculado en la etapa 6. Además, el índice de tonalidad está limitado dentro del área entre 0 y 1. Aquí, todo lo dicho muestra que, cuanto más cercano a 1 es el índice, más alta es la tonalidad de la señal acústica, mientras que, cuanto más cercano a 0 es el índice, más alta es la propiedad de ruido de la señal acústica.

Etapa 8

Cálculo de la relación S/R (relación señal-ruido)

La relación S/R (relación señal-ruido) se calcula en función del índice de tonalidad calculado en la etapa 7, en las respectivas bandas de frecuencia. Aquí, se utiliza en general la propiedad de que el efecto de enmascaramiento del componente de ruido es superior al del componente de sonido puro.

Etapa 9

Cálculo de la relación de intensidad

La relación de la intensidad de la señal acústica plegada (combinada) y el valor umbral de enmascaramiento se calcula en función de la relación S/R calculada en la etapa 8, en los anchos de las respectivas bandas divididas.

Etapa 10

Cálculo de la intensidad con error tolerable Valor umbral de enmascaramiento

El valor umbral de enmascaramiento se calcula en función de la intensidad de la señal acústica plegada calculada en la etapa 6 y de la relación de la intensidad de la señal acústica calculada en la etapa 9 y el valor umbral de enmascaramiento, en los anchos de las respectivas bandas divididas.

Etapa 11

Ajuste del preeco y consideración del valor umbral (de frecuencia) audible absoluto

El ajuste del preeco se lleva a cabo para el valor umbral de enmascaramiento calculado en la etapa 10 mediante el uso de la intensidad con error tolerable del bloque precedente, en los anchos de las respectivas bandas divididas. Asimismo, el valor superior del valor ajustado y el valor umbral (de frecuencia) audible absoluto se emplea como la intensidad con error tolerable del bloque actual.

Etapa 12

Cálculo de la entropía perceptiva

La entropía de sensación PE (entropía perceptiva) según se define en la ecuación (1) se calcula respectivamente para el bloque largo y para los bloques cortos.

Ecuación (1)

PE = -\sum\limits_{b}w(b)\cdot log_{10}\frac{nb(b)}{e(b)+1}

= -\sum\limits_{b}w(b)\cdot[log_{10}nb(b)-log_{10}\{e(b)+1\}]

= -\sum\limits_{b}w(b)\cdot[log_{10}\{e(b)+1\}-log_{10}nb(b)]

En la ecuación (1), w(b) representa el ancho del ancho de banda dividido b, nb(b) representa la intensidad con error tolerable en la banda de frecuencia b calculada en la etapa 11, y e(b) representa la intensidad de la señal acústica en la banda de frecuencia b calculada en la etapa 5. Aquí, la PE está pensada para corresponder al total de medidas cuadradas de las áreas de asignación de bits (áreas de líneas inclinadas), como se muestra en la Fig. 9.

Etapa 13

Estimación de bloques largos/bloques cortos

Con respecto a la estimación de bloque largo/bloques cortos, la Fig. 15 muestra el flujo operativo de estimación de bloque largo/bloques cortos.

Cuando el valor de la PE (etapa S10) para el bloque largo calculada en la etapa 12 es superior a la constante predeterminada (conexión_pe), se estima que el bloque que se aprecia son los bloques cortos (etapas S11 y S12). Cuando el mismo valor de la PE es inferior a la constante predeterminada, se estima que el bloque que se aprecia es el bloque largo (etapas S11 y S13). En el presente documento, la constante (conexión_pe) es un valor determinado en función de la aplicación.

El procedimiento mencionado hasta aquí es el procedimiento de estimación largo/corto que se describe en ISO/
IEC13818-7. No obstante, en el procedimiento de estimación de bloque largo/bloques cortos anterior, no siempre se lleva a cabo una estimación adecuada. Es decir, que la parte que esencialmente ha de estimarse corta se estima larga (o viceversa) y, por ello, se deteriora la calidad del sonido en algunas ocasiones.

Por otro lado, en la memoria descriptiva publicada de la publicación de patente japonesa abierta a consulta por el público nº 9-232964, un estado transitorio que detecta el circuito 2 se construye de tal manera que la señal acústica se recoge por cada una de las respectivas secciones predeterminadas, y las sumas cuadradas de las mismas se obtienen respectivamente, y el estado transitorio de la señal anteriormente mencionada de acuerdo con la tasa (el grado) de variación sobre las al menos dos o más secciones de la señal sumadas al cuadrado por cada una de las respectivas secciones. En dicha estructura, es posible detectar el estado transitorio, esto es, la parte en la que largo/corto varía únicamente llevando a cabo el cálculo de la suma cuadrada de la señal de entrada en el eje del tiempo sin llevar a cabo ningún procesamiento de conversión perpendicular (rectangular) ni procesamiento de filtros. De acuerdo con dicho procedimiento, puesto que la entropía perceptiva no se considera mediante el uso exclusivo de la suma cuadrada de la señal de entrada, no siempre puede llevarse a cabo la estimación que coincida con la propiedad de audio. Por consiguiente, se teme que la calidad del sonido se deteriore.

En dicha situación, el bloque de la señal acústica de entrada se divide (se clasifica) en varios grupos en función de la diferencia entre el valor máximo y el valor mínimo de la entropía perceptiva con respecto a los respectivos bloques cortos del mismo grupo. Como resultado, existe un procedimiento en el que, cuando el número de grupos es 1, o cuando el número de grupos es 1 y se cumple la otra condición, el bloque de la señal acústica de entrada se convierte al área de frecuencia con un bloque largo, y en el otro caso, el bloque de la señal se convierte al área de frecuencia con varios bloques cortos. En lo sucesivo, se describe de manera más concreta el bloque anteriormente mencionado, con referencia a la Fig. 16 que ilustra el flujo operativo del mismo. Asimismo, como ejemplo de la señal acústica de entrada, se emplean los datos acústicos que se muestran en la Fig. 17 y se adjuntan todos los números correspondientes a los ocho bloque cortos sucesivos de la Fig. 17.

En primer lugar, la señal acústica de entrada se divide en ocho bloques cortos sucesivos. Después, se calculan respectivamente las entropías perceptivas de los ocho bloques cortos. Se supone que los valores calculados son PE (i) (0 \leq i \leq 7) en orden (etapa S20). El cálculo puede realizarse llevando a cabo, para los respectivos bloques cortos, el procedimiento que se explica en las etapas 1 a 12 del procedimiento de estimación largo/corto para los respectivos bloques que se aprecian en la ISO/IEC13818-7 anteriormente mencionada. A continuación, se lleva a cabo la operación de inicialización con la condición de grupo_len [0] = 1, grupo_len [gnum] = 0 (0 \leq gnum \leq 7) (etapa S21).

Aquí, gnum representa el número total de un grupo determinado en los grupos generales, y grupo_len [gnum] representa el número de bloques cortos incluidos en el grupo gnum-th; y después, la operación de inicialización se lleva a cabo respectivamente con la condición de gnum = 0, mín = PE (0), y máx = PE (0) (etapa S20). En la condición anterior, mín y máx representan respectivamente el valor mínimo y el valor máximo de PE (i). En la Fig. 18, mín y máx son respectivamente iguales a 110 y 110. (mín = 110 y máx = 110). Asimismo, el índice i se inicializa con i = 1 (etapa S23). El índice corresponde al número total de bloques cortos.

A continuación, mín y máx se renuevan de acuerdo con PE (i). Es decir, si PE (i) es inferior a mín, mín es igual a PE (i), o si PE (i) es superior a máx, máx es igual a PE (i)' (etapa S24).

: EP (i) < mín \cdot\cdot\cdot\cdot\cdot\cdot\cdot mín = PE (i)

: EP (i) > máx \cdot\cdot\cdot\cdot\cdot\cdot\cdot máx = PE (i)

En el ejemplo que se muestra en la Fig. 18, si PE (i) > máx,

: Máx = PE (i) \cdot (etapa S24)

Y se estima la clasificación de grupos (etapa S25). Es decir, el valor obtenido (máx-mín) se compara con el valor umbral predeterminado th. Cuando el valor obtenido (máx-mín) es igual o superior al valor th, la etapa avanza hasta la etapa S26 para llevar a cabo la clasificación de grupos entre los bloques cortos (i-1) e i. Cuando el valor (máx-mín) es inferior al valor th, se estima que los bloques cortos (i-1) e i se incluyan en el mismo grupo, y la etapa avanza hasta la etapa S27. En este ejemplo, el valor th es igual a 50 (th = 50). Es decir, la clasificación de grupos se lleva a cabo de tal manera que la diferencia entre el valor máximo y el valor mínimo de las PE (i) de los respectivos bloques cortos incluidos en el mismo grupo pasa a ser inferior a 50.

Cuando i = 1, dado que máx-mín = 110-96 = 14 < 50 = th, se estima que los bloques cortos 0 y 1 se incluyan en el mismo grupo, y la etapa avanza hasta la etapa S27. En el presente documento, dado que gnum = 0, los bloques cortos 0 y 1 avanzan hasta la etapa S27. Además, dado que aquí gnum = 0, los bloques cortos 0 y 1 se incluyen en el grupo 0 y se incrementa en uno el valor de grupo_len [gnum] (etapa S28). Esto significa que se disminuye en uno el número de bloques cortos incluidos en el grupo gnum-th. En el ejemplo, dado que la inicialización se lleva a cabo en el estado de gnum = 0 y grupo_len [0] = 1, el estado pasa a ser grupo_len [0] = 2 en la etapa S27. Esto corresponde al hecho de que los dos bloques de los bloques 0 y 1 como los bloques cortos incluidos en el grupo 0 ya se han fijado
(establecido).

A continuación, el índice i se incrementa en 1 (etapa S28). Cuando i es inferior a 7, la etapa retrocede a la etapa S24 (etapa S29). En este ejemplo, dado que i es igual a 2 (< 7), i = 2 < 7, la etapa retrocede a la etapa S24.

Después, la misma operación, tal como se ha descrito hasta aquí, continúa hasta i = 4. Cuando i es igual a 4, dado que los valores de mín y máx son respectivamente iguales a 96 y 137 en la etapa S24 de la Fig. 16, como se muestra en la Fig. 18, la estimación máx - mín = 41 < 50 = th se lleva a cabo en la etapa S25, y la etapa avanza directamente desde la etapa S25 hasta la etapa S27. En la etapa S27, grupo_len [0] pasa a ser igual a 5.

: grupo_len [0] = 5

Es decir, que corresponde al hecho de que los cinco bloques; 0, 1, 2, 3 y 4, establecidos como los bloques cortos incluidos en el grupo 0, ya están fijados. Después, cuando la etapa retrocede otra vez a la etapa S24 a través de la etapa S29, después de que i pase a ser igual a 5 en la etapa S28, PE (5) pasa a ser igual a 152 en este momento, y, por lo tanto, los valores de mín y máx pasan a ser respectivamente iguales a 96 y 152. Después, dado que la estimación máx-mín = 56 > 50 = th se lleva a cabo en la etapa S25, la etapa avanza hasta la etapa S26. Esto significa que la clasificación de grupos se lleva a cabo entre los bloques cortos 4 y 5. El valor de gnum se incrementa en 1 en la etapa S26, y los valores de mín y máx son respectivamente reemplazados por la última PE (i). Aquí, los respectivos valores de gnum, mín y máx son 1, 152 y 152. La ecuación gnum = 1 corresponde al hecho de que el grupo de los 5 bloques cortos incluidos en el mismo es el primer grupo.

A continuación, el valor de grupo_len [1] se incrementa en 1 en la etapa S27. Dado que el valor de grupo_len [1] se ha inicializado a 0 (cero) en la etapa S21, el valor de grupo_len [1] pasa a ser otra vez igual a 1 en dicho estado. Esto corresponde al hecho de que un bloque del bloque 5 se considera como los bloques cortos incluidos en el primer grupo.

Después, de un modo similar, i pasa a ser igual a 6 en la etapa 28 de la Fig. 16. Cuando la etapa retrocede desde la etapa S29 a la etapa S24, dado que el valor de PE (6) pasa a ser igual a 269, a continuación, como se muestra en la Fig. 18, los valores de mín y máx pasan a ser iguales a 152 y 269 respectivamente. En este momento, la estimación de máx-mín = 117 > 50 se lleva a cabo en la etapa S25, y la etapa avanza hasta la etapa S26. Es decir, la clasificación de grupos se lleva a cabo entre los bloques cortos 5 y 6. Y entonces, gnum = 2, mín = 269 y máx = 269 en la etapa S26, y grupo_len [2] = 1 en la etapa S27. E i = 7 en la etapa S28. Después, dado que PE (7) = 231 en la etapa S24, del mismo modo que ocurría anteriormente, mín = 231 y máx = 269, y la estimación de máx-mín = 38 < 50 se lleva a cabo en la etapa S25, y la etapa avanza hasta la etapa S27. Es decir, que ambos bloques cortos 6 y 7, se incluyen en el segundo grupo. En correspondencia con lo mencionado anteriormente, el valor de grupo_len [2] = 2 en la etapa S27. Ahora, cuando i pasa a ser igual a 8 (i = 8) en la siguiente etapa S28, la etapa avanza hasta la etapa S30 de acuerdo con la estimación de la etapa S29. En este momento, la clasificación de grupos se ha completado para el total de los ocho bloques cortos.

En este ejemplo, se logra finalmente la existencia de la siguiente relación:

: Gnum = 2;

: Grupo_len [0] = 5;

: Grupo_len [1] = 1; y

: Grupo_len [2] = 2.

Es decir, como resultado, el número de grupos es 5 y el número de bloques cortos incluidos en los respectivos grupos es 5, 1 y 2, para el grupo 0, el grupo 1 y el grupo 2, respectivamente. El resultado anterior es el mismo que el del ejemplo de la clasificación de grupos que se muestra en la Fig. 14.

Sin embargo, existe un caso en el que no puede llevarse a cabo la estimación adecuada largo/corto ni siquiera según el procedimiento mencionado anteriormente. Por ejemplo, es el caso de la codificación de los datos acústicos que incluye el componente de la propiedad de sonido puro alto en el componente (área) de baja frecuencia. La conversión llevada a cabo mediante el uso de los bloques cortos se traduce en el incremento de la resolución en el área del tiempo, mientras que se reduce (disminuye) la resolución en el área de frecuencia. Por otro lado, el oído humano tiene la propiedad de enmascaramiento de la resolución alta en el área de baja frecuencia. En particular, sólo se enmascara una banda de frecuencia muy estrecha para los datos acústicos de la propiedad de sonido puro alto.

Por el contrario, si los datos acústicos que incluyen el componente de la propiedad tonal en el componente (área) de baja frecuencia se convierten con los bloques cortos, la energía de los datos acústicos originales (iniciales) se dispersa en el ancho de la banda de frecuencia circunferencial (periférico) debido a la resolución insuficiente en el ancho de la banda de frecuencia causada por los bloques cortos y la energía se difunde, además, sobre el ancho del enmascaramiento en la frecuencia de audio baja que puede oír el oído humano. Como resultado, el oído humano percibe el deterioro de la calidad del sonido. La cuestión anteriormente mencionada significa que no basta con llevar a cabo simplemente la estimación largo/corto sólo en función de la entropía perceptiva con respecto a los bloques cortos y que, además, es necesario tomar en consideración la combinación de la tonalidad de los datos acústicos y la dependencia de la frecuencia de la propiedad de enmascaramiento.

En dicha situación, a continuación, el marco de la señal acústica de entrada se divide en varios bloques cortos, y se estima si el índice de tonalidad del componente acústico incluido en una o varias bandas (áreas) de frecuencia predeterminadas es superior al valor umbral. En el caso de que exista al menos un bloque corto superior al valor umbral predeterminado mencionado anteriormente en todas las bandas (áreas) de frecuencia divididas predeterminadas, se estima que el marco de la señal acústica de entrada se convierta al área de frecuencia con un bloque largo. En el pasado, ya presentamos la solicitud relativa a dicho procedimiento según se mencionó anteriormente. La Fig. 19 ilustra el ejemplo concreto de realización de dicho procedimiento.

La Fig. 19 es un gráfico de producción que ilustra el funcionamiento de un aparato de codificación de señales acústicas digitales. En lo sucesivo, se describe concretamente el funcionamiento de la presente forma de realización, con referencia a la Fig. 19. En esta ocasión, los datos acústicos de la Fig. 17 se emplean como ejemplo de la señal acústica de entrada. En la Fig. 17, se adjuntan todos los números en correspondencia con los respectivos ocho bloques cortos sucesivos.

En primer lugar, en conexión con los ocho bloques cortos sucesivos i (0 \leq i \leq 7), la señal acústica de entrada calcula respectivamente los valores del índice de tonalidad en las respectivas bandas de frecuencia sfb. Se supone que los valores calculados son tb[i][sfb] (etapa S40). Aquí, como se muestra en la Fig. 17, sfb es el número total para reconocer la respectiva banda de frecuencia. El cálculo del índice de tonalidad se lleva a cabo mediante el procedimiento explicado en la etapa 7 en la etapa de estimación largo/corto para los respectivos bloques que se aprecian en la ISO/IEC 13818-7 anteriormente mencionada. A continuación, se realiza la operación de inicialización de indicador tonal = 0 (etapa S41). Asimismo, el número total i de los bloques cortos se inicializa como i = 0 (etapa S42). Y entonces, con respecto a los bloques cortos i, se busca en las áreas divididas predeterminadas si los respectivos índices de tonalidad son superiores al valor umbral predeterminado para las respectivas áreas de frecuencia (etapa S43). En el ejemplo que se muestra en la Fig. 19, la búsqueda se realiza con respecto a las bandas, sfb = 7, 8 y 9, y los respectivos índices de tonalidad, th7, th8 y th9.

Ahora, en este ejemplo, se supone que los valores de los índices de tonalidad en sfb = 7, 8 y 9 son los que se muestran en la Fig. 20 con respecto a los respectivos bloques cortos i, y se supone además que los respectivos valores umbral se fijan del siguiente modo:

: th7 = 0,6,

: th8 = 0,9, y

: th9 = 0,8.

En el primer i = 0, se establecen las siguientes relaciones:

: tb[0][7] = 0,12 < 0,6 = th7,

: tb[0][8] = 0,08 < 0,9 = th8, y

: tb[0][9] = 0,15 < 0,8 = th9.

Por consiguiente, la estimación en la etapa S43 pasa a ser "no", y la etapa avanza hasta la etapa S45. Y entonces, el valor de i se incrementa en 1 y el valor de i pasa a ser igual a 1 (i = 1), y la etapa retrocede de nuevo a la etapa S43 a través de la estimación de la etapa S46.

A continuación, la misma operación que se ha mencionado anteriormente continúa hasta i = 5. Después que i pase a ser igual a 6 (i = 6) (etapa S45), la etapa retrocede de nuevo a la etapa S43 a través de la etapa S46. Y entonces, dado que se establecen las siguientes relaciones:

: tb[6][7] = 0,67 < 0,6 = th7;

: tb[6][8] = 0,95 < 0,9 = th8; y

: tb[6][9] = 0,89 < 0,8 = th9,

la estimación de la etapa S43 pasa a ser "sí", y la etapa avanza hasta la etapa S44. En este momento, el valor del indicador_tonal pasa a ser igual a 1 (etapa S44).

: Indicador_tonal = 1

A continuación, i pasa a ser igual a 7 (i = 7) (etapa S45), y la etapa retrocede de nuevo a la etapa S43 a través de la etapa S43. En el momento en que i = 7, dado que se establecen las siguientes relaciones:

: tb[7][7] = 0,42 < 0,6 = th7;

: tb[7][8] = 0,84 < 0,9 = th8; y

: tb[7][9] = 0,81 < 0,8 = th9,

la estimación de la etapa S43 pasa a ser "no", y la etapa avanza hasta la etapa S45. Por otro lado, el valor del indicador_tonal se mantiene en 1 y no cambia en absoluto. Y entonces, después de que i pase a ser igual a 8 (i = 8) (etapa S45), la etapa avanza, en este momento, hasta la etapa S47 a través de la estimación de la etapa S46, y entonces, el valor del indicador_tonal (etapa S47). En este ejemplo, dado que indicador_tonal = 1, la estimación pasa a ser "sí", y la etapa avanza hasta la etapa S48. Por consiguiente, se estima que el bloque acústico de entrada se convierta por MDCT mediante un bloque largo.

Resumen de la invención

Hasta aquí, se han descrito las técnicas anteriores relacionadas con el aparato de codificación de señales acústicas digitales, el procedimiento de codificación de la señal acústica digital y el medio de grabación para grabar el programa de codificación de la señal acústica digital.

Sin embargo, según dichas técnicas anteriores, por ejemplo, reveladas en los documentos de la técnica anterior, por ejemplo, la memoria descriptiva publicada de la patente japonesa públicamente consultable nº 9-232964 y otros documentos relacionados con el MPEG-2 Audio AAC (Advanced Audio Encoding) estandarizado en la ISO/IEC 13818-7, el MDCT (Modified Discrete Cosine Transform), y el M/S (MS stereo-Middle Side Stereo), etc., no existe ningún efecto funcional ventajoso para mejorar el aparato, el procedimiento y el medio de grabación anteriormente mencionados. La presente invención se ha hecho en vista de los problemas anteriormente mencionados y otros problemas, con el fin de resolver los defectos anteriores y las cuestiones problemáticas de las técnicas anteriores. La presente invención mejora los diversos problemas de las técnicas anteriores mencionados hasta aquí. La presente invención proporciona un aparato de codificación de señales acústicas digitales según la reivindicación 4, un procedimiento según la reivindicación 1 y un medio de grabación según la reivindicación 8 para grabar un programa según la reivindicación 7 de codificación de señales acústicas digitales.

Sin embargo, incluso en el procedimiento de la técnica anterior mencionado anteriormente, la estimación largo/corto no se lleva a cabo adecuadamente en algunas ocasiones. Esto significa que, a pesar de que la conversión mediante el uso de bloque(s) corto(s) es esencialmente el procedimiento habitual, dado que el resultado de la clasificación de grupos de la técnica anterior mencionado anteriormente pasa a ser 1 grupo, en algunas ocasiones, se estima que éste sea un bloque largo.

Asimismo, en la Fig. 9, dado que la frecuencia de muestreo inferior (más baja) de la señal acústica digital en el área de frecuencia pasa a ser igual o superior a 4 KHz, el alcance de la contribución pasa a ser inferior debido al valor umbral audible absoluto, la medida cuadrada (total) de las áreas de asignación de bits (área de la línea inclinada en la Fig. 9) aumenta relativamente. Como resultado, el valor de la entropía de sensación (EP) calculado en la etapa S12 por el procedimiento de estimación de bloques largo/corto que se describe en la ISO/IEC 13818-7 mencionada anteriormente también aumenta progresivamente.

Por otro lado, cuando el valor umbral con respecto a la diferencia entre las sumas (valores sumatorios) de las entropías perceptivas de los respectivos bloques cortos toma un valor común independientemente de la frecuencia de muestreo, surge un problema que debe resolverse, por el que, incluso aunque la estimación largo/corto pueda llevarse a cabo adecuadamente con una frecuencia de muestreo (determinada), la misma estimación no puede llevarse a cabo adecuadamente con otra frecuencia de muestreo.

El documento EP 0 986 047 A2, que establece el estado de la técnica anterior en el sentido del art. 54(3) EPC, revela un procedimiento de conexión entre la codificación de bloques largos y cortos de los marcos de los datos de audio, en el que se calcula la diferencia de la entropía perceptiva del bloque largo de el marco actual y el marco precedente y en el que se toman decisiones en función del cálculo de la diferencia de las entropías perceptivas.

El documento US 5,627,938 revela un procedimiento y un aparato para cuantificar señales de audio usando un factor de escala, que se interpola entre un valor umbral basado en el umbral de audición calculado con una frecuencia dada y el umbral de audición absoluto con la misma frecuencia.

De acuerdo con la invención, los bloques cortos pueden clasificarse adecuadamente en grupos sin deteriorar la calidad del sonido, tomando una contramedida para la diferencia entre las frecuencias de muestreo de la señal acústica de entrada y, asimismo, puede estimarse (discriminarse) claramente la diferencia de largo/corto. El otro objeto de la presente invención es proporcionar un aparato de señales acústicas digitales según la reivindicación 4, un procedimiento de codificación de la señal acústica digital según la reivindicación 1 y un medio de grabación según la reivindicación 8 para grabar en el mismo el programa de codificación de la señal acústica digital según la reivindicación 7.

Breve descripción de los dibujos

Se obtendrá una apreciación más completa de la invención y muchas de las ventajas intrínsecas de la misma al comprenderse ésta mejor mediante la referencia a la siguiente descripción detallada, considerada en conexión con los dibujos adjuntos, en los que:

la Fig. 1 es un diagrama de bloques que ilustra la estructura del aparato de codificación se señales acústicas digitales según la presente invención;

la Fig. 2 es un diagrama de flujo que ilustra el funcionamiento del procedimiento de codificación de señales acústicas digitales de la primera forma de realización según la presente invención;

la Fig. 3 es un diagrama ilustrativo de la forma de onda para explicar, a modo de ejemplo, la forma de onda de la señal acústica en la primera forma de realización según la presente invención;

la Fig. 4 es un diagrama (lista) para explicar la relación entre las entropías perceptivas en los dos marcos que son sucesivos en el tiempo que transcurre para los respectivos bloques cortos;

la Fig. 5 es un diagrama de flujo que ilustra el funcionamiento del procedimiento de codificación de señales acústicas digitales de la segunda forma de realización según la presente invención;

la Fig. 6 es un diagrama ilustrativo de la forma de onda para explicar la clasificación de grupos en la segunda forma de realización según la presente invención;

la Fig. 7 es un diagrama (lista) para explicar un ejemplo del valor umbral para cada una de las frecuencias de muestreo;

la Fig. 8 es un diagrama de bloques del sistema que ilustra la estructura del sistema según la presente invención;

la Fig. 9 es un diagrama ilustrativo de la forma de onda para explicar las distribuciones de la intensidad de la señal acústica, el valor umbral de enmascaramiento y el valor umbral de audio absoluto;

la Fig. 10 es un diagrama de bloques que ilustra la estructura básica de la codificación AAC;

la Fig. 11 es un diagrama que muestra el área de conversión de MDCT;

la Fig. 12 es un diagrama que muestra el área de conversión de MDCT para la forma de onda de la señal que experimenta un cambio leve;

la Fig. 13 es un diagrama que muestra la forma de onda de la señal que experimenta un cambio violento (agudo);

la Fig. 14 es un diagrama ilustrativo para explicar un ejemplo de la clasificación de grupos;

la Fig. 15 es un diagrama de flujo que ilustra el funcionamiento de la estimación de bloques largo/cortos en la ISO/IEC 13818-7;

las Figs. 16A y 16B son un diagrama de flujo que ilustra el funcionamiento del procedimiento de codificación de señales acústicas digitales de la técnica anterior;

la Fig. 17 es un diagrama ilustrativo de la forma de onda, a modo de ejemplo, de la señal acústica;

la Fig. 18 es un diagrama (lista) que muestra la relación entre los bloques cortos y la entropía perceptiva;

las Figs. 19A y 19B son un diagrama de flujo que ilustra el funcionamiento del otro procedimiento de codificación de señales acústicas digitales;

la Fig. 20 es un diagrama ilustrativo para explicar la relación entre el bloque corto y el índice de tonalidad;

la Fig. 21 es un diagrama ilustrativo para explicar la relación entre el valor de la señal original, el código de longitud fija, el código de Huffman y el código incapaz de descodificar;

la Fig. 22 es un diagrama ilustrativo para explicar la cuantificación;

la Fig. 23 es un diagrama ilustrativo para explicar el ejemplo numérico concreto del error de cuantificación;

las Figs. 24A y 24B son diagramas ilustrativos de la forma de onda para explicar la conversión de la forma de onda del área de tiempo a la forma de onda del área de frecuencia, en los que la Fig. 24A muestra la relación entre la amplitud del sonido y el tiempo y la Fig. 24B muestra la relación entre el volumen del sonido y la frecuencia;

la Fig. 25 es un diagrama explicativo para explicar el ejemplo de división de la señal en el área de frecuencia en dos anchos de banda;

la Fig. 26 es un diagrama de flujo de la señal para mostrar la producción básica de la codificación de la señal acústica;

la Fig. 27 es un diagrama de flujo de la señal para mostrar la producción de la codificación de señales acústicas de MP3; y

la Fig. 28 muestra un ejemplo de una fila de valores numéricos y dos casos en los que se asigna a la fila de valores numéricos el código de longitud fija y el código de Huffman, respectivamente.

Descripción detallada de las formas de realización preferentes

Para describir la forma de realización preferente de la presente invención, se emplea terminología específica por motivos de claridad. No obstante, no se pretende limitar la presente invención a la terminología específica seleccionada y debe comprenderse que cada elemento técnico incluye todos los equivalentes técnicos que funcionen de una manera similar.

Ahora, con referencia a los dibujos, en los que los mismos números de referencia designan partes idénticas o correspondientes en cada una de las diversas vistas (diagramas) y, más concretamente, con referencia a las Figs. 1 a 8 de los mismos, se ilustran el aparato mejorado de codificación de señales acústicas digitales, el procedimiento mejorado de codificación de la señal acústica digital y el medio mejorado para grabar el programa de codificación de la señal acústica digital.

Para explicarlo de una manera más detallada, con el fin de resolver la cuestión principal anteriormente mencionada, el aparato de codificación de señales acústicas digitales de la presente invención se compone de unos medios de cálculo de la entropía perceptiva para calcular la entropía perceptiva de una señal acústica de entrada calculada para cada uno de los respectivos bloques cortos de conversión; unos medios de cálculo de la suma total de las entropías perceptivas para obtener la suma total en el marco de la entropía perceptiva calculada por los medios de cálculo de la entropía perceptiva; unos medios de comparación para comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de la entropía perceptiva de los dos marcos que son sucesivos en relación con el tiempo transcurrido con un valor umbral determinado previamente; y unos medios de estimación de bloques largo/corto para estimar si debe ser el bloque largo o el bloque corto el que convierta el bloque de la señal acústica de entrada en función del resultado de la comparación obtenido por los medios de comparación.

Asimismo, en el aparato de codificación de señales acústicas digitales de la presente invención, cuando el valor absoluto es superior al valor umbral según el resultado de la comparación obtenido por los medios de comparación, los medios de estimación de los bloques largo/corto estiman que sean los bloques cortos los que conviertan el último marco de los dos marcos sucesivos en el tiempo transcurrido; y cuando el valor absoluto es inferior al valor umbral, los medios de estimación de los bloques largo/corto estiman que sea el bloque largo el que convierta el último de los dos marcos.

Por consiguiente, es posible proporcionar el aparato de codificación de señales acústicas digitales capaz de llevar a cabo la conversión de los bloques reflejando (utilizando eficazmente) además la propiedad de la señal acústica de entrada.

Asimismo, el otro aparato de codificación de señales acústicas digitales de la presente invención se compone de unos medios de cálculo de la entropía perceptiva para calcular la entropía perceptiva de una señal acústica de entrada calculada para cada uno de los respectivos bloques cortos de conversión; unos medios de cálculo de la suma total de las entropías perceptivas para obtener la suma total en el marco de la entropía perceptiva calculada por los medios de cálculo de la entropía perceptiva; unos medios de comparación para comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de la entropía perceptiva de los dos marcos que son sucesivos en relación con el tiempo transcurrido con un valor umbral determinado previamente; y unos medios de estimación que estiman que sean los bloques cortos los que conviertan el último marco de los dos marcos sucesivos en el tiempo transcurrido cuando el valor absoluto sea superior al valor umbral según el resultado de la comparación obtenido por dichos medios de comparación, y que la estimación no pueda llevarse a cabo cuando el valor absoluto sea inferior al valor
umbral.

Además, en el aparato de codificación de señales acústicas digitales de la presente invención, el valor umbral es igual al valor determinado para la frecuencia de muestreo de la señal acústica de entrada. Según otro aspecto de la forma de realización de la presente invención, el procedimiento de codificación de la señal acústica digital incluye las etapas de:

calcular la entropía perceptiva de una señal acústica de entrada calculada para cada uno de los respectivos bloques cortos de conversión; obtener la suma total en el marco de la entropía perceptiva calculada; comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de la entropía perceptiva de los dos marcos que son sucesivos en relación con el tiempo transcurrido con un valor umbral determinado previamente; y estimar si es el bloque largo o los bloques cortos los que deben convertir el bloque de la señal acústica de entrada en función del resultado de la comparación.

En el otro procedimiento de codificación de señales acústicas digitales de la presente invención, cuando el valor absoluto es superior al valor umbral, se estima que los sean los bloques cortos los que conviertan el último marco de los dos marcos sucesivos en el tiempo transcurrido; y cuando el valor absoluto es inferior al valor umbral, se estima que sea el bloque largo el que convierta el último de los dos marcos.

El otro procedimiento de codificación de señales acústicas digitales de la presente invención incluye las etapas de: calcular la entropía perceptiva de una señal acústica de entrada calculada para cada uno de los respectivos bloques cortos de conversión; obtener la suma total en el marco de la entropía perceptiva calculada; comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de la entropía perceptiva de los dos marcos que son sucesivos en relación con el tiempo transcurrido con un valor umbral determinado previamente; y estimar que sean los bloques cortos los que conviertan el último marco de los dos marcos sucesivos en el tiempo transcurrido cuando el valor absoluto es superior al valor umbral, y que sea el bloque largo el que convierta el último marco de los dos marcos sucesivos en el tiempo transcurrido cuando el valor absoluto es inferior al valor umbral.

En el otro procedimiento de codificación de señales acústicas digitales de la presente invención, el valor umbral es igual a un valor determinado para la frecuencia de muestreo de la señal acústica de entrada.

Además, utilizando un programa de ordenador, que puede grabarse en un medio de grabación, para poner en práctica el procedimiento de codificación de señales acústicas digitales según la presente invención, el aparato para construir el sistema de codificación puede usarse ampliamente para diversos fines, sin modificar el sistema existente. Más adelante, se describe de manera más detallada el programa de ordenador o medio de grabación anteriormente mencionado.

Aspecto de las formas de realización de la presente invención

En el aparato de codificación de señales acústicas digitales de la presente invención en el que una señal acústica digital entra a lo largo del eje del tiempo y se divide en bloques a lo largo del mismo, se ponen en práctica procesamientos tales como la división en subbandas, la conversión al área de frecuencia, etc. para cada uno de los respectivos bloques. La señal acústica se divide en una pluralidad de bandas de frecuencia. Se asignan bits codificados a cada una de las respectivas bandas de frecuencia. Se obtiene un factor de escala correspondiente al número de bits codificados de los bits asignados. La señal acústica digital se comprime y se codifica mediante la cuantificación de la señal acústica con el factor de escala. Una vez que se ha llevado a cabo la conversión al área de frecuencia, la señal acústica dividida en bloques se convierte bien a un bloque largo de conversión o bien a varios bloques cortos de conversión. Cuando se emplean los bloques cortos de conversión, la pluralidad de bloques cortos de conversión se dividen en grupos de varios bloques que incluyen respectivamente uno o varios bloques cortos de conversión. La señal acústica se cuantifica, lo que hace que el bloque o la pluralidad de bloques cortos de conversión incluidos en el mismo grupo correspondan a un factor de escala común.

El aparato de codificación de señales acústicas digitales se compone de unos medios de cálculo de la entropía perceptiva para calcular la entropía perceptiva de una señal acústica de entrada calculada para cada uno de los respectivos bloques cortos de conversión; de unos medios de cálculo de la suma total de las entropías perceptivas para obtener la suma total en el marco de la entropía perceptiva calculada por los medios de cálculo de la entropía perceptiva; de unos medios de comparación para comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de la entropía perceptiva de los dos marcos que son sucesivos en relación con el tiempo transcurrido con un valor umbral determinado previamente; y de unos medios de estimación de bloques largo/corto para estimar si es el bloque largo o el bloque corto el que debe convertir el bloque de la señal acústica de entrada en función del resultado de la comparación obtenido por los medios de comparación.

Primera forma de realización

A continuación se describe la primera forma de realización de la presente invención, con referencia a los dibujos adjuntos.

La Fig. 1 es un diagrama de bloques que ilustra la estructura del aparato de codificación de señales acústicas digitales en relación con la primera forma de realización de la presente invención. El aparato de codificación de señales acústicas digitales de la forma de realización según se muestra en la Fig. 1 se construye con un medio divisor de bloques 11 para dividir la señal acústica de entrada en un número predeterminado de bloques, por ejemplo, los ocho bloques sucesivos en la siguiente explicación; un medio de cálculo de la entropía perceptiva 12 para calcular la entropía perceptiva PE de los respectivos bloques divididos de acuerdo con la fórmula de cálculo anteriormente mencionada; un medio de cálculo de la suma total de las entropías perceptivas 13 para obtener la suma total en el marco de la entropía perceptiva calculada; un medio de comparación 14 para comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de la entropía perceptiva de los dos marcos que son sucesivos en el tiempo transcurrido con el valor umbral predeterminado; y un medio de estimación de bloques largo/corto 15 para estimar bien el bloque largo o bien los bloques cortos de acuerdo con el resultado de la comparación.

En el presente documento, la Fig. 2 es un diagrama de flujo que ilustra el funcionamiento del aparato de codificación de señales acústicas digitales en relación con la primera forma de realización de la invención. En lo sucesivo, se describe concretamente el funcionamiento de la forma de realización, con referencia a la Fig. 1 y la Fig. 2. En esta ocasión, los datos acústicos que se muestran en la Fig. 3 se emplean como ejemplo de la señal acústica de entrada. Aquí, la Fig. 3 muestra 16 bloques cortos en total contenidos en los dos marcos que son sucesivos en el tiempo transcurrido. Con respecto al marco, el marco f-1 y el marco f se disponen en este orden de tiempo. El marco que se aprecia es el último marco f. Todos los números correspondientes a los respectivos bloques cortos se adjuntan a los respectivos marcos.

En primer lugar, los medios divisores de bloques 11 dividen la señal acústica en bloques y los medios de cálculo de la entropía perceptiva 12 calculan respectivamente la entropía perceptiva PE[f][I] para los ocho bloques cortos sucesivos I (0 \leq i \leq 7) en el marco f (etapa S101). El cálculo de la entropía perceptiva se lleva a cabo por el procedimiento explicado en la etapa 12 del procedimiento de estimación de bloques largo/corto que se describe en la ISO/IEC 13818-7 anteriormente mencionada. A continuación, el valor sumatorio SPE[f] con respecto a 0 \leq i \leq 7 de PE[f][I] se obtiene como se define en la siguiente ecuación (2) mediante el uso del medio de cálculo de la suma total de las entropías perceptivas 13 (etapa S102).

Ecuación (2)

SPE[f] = \sum\limits^{7}_{i=0}EP(f)(i)

El valor absoluto de la diferencia entre el valor de SPE [f-1] obtenido previamente de un modo similar en el marco precedente f-1 se obtiene mediante el uso del medio de comparación 14 y el valor de SPE [f]. El valor absoluto así obtenido se compara con el valor umbral determinado previamente conexión_pe_s, es decir, se realiza la comparación de qué valor es superior (etapa S103). Se estima que, en los medios de estimación de bloques largo/corto 15, cuando el valor absoluto obtenido es superior al valor conexión_pe_s, la etapa avanza hasta la etapa S104 y el marco f se convierte con la pluralidad de bloques cortos. Por otro lado, se estima que, en los medios de estimación de bloques largo/corto 15, cuando el valor absoluto obtenido es inferior al valor conexión_pe_s, la etapa avanza hasta la etapa S105 y el marco f se convierte con un (único) bloque largo.

La Fig. 4 es un diagrama (lista) que muestra los valores PE[f][I] correspondientes a los respectivos bloques cortos que se muestran en la Fig. 3. En el ejemplo que se muestra en la Fig. 4,

: SPE[f-1] = 1390 y

: SPE[f] = 1030.

Por lo tanto, cuando conexión_pe_s = 500,

: I SPE[f-1] - SPE[f] I

: = 360 < conexión_pe_s = 500.

Por consiguiente, se estima que, con respecto al marco f, la conversión se realiza con un (único) bloque largo.

\newpage

Segunda forma de realización

A continuación, se explica el funcionamiento del aparato de codificación de señales acústicas digitales en relación con la segunda forma de realización de la presente invención de acuerdo con el gráfico de producción que se muestra en la Fig. 5. Los mismos procesamientos de las etapas comprendidas entre la etapa S101 y la etapa S104 que se muestran en la Fig. 2 se llevan a cabo respectivamente en las etapas comprendidas entre la etapa S201 y la etapa S204 que se muestran en la Fig. 5. En el presente documento, se omiten las operaciones iguales y únicamente se describen las operaciones diferentes.

En la etapa S203, se obtiene el valor absoluto de la diferencia entre el valor SPE[f-1] que ya se ha obtenido en el marco previo f-1 del mismo modo que se mencionó anteriormente y el valor SPE[f], y el valor absoluto así obtenido se compara con el valor umbral predeterminado conexión_pe_s. Cuando el valor absoluto obtenido es superior a conexión_pe_s, la etapa avanza hasta la etapa S204 y se estima que el marco f se convierta con varios bloques cortos. Por otro lado, cuando el valor absoluto obtenido es inferior a conexión_pe_s, la estimación no puede realizarse sólo con la información relativa a la diferencia entre los valores de la suma total de la entropía perceptiva de los respectivos bloques cortos en el marco, y la estimación largo/corto se realiza con los otros medios.

Como ejemplo de ello, el marco f se divide (se clasifica) en grupos de tal manera que la diferencia entre el valor máximo y el valor mínimo de la entropía perceptiva relativa a los respectivos bloques cortos del mismo grupo pasa a ser inferior al valor umbral predeterminado. Como resultado, cuando el número de grupos es 1, la etapa avanza hasta la etapa S206 y el marco f se convierte al área de frecuencia con un (único) bloque largo. Cuando el número de grupos es 2 o más, la etapa avanza hasta la etapa S204 y se estima que la conversión se realice con varios bloques cortos. Los detalles de la clasificación de grupos son tal como se muestra en el diagrama de flujo de la Fig. 16.

Como ejemplo concreto, además de la Fig. 3 y la Fig. 4, se considera un ejemplo según se muestra en los dibujos, incluida la Fig. 6, que muestran el resultado de la clasificación de grupos del marco f. Aquí, conexión_pe_s es igual a 500. Como se mencionó anteriormente, dado que

: I SPE[f-1] - SPE[f] I = 360 < conexión_pe_s = 500,

finalmente, depende de la estimación debido al resultado de la clasificación de grupos. Dado que el marco f se clasifica en tres grupos en la Fig. 6 (el grupo 0 son los bloques cortos i = 0, 1, 2, 3 y 4; el primer grupo es el bloque corto i = 5; y el segundo grupo son los bloques cortos i = 6 y 7), se estima que la conversión se realice con varios bloques cortos. Aquí, el procedimiento de estimación largo/corto empleado en la etapa S205 no se limita al procedimiento basado en el resultado de la clasificación de grupos que se emplea aquí. Se permite emplear otro procedimiento de estimación.

Tercera forma de realización

Asimismo, aunque conexión_pe_s se determina en la Fig. 2 y la Fig. 5, también se permite determinar previamente el valor para cada una de las frecuencias de muestreo de la señal acústica de entrada, como en el caso de la Fig. 7, que muestra el ejemplo del valor de conexión_pe_s para cada una de las frecuencias de muestreo, y establece el valor de conexión_pe_s con referencia a la Fig. 7 prácticamente de acuerdo con la frecuencia de muestreo de la señal acústica de entrada.

A continuación, la estructura del sistema de la presente invención se ilustra en el diagrama de bloques de la Fig. 8. Es decir, la Fig. 8 muestra el hardware construido con el microprocesador que pone en práctica el software mediante el procedimiento de codificación de señales acústicas digitales en la forma de realización anteriormente mencionada. En la Fig. 8, el sistema de codificación de señales acústicas digitales se construye con una interfaz (en lo sucesivo, abreviada como I/F) 81, una CPU 82, una ROM 83, una RAM 84, un aparato de visualización 85, un disco duro 86, un teclado 87 y una unidad de CD-ROM 88.

Asimismo, se prepara el aparato de procesamiento comúnmente usado, y el programa para poner en práctica el procedimiento de codificación de la señal acústica digital según la presente invención se graba en el medio de grabación capaz de leer el CD-ROM 89, etc. La señal de control entra desde el aparato externo a través de la I/F 81, y el operador emite el comando (instrucción) por medio del teclado 87 o el programa de la presente invención se inicializa automáticamente. La CPU 82 pone en práctica el proceso de control de la codificación que acompaña al procedimiento de codificación de señales acústicas digitales de acuerdo con el programa anterior. El resultado del proceso se almacena en el aparato de memorización (memoria), tal como la RAM 84, el disco duro 86, etc. La información así almacenada es exportada al aparato de visualización según requiera la ocasión.

Como se ha mencionado hasta aquí, utilizando el programa de ordenador o el medio de grabación para poner en práctica el procedimiento de codificación de la señal acústica digital según la presente invención, el aparato para construir el sistema de codificación puede emplearse comúnmente sin modificar el sistema usado actualmente.

A continuación, se describen más ampliamente los detalles del programa de ordenador, que puede almacenarse en un medio de grabación.

Un medio de grabación de la presente invención se emplea para grabar un programa de ordenador o un programa de codificación del aparato de codificación de señales acústicas digitales. En el medio de grabación, la señal acústica digital entra a lo largo del eje del tiempo y se divide en bloques a lo largo del mismo mediante el uso de un ordenador. Procesamientos tales como la división en subbandas o la conversión al área de frecuencia, etc. se ponen en práctica para cada uno de los respectivos bloques. La señal acústica se divide en varias bandas de frecuencia. Los bits codificados se asignan a cada uno de los respectivos anchos de banda. Se obtiene el factor de escala correspondiente al número de bits codificados de los bits asignados. La señal acústica digital se comprime y se codifica mediante la cuantificación de la señal acústica con el factor de escala. Una vez que la conversión al área de frecuencia se ha llevado a cabo, la señal acústica dividida en bloques se convierte bien a un bloque largo de conversión o bien a una pluralidad de bloques cortos de conversión. Cuando se emplean los bloques cortos de conversión, la pluralidad de bloques cortos de conversión se dividen en los grupos de varios bloques que incluyen respectivamente uno o varios bloques cortos de conversión. La señal acústica se cuantifica, haciendo que el bloque o la pluralidad de bloques cortos de conversión incluidos en el mismo grupo correspondan a un factor de escala común.

El medio tiene las funciones de: calcular la entropía perceptiva de una señal acústica de entrada calculada para cada uno de los respectivos bloques cortos de conversión; obtener la suma total en el marco de dicha entropía perceptiva calculada; comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de la entropía perceptiva de los dos marcos que son sucesivos en relación con el tiempo transcurrido con un valor umbral determinado previamente; y estimar si la conversión del bloque de dicha señal acústica de entrada debe realizarse por el bloque largo o por los bloques cortos en función del resultado de la comparación.

Otro medio de grabación de la presente invención también se emplea para grabar un programa de codificación del aparato de codificación de señales acústicas digitales. En el medio de grabación, la señal acústica digital entra a lo largo del eje del tiempo y se divide en bloques a lo largo del mismo mediante el uso de un ordenador. Procesamientos tales como la división en subbandas o la conversión al área de frecuencia se ponen en práctica para cada uno de los respectivos bloques. La señal acústica se divide en varios anchos de banda. Los bits codificados se asignan a cada uno de los respectivos anchos de banda. Se obtiene el factor de escala correspondiente al número de bits codificados de los bits asignados. La señal acústica digital se comprime y se codifica mediante la cuantificación de la señal acústica con el factor de escala. Una vez que la conversión al área de frecuencia se ha llevado a cabo, la señal acústica dividida en bloques se convierte bien a un bloque largo de conversión o bien a una pluralidad de bloques cortos de conversión. Cuando se emplean los bloques cortos de conversión, dicha pluralidad de bloques cortos de conversión se dividen en grupos de varios bloques que incluyen respectivamente uno o varios bloques cortos de conversión. La señal acústica se cuantifica, haciendo que uno o varios bloques cortos de conversión incluidos en el mismo grupo correspondan a un factor de escala común. El medio tiene las funciones de: calcular la entropía perceptiva de una señal acústica de entrada calculada para cada uno de los respectivos bloques cortos de conversión; obtener la suma total en el marco de dicha entropía perceptiva calculada; comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de la entropía perceptiva de los dos marcos que son sucesivos en relación con el tiempo transcurrido con un valor umbral determinado previamente; y estimar que el último marco de los dos marcos sucesivos en el tiempo transcurrido se convierta mediante los bloques cortos cuando el valor absoluto es superior al valor umbral, y estimar que el último marco de los dos marcos sucesivos en el tiempo transcurrido se convierta mediante el bloque largo cuando el valor absoluto es inferior al valor umbral.

Hasta aquí, se han descrito el aparato de codificación de señales acústicas digitales, el procedimiento de codificación de la señal acústica digital y el medio de grabación para grabar el programa de codificación de la señal acústica digital.

Sin embargo, la presente invención no se limita a la forma de realización anteriormente mencionada. Es decir, no es necesario mencionar que pueden usarse diversos tipos de modificación, variación o sustitución, sin apartarse del ámbito de la invención según se describe en las reivindicaciones adjuntas.

Como se desprende de la descripción anterior, la forma de realización de la presente invención se caracteriza porque el aparato de codificación de señales acústicas digitales se construye con el medio de cálculo para calcular la entropía perceptiva de la señal acústica de entrada, el medio de cálculo de la suma total de las entropías perceptivas para calcular la suma total de las entropías perceptivas en el marco de la entropía perceptiva calculada por el medio de cálculo de la entropía perceptiva, el medio de comparación para comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de los dos marcos sucesivos en el tiempo de la entropía perceptiva con el valor umbral predeterminado, y los medios de estimación de los bloques largo/corto para estimar si la conversión del bloque de la señal acústica de entrada se realiza mediante el bloque largo o mediante los bloques cortos en función del resultado de la comparación. Asimismo, la forma de realización se caracteriza porque los medios de estimación de los bloques largo/corto estiman que el último marco de los dos marcos sucesivos en el tiempo transcurrido se convierta mediante el bloque corto cuando el valor absoluto es superior al valor umbral según el resultado de la comparación obtenido por los medios de comparación, mientras que los medios de estimación de los bloques largo/corto estiman que el último de dichos dos marcos se convierta mediante el bloque largo cuando el valor absoluto es inferior al valor umbral.

Por consiguiente, es posible proporcionar el aparato de codificación de señales acústicas digitales capaz de llevar a cabo la estimación largo/corto correspondiente a la propiedad de la señal acústica de entrada.

La otra forma de realización de la presente invención se caracteriza porque el aparato de codificación de señales acústicas digitales se construye con los medios de cálculo de la entropía perceptiva para calcular la entropía perceptiva de la señal acústica de entrada, los medios de cálculo de la suma total de las entropías perceptivas para calcular la suma total de las entropías perceptivas en el marco de la entropía perceptiva calculada por el medio de cálculo de la entropía perceptiva, los medios de comparación para comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de los dos marcos sucesivos en el tiempo de la entropía perceptiva con el valor umbral predeterminado, y los medios de estimación que estiman que el último marco de los dos marcos sucesivos en el tiempo transcurrido se convierta mediante el bloque corto cuando el valor absoluto es superior al valor umbral según el resultado de la comparación obtenido por los medios de comparación, y que la estimación no pueda llevarse a cabo cuando el valor absoluto es inferior al valor umbral.

Por consiguiente, es posible proporcionar el aparato de codificación de señales acústicas digitales capaz de llevar a cabo la estimación de la conversión de los bloques reflejando además la propiedad de la señal acústica de entrada.

Asimismo, el valor umbral se determina para cada una de las frecuencias de muestreo de la señal acústica de entrada y, por ello, puede llevarse a cabo la estimación adecuada largo/corto correspondiente a la diferencia entre las frecuencias de muestreo de la señal acústica de entrada.

Otra forma de realización más de la presente invención se caracteriza porque el procedimiento de codificación de la señal acústica digital comprende las etapas de: calcular la entropía perceptiva de una señal acústica de entrada calculada para cada uno de los respectivos bloques cortos de conversión; obtener la suma total en el marco de la entropía perceptiva calculada; comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de la entropía perceptiva de los dos marcos que son sucesivos en relación con el tiempo transcurrido con un valor umbral determinado previamente; y estimar si debe ser el bloque largo o el bloque corto el que convierta el bloque de la señal acústica de entrada en función del resultado de la comparación.

Por consiguiente, es posible proporcionar el procedimiento de codificación de la señal acústica digital capaz de llevar a cabo la estimación largo/corto correspondiente a la propiedad de la señal acústica de entrada.

Asimismo, el procedimiento de codificación de la señal acústica digital comprende las etapas de: calcular la entropía perceptiva de una señal acústica de entrada calculada para cada uno de los bloques cortos de conversión; obtener la suma total en el marco de la entropía perceptiva calculada; comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de la entropía perceptiva de los dos marcos que son sucesivos en el tiempo transcurrido con un valor umbral determinado previamente; y estimar que el último de los dos marcos sucesivos en el tiempo transcurrido se convierta mediante el bloque corto cuando el valor absoluto es superior al valor umbral, y estimar que el último de los dos marcos sucesivos en el tiempo transcurrido se convierta mediante el bloque largo cuando el valor absoluto es inferior al valor umbral.

Por consiguiente, es posible proporcionar el procedimiento de codificación de señales acústicas digitales capaz de llevar a cabo la estimación de la conversión de bloques reflejando además la propiedad de la señal acústica de entrada.

Asimismo, empleando el medio en el que se graba el programa para poner en práctica el procedimiento de codificación de señales acústicas digitales según la presente invención, el aparato para construir el sistema de codificación puede usarse comúnmente, sin modificar el sistema usado hasta aquí.

Hasta aquí se han descrito las formas de realización preferentes de la presente invención. No obstante, son posibles numerosas modificaciones y variaciones adicionales a la luz de las enseñanzas anteriores. Por lo tanto, debe comprenderse que, dentro del ámbito de las reivindicaciones adjuntas, la presente invención puede ponerse en práctica de un modo distinto al descrito específicamente en el presente documento.

Esta solicitud reclama el beneficio de prioridad sobre la solicitud de patente japonesa nº 11-222054 presentada en la Oficina de Patentes Japonesa el 5 de agosto de 1999.

Claims

1. Un procedimiento para codificar una señal acústica digital que comprende las etapas de:

: proporcionar el marco de una señal acústica digital a lo largo del eje del tiempo;

: dividir dicho marco de la señal acústica digital en bloques mediante el uso de un ordenador;

: poner en práctica procesamientos entre los que se incluyen la división en subbandas o la conversión al área de frecuencia para cada uno de los respectivos bloques;

: dividir dicha señal acústica en una pluralidad de bandas de frecuencia;

: asignar bits codificados a cada una de dichas bandas de frecuencia respectivas;

: obtener un factor de escala correspondiente al número de bits codificados de los bits asignados; y

: comprimir y codificar dicha señal acústica digital mediante la cuantificación de dicha señal acústica con dicho factor de escala;

en el que, una vez que se ha llevado a cabo la conversión a dicha área de frecuencia, dicho marco de señal acústica dividida en bloques se convierte usando bien un bloque largo de conversión o bien una pluralidad de bloques cortos de conversión;

en el que, cuando se emplean dichos bloques cortos de conversión, dicha pluralidad de bloques cortos de conversión se dividen en grupos de una pluralidad de bloques que incluyen respectivamente uno o una pluralidad de bloques cortos de conversión; y

en el que dicha señal acústica se cuantifica, haciendo que uno o una pluralidad de bloques cortos de conversión incluidos en el mismo grupo corresponda a un factor de escala común;

caracterizado porque dicho procedimiento comprende además las etapas de:

calcular la entropía perceptiva del marco de una señal acústica de entrada calculada para cada uno de dichos bloques cortos de conversión respectivos (S101; S201);

obtener dicha suma total en el marco de dicha entropía perceptiva calculada (S102; S202);

comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de la entropía perceptiva de los dos marcos que son sucesivos en relación con el tiempo transcurrido con un valor umbral determinado previamente (S103; S203); y

estimar si el bloque de dicha señal acústica de entrada debe convertirse mediante dicho bloque largo o mediante dichos bloques cortos en función del resultado de la comparación.

2. Procedimiento según la reivindicación 1,

en el que, cuando dicho valor absoluto es superior a dicho valor umbral, se estima que el último de dichos dos marcos sucesivos en el tiempo transcurrido se convierta mediante dicho bloque largo; y

en el que, cuando dicho valor absoluto es inferior a dicho valor umbral, se estima que el último de dichos dos marcos se convierta mediante dicho bloque largo.

3. Procedimiento según cualquiera de las reivindicaciones 1 a 2, en el que dicho valor umbral es igual a un valor determinado para la frecuencia de muestreo de dicha señal acústica de entrada.

4. Aparato de codificación de señales acústicas digitales que comprende unos medios en los que el marco de una señal acústica digital se proporciona a lo largo de un eje del tiempo y se divide en bloques, unos medios de procesamiento que incluyen una división en subbandas o una conversión al área de frecuencia para cada uno de los respectivos bloques aplicados, unos medios de división en los que dicha señal acústica se divide en una pluralidad de bandas de frecuencia, unos medios de cuantificación en los que se asignan bits codificados a cada una de las dichas bandas de frecuencia respectivas, se obtiene un factor de escala correspondiente al número de bits codificados de los bits asignados y dicha señal acústica digital se comprime y se codifica mediante la cuantificación de dicha señal acústica con dicho factor de escala,

unos medios para convertir dicho marco de señal acústica dividida en bloques bien a un bloque largo de conversión o bien a una pluralidad de bloques cortos de conversión, una vez que se ha llevado a cabo la conversión a dicha área de frecuencia;

unos medios para dividir dicha pluralidad de bloques cortos de conversión en grupos de una pluralidad de bloques que incluyen respectivamente un bloque o una pluralidad de bloques cortos de conversión, cuando se emplean dichos bloques cortos de conversión; y

unos medios para cuantificar dicha señal acústica, haciendo que un bloque o una pluralidad de bloques cortos de conversión incluidos en el mismo grupo correspondan a un factor de escala común;

caracterizado porque dicho aparato de codificación de señales acústicas digitales comprende además:

unos medios de cálculo de la entropía perceptiva (12) para calcular la entropía perceptiva del marco de una señal acústica de entrada calculada para cada uno de dichos bloques cortos de conversión respectivos;

unos medios de cálculo de la suma total de las entropías perceptivas (13) para obtener dicha suma total en el marco de dicha entropía perceptiva calculada por dichos medios de cálculo de la entropía perceptiva (12);

unos medios de comparación (14) para comparar el valor absoluto de la diferencia entre las respectivas sumas totales en el marco de la entropía perceptiva de los dos marcos que son sucesivos en relación con el tiempo transcurrido con un valor umbral determinado previamente; y

unos medios de estimación de los bloques largo/corto (15) para estimar si el bloque de dicha señal acústica de entrada debe convertirse mediante dicho bloque largo o mediante dichos bloques cortos en función del resultado de la comparación obtenido por dichos medios de comparación.

5. Aparato según la reivindicación 4,

en el que dichos medios de estimación de los bloques largo/corto (15) están adaptados de tal manera que estiman que el último marco de dichos dos marcos sucesivos en el tiempo transcurrido se convierta mediante dichos bloques cortos, cuando dicho valor absoluto es superior a dicho valor umbral según el resultado de la comparación obtenido por dichos medios de comparación; y

estiman que el último de dichos dos marcos se convierta mediante dicho bloque largo cuando dicho valor absoluto es inferior a dicho valor umbral.

6. Aparato según cualquiera de las reivindicaciones 4 a 5, que comprende unos medios de determinación del umbral, en el que dicho valor umbral es igual a un valor determinado para la frecuencia de muestreo de dicha señal acústica de entrada.

7. Un programa de ordenador que puede cargarse directamente en la memoria interna de un ordenador digital (82), que comprende porciones del código del software para llevar a cabo las etapas de cualquiera de las reivindicaciones 1 a 3, cuando dicho programa se hace funcionar en un ordenador.

8. Un programa de ordenador almacenado en un medio de grabación que puede usarse por un aparato de codificación de señales acústicas digitales, comprendiendo dicho programa instrucciones para llevar a cabo las etapas de cualquiera de las reivindicaciones 1 a 3 para controlar dicho aparato de codificación.