ES2302185T3 - Dispositivo y procedimiento para determinar un incremento de cuantificador. - Google Patents

Dispositivo y procedimiento para determinar un incremento de cuantificador. Download PDF

Info

Publication number
ES2302185T3
ES2302185T3 ES05707482T ES05707482T ES2302185T3 ES 2302185 T3 ES2302185 T3 ES 2302185T3 ES 05707482 T ES05707482 T ES 05707482T ES 05707482 T ES05707482 T ES 05707482T ES 2302185 T3 ES2302185 T3 ES 2302185T3
Authority
ES
Spain
Prior art keywords
quantifier
interference
increase
threshold
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05707482T
Other languages
English (en)
Inventor
Bernhard Grill
Michael Schug
Bodo Teichmann
Nikolaus Rettelbach
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2302185T3 publication Critical patent/ES2302185T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Length Measuring Devices With Unspecified Measuring Means (AREA)
  • Measurement Of Optical Distance (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Paper (AREA)
  • Soil Working Implements (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

Dispositivo para determinar un incremento de cuantificador para cuantificar una señal, que presenta información de audio o vídeo, con las características siguientes: un dispositivo (502) para proporcionar un primer incremento de cuantificador y un umbral de interferencia; un dispositivo (504) para determinar una primera interferencia introducida por el primer incremento de cuantificador; un dispositivo (506) para comparar la interferencia introducida por el primer incremento de cuantificador con el umbral de interferencia; un dispositivo (508) para seleccionar un segundo incremento de cuantificador, que es superior al primer incremento de cuantificador, cuando la primera interferencia introducida es superior al umbral de interferencia; un dispositivo (510) para determinar una segunda interferencia introducida por el segundo incremento de cuantificador; un dispositivo (512) para comparar la segunda interferencia introducida con el umbral de interferencia o la primera interferencia introducida; y un dispositivo (514) para cuantificar la señal con el segundo incremento de cuantificador, cuando la segunda interferencia introducida es inferior a la primera interferencia introducida o inferior al umbral de interferencia.

Description

Dispositivo y procedimiento para determinar un incremento de cuantificador.
La presente invención se refiere a un codificador de audio y especialmente a codificadores de audio que se basan en transformación, es decir en los que al principio del conducto del codificador se produce una conversión de una representación temporal en una representación espectral.
En la figura 3 se muestra un codificador de audio conocido basado en transformación. El codificador mostrado en la figura 3 está representado en la norma ISO/IEC 14496-3: 2001 (E) internacional, subapartado 4, página 4, y en la técnica también se conoce como codificador AAC.
A continuación se representa el codificador conocido. En una entrada 1000 se alimenta una señal de audio que va a codificarse. Esta se suministra en primer lugar a una etapa 1002 de ajuste a escala, en la que se realiza un denominado control de ganancia AAC, para determinar el nivel de la señal de audio. La información secundaria del ajuste a escala se suministra a un formateador 1004 del flujo de bits, tal como se representa mediante la flecha entre el bloque 1002 y el bloque 1004. La señal de audio ajustada a escala se suministra a continuación a un banco 1006 de filtros MDCT. En el codificador AAC, el banco de filtros implementa una transformación de coseno discreta modificada con un 50% de ventanas de solapamiento, determinándose la longitud de ventana mediante un bloque 1008.
En general, el bloque 1008 está previsto para aplicar una función ventana a señales temporales con ventanas más cortas y para aplicar una función ventana a señales más bien estacionarias con ventanas más largas. Esto sirve para conseguir una resolución de tiempo superior (a costa de la resolución de la resolución de frecuencia) debido a las ventanas más cortas para señales temporales, mientras que para señales más bien estacionarias se consigue una resolución de frecuencia superior (a costa de la resolución de tiempo) mediante ventanas más largas, prefiriéndose según la tendencia ventanas más largas, ya que prometen una ganancia de codificación superior. En la salida del banco 1006 de filtros existen bloques de valores espectrales sucesivos desde el punto de vista temporal, que según la forma de realización del banco de filtros pueden ser coeficientes MDCT, coeficientes de Fourier o también señales de subbanda, teniendo cada señal de subbanda un determinado ancho de banda limitado, que se determina por el canal de subbanda correspondiente en el banco 1006 de filtros, y presentando cada señal de subbanda un determinado número de valores de muestreo de subbanda.
A continuación se representa a modo de ejemplo el caso en el que el banco de filtros emite bloques de coeficientes espectrales MDCT sucesivos desde el punto de vista temporal, que, en general, representan espectros a corto plazo sucesivos de la señal de audio que va a codificarse en la entrada 1000. Un bloque de valores espectrales MDCT se alimenta entonces a un bloque 1010 de procesamiento TNS, en el que tiene lugar una conformación temporal de ruido (TNS = temporary noise shaping). La técnica TNS se utiliza para conformar la forma temporal del ruido de cuantificación en cada ventana de la transformación. Esto se consigue aplicando un proceso de filtro sobre partes de los datos espectrales de cada canal. La codificación se realiza basándose en ventanas. En especial se realizan las etapas siguientes, para aplicar la herramienta TNS a una ventana de datos espectrales, es decir, a un bloque de valores espectrales.
En primer lugar se selecciona una gama de frecuencia para la herramienta TNS. Una selección adecuada consiste en cubrir una gama de frecuencia de 1,5 kHz hasta la mayor banda de factor de escala posible con un filtro. Se indica que esta gama de frecuencia depende de la tasa de muestreo, tal como se especifica en la norma AAC (ISO/IEC 14496-3: 2001 (E)).
A continuación se realiza un cálculo LPC (LPC = linear predictive coding = codificación predictiva lineal), y concretamente con los coeficientes MDCT espectrales, que se encuentran en la gama de frecuencia objetivo seleccionada. Para una mayor estabilidad se excluyen de este proceso los coeficientes que corresponden a frecuencias por debajo de 2,5 kHz. Los procedimientos LPC habituales, tal como se conocen por el procesamiento de voz, pueden utilizarse para el cálculo de LPC, por ejemplo el algoritmo conocido de Levinson-Durbin. El cálculo se realiza para el orden máximo permitido del filtro de conformación de ruido.
Como resultado del cálculo LPC se obtiene la ganancia de predicción PG esperada. Además se obtienen los coeficientes de reflexión o coeficientes de Parcor.
Cuando la ganancia de predicción no sobrepasa un determinado umbral, no se aplica la herramienta TNS. En este caso se escribe una información de control en el flujo de bits, para que un descodificador sepa que no se ha realizado un procesamiento TNS.
Sin embargo, cuando la ganancia de predicción sobrepasa un umbral, se aplica el procesamiento TNS.
En una etapa siguiente, se cuantifican los coeficientes de reflexión. El orden del filtro de conformación de ruido utilizado se determina quitando todos los coeficientes de reflexión con un valor absoluto inferior a un umbral de la "cola" del arreglo de coeficientes de reflexión. El número de coeficientes de reflexión restantes se encuentra en el orden de magnitud del filtro de conformación de ruido. Un umbral adecuado se encuentra en 0,1.
Los coeficientes de reflexión restantes se convierten normalmente en coeficientes de predicción lineales, conociéndose esta técnica también como procedimiento "step up".
Los coeficientes LPC calculados se utilizan entonces como coeficientes de filtro de conformación de ruido de codificador, es decir, como coeficientes de filtro de predicción. Este filtro FIR se conduce por encima de la gama de frecuencia objetivo especificada. En la descodificación se utiliza un filtro autorregresivo, mientras que en la codificación se utiliza un denominado filtro de media móvil (moving average). Finalmente todavía se suministra al formateador del flujo de bits la información secundaria para la herramienta TNS, tal como se representa mediante la flecha que se muestra entre el bloque 1010 de procesamiento TNS y el formateador 1004 del flujo de bits en la figura 3.
A continuación se pasa a través de varias herramientas opcionales no mostradas en la figura 3, tales como por ejemplo una herramienta de predicción a largo plazo, una herramienta de intensidad/acoplamiento, una herramienta de predicción, una herramienta de sustitución del ruido, hasta llegar finalmente a un codificador 1012 central-lateral. El codificador 1012 central-lateral es activo, cuando la señal de audio que va a codificarse es una señal multicanal, es decir, una señal estéreo con un canal izquierdo y un canal derecho. Hasta ahora, es decir, en la dirección de procesamiento aguas arriba del bloque 1012 en la figura 3 el canal estéreo izquierdo y derecho se procesaron por separado, es decir, se ajustaron a escala, se transformaron mediante el banco de filtros, se sometieron o no a al procesamiento TNS, etc.
A continuación, en el codificador central-lateral se comprueba en primer lugar si es útil una codificación central-lateral, es decir si va a proporcionar realmente una ganancia de codificación. Una codificación central-lateral proporcionará una ganancia de codificación cuando el canal izquierdo y derecho sean más bien parecidos, ya que entonces el canal central, es decir, la suma del canal izquierdo y el derecho es casi igual al canal izquierdo o al derecho, independientemente del ajuste a escala por el factor 1/2, mientras que el canal lateral sólo tiene valores muy pequeños, ya que es igual a la diferencia entre el canal izquierdo y el derecho. De este modo puede observarse que, cuando el canal izquierdo y el derecho son prácticamente iguales, la diferencia es prácticamente cero o sólo comprende valores muy pequeños que, según lo esperado, se cuantifican en un cuantificador 1014 siguiente a cero y, por tanto, pueden trasmitirse de una forma muy eficaz, ya que aguas abajo del cuantificador 1014 está conectado un codificador 1016 de entropía.
Al cuantificador 1014 se alimenta desde un modelo 1020 psicoacústico una interferencia permitida por cada banda de factor de escala. El cuantificador trabaja de manera iterativa, es decir, en primer lugar se llama a un bucle de iteración exterior, que a continuación llama a un bucle de iteración interior. En general, partiendo de valores iniciales de incremento de cuantificador se realiza en primer lugar una cuantificación de un bloque de valores en la entrada del cuantificador 1014. El bucle interior cuantifica especialmente los coeficientes MDCT, utilizándose un determinado número de bits. El bucle exterior calcula la distorsión y la energía modificada de los coeficientes utilizando el factor de escala, para de nuevo llamar a un bucle interior. Este proceso se repite, hasta que se cumplen unas condiciones determinadas. Para cada iteración en el bucle de iteración exterior se reconstruye a este respecto la señal, para calcular la interferencia introducida por la cuantificación y compararla con la interferencia permitida proporcionada por el modelo 1020 psicoacústico. Además, de iteración a iteración, se amplían en uno o varios escalones los factores de escala de las bandas de frecuencia que después de esta comparación aún se consideran con interferencia, y concretamente para cada iteración del bucle de iteración exterior.
A continuación, cuando se alcanza una situación en la que la interferencia de cuantificación introducida por la cuantificación está por debajo de la interferencia permitida determinada por el modelo psicoacústico y cuando simultáneamente se cumplen requisitos con respecto a los bits, concretamente que no se sobrepase una tasa de bits máxima, se finaliza la iteración, es decir, el procedimiento de análisis mediante síntesis y se codifican los factores de escala obtenidos, tal como se explica en el bloque 1014 y se suministran de forma codificada al formateador 1004 del flujo de bits, tal como se indica mediante la flecha que está dibujada entre el bloque 1014 y el bloque 1004. Los valores cuantificados se suministran entonces al codificador 1016 de entropía, que normalmente realiza una codificación de entropía utilizando varias tablas de códigos de Huffman para diferentes bandas de factor de escala, para pasar los valores cuantificados a un formato binario. Tal y como se conoce, en la codificación de entropía en forma de codificación de Huffman se recurre a tablas de codificación, que se crean mediante una estadística de señales esperadas y en las que los valores que aparecen con frecuencia reciben palabras de código más cortas que los valores que aparecen con menos frecuencia. Los valores codificados por entropía se suministran entonces también como información principal real al formateador 1004 del flujo de bits, que a continuación emite la señal de audio codificada en el lado de salida según una determinada sintaxis del flujo de bits.
Tal como ya se ha explicado, en esta cuantificación iterativa, cuando la interferencia introducida por un incremento de cuantificador es superior al umbral, se utiliza un incremento de cuantificador más fino, y concretamente esperando que de este modo disminuya el ruido de cuantificación, porque se cuantifica de manera más fina.
Este concepto es desventajoso en la medida en que naturalmente por el incremento de cuantificador más fino aumenta la cantidad de datos que debe transmitirse y de este modo disminuye la ganancia de compresión.
La publicación técnica de S. R. Quackenbush, "Coding of Natural Audio in MPEG-4", Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP' 98, Seattle (EE.UU.), 12-15 de mayo de 1998, tomo 6, páginas 3797-3800, da a conocer detalles para la codificación de audio con tasas de bits en el intervalo de 2 kB/s a 64 kB/s por cada canal. Especialmente en el caso de AAC de MPEG-2 se cuantifican coeficientes espectrales utilizando un cuantificador no uniforme por cada banda de factor de escala. El modelo psicoacústico en el codificador ajusta el incremento de cuantificador, de modo que se enmascara el ruido de cuantificación mediante la señal. En la codificación de entropía siguiente los conjuntos de coeficientes cuantificados, que están asociados a una banda de factor de escala, se agrupan en secciones, habiendo en una sección un número entero de bandas de factor de escala. A los coeficientes cuantificados se les aplica la codificación de Huffman, y concretamente en tuplas de 2 ó 4 utilizando un libro de código por cada sección.
El objetivo de la presente invención consiste en proporcionar un concepto para determinar un incremento de cuantificador, que por un lado introduce una interferencia de cuantificación reducida y por otro lado proporciona una buena ganancia de compresión.
Este objetivo se soluciona mediante un dispositivo para determinar un incremento de cuantificador según la reivindicación 1 de patente, un procedimiento para determinar un incremento de cuantificador según la reivindicación 9 de patente o un programa informático según la reivindicación 10 de patente.
La presente invención se basa en el conocimiento de que una reducción adicional de la potencia de interferencia por un lado y simultáneamente un aumento o al menos mantenimiento de la ganancia de codificación pueden conseguirse porque cuando la interferencia introducida es superior a un umbral, no se cuantifica de manera más fina, como en el estado de la técnica, sino que también se prueban al menos algunos incrementos de cuantificador más bastos. Se ha demostrado, que también en el caso de incrementos de cuantificador más bastos pueden conseguirse reducciones de la interferencia introducida por la cuantificación, y concretamente cuando el incremento de cuantificador más basto "coincide" mejor con el valor que va a cuantificarse que el incremento de cuantificador más fino. Este efecto se basa en que el error de cuantificación no sólo depende del incremento de cuantificador, sino naturalmente también de los valores que van a cuantificarse. En caso de que los valores que van a cuantificarse estén próximos a los incrementos del incremento de cuantificador más basto, entonces se conseguirá una reducción del ruido de cuantificación con simultáneamente una mayor ganancia de compresión (ya que se ha cuantificado de manera más basta).
Del concepto según la invención puede sacarse provecho especialmente cuando ya para el primer incremento de cuantificador, a partir del que se realiza la comparación de umbral, existen incrementos de cuantificación estimados muy buenos. En un ejemplo de realización preferido de la presente invención se prefiere por tanto determinar el primer incremento de cuantificador mediante un cálculo directo basándose en la energía de ruido media y no basándose en un escenario en el peor de los casos. De este modo los bucles de iteración según el estado de la técnica pueden o bien reducirse ya considerablemente o bien hacerse completamente obsoletos.
El procesamiento posterior según la invención del incremento de cuantificador prueba entonces en el ejemplo de realización sólo una vez más un incremento de cuantificador más basto, para sacar provecho del efecto descrito de la "mejor coincidencia" de un valor que va a cuantificarse. Si a continuación se observa que la interferencia obtenida por el incremento de cuantificador más basto es inferior a la interferencia previa o incluso inferior al umbral, entonces puede seguir la iteración para probar un incremento de cuantificador aún más basto. Este procedimiento de la aproximación basta del incremento de cuantificador continúa hasta que la interferencia introducida vuelve a aumentar. Entonces se alcanza un criterio de terminación, de modo que se cuantifica con el incremento de cuantificador almacenado, que proporcionó la interferencia introducida más reducida, y se continúa con el procedimiento de codificación según se requiera.
En un ejemplo de realización alternativo de la presente invención puede realizarse, para estimar el primer incremento de cuantificador, un planteamiento de análisis mediante síntesis como en el estado de la técnica, que tiene lugar hasta que se alcanza un criterio de terminación del mismo. Entonces puede utilizarse el procesamiento posterior según la invención, para finalmente comprobar, si realmente con un incremento de cuantificador más basto no puede llegarse a resultados de interferencia igual de buenos o incluso mejores resultados de interferencia. Si entonces de observa que un incremento de cuantificador más basto es igual de bueno o incluso mejor, con respecto a la interferencia introducida, entonces se utiliza para la cuantificación. Si por el contrario se observa que la cuantificación más basta es inútil, entonces se utiliza el incremento de cuantificador determinado inicialmente por ejemplo a través de un procedimiento de análisis/síntesis para la cuantificación final.
Según la invención puede utilizarse de este modo cualquier incremento de cuantificador, para realizar una primera comparación de umbral. Es irrelevante, si este primer incremento de cuantificador ya se ha obtenido mediante esquemas de análisis/síntesis o incluso mediante un cálculo directo de los incrementos de cuantificador.
En un ejemplo de realización preferido de la presente invención se utiliza este concepto para cuantificar una señal de audio presente en la gama de frecuencia. Este concepto también puede utilizarse sin embargo para cuantificar una señal de intervalo de tiempo, que presente información de audio y/o vídeo.
Además se indica que el umbral con el que se compara es una interferencia permitida psicoacústica o psicoóptica, u otro umbral para el que se desee no superarlo. Así, este umbral puede ser de hecho una interferencia permitida proporcionada por un modelo psicoacústico. Sin embargo, este umbral también puede ser una interferencia introducida determinada previamente para el incremento de cuantificador inicial o cualquier otro umbral.
Se indica que a los valores cuantificados no se les tiene que aplicar necesariamente una codificación de Huffman, sino que los mismos pueden codificarse alternativamente con otra codificación de entropía, como por ejemplo una codificación aritmética. De manera alternativa, los valores cuantificados también pueden codificarse de manera binaria, ya que esta codificación también lleva a que, para la transmisión de valores inferiores o de valores iguales a cero, se requieran menos bits que para la transmisión de valores superiores o en general de valores diferentes de cero.
Preferiblemente para la determinación de los valores de partida, es decir, del incremento de cuantificador 1, puede prescindirse completamente del planteamiento iterativo o al menos en gran parte, cuando el incremento de cuantificador se determina a partir de una estimación de energía de ruido directa. El cálculo del incremento de cuantificador a partir de una estimación de energía de ruido exacta es considerablemente más rápido que un cálculo en un bucle de análisis mediante síntesis, ya que los valores para el cálculo existen directamente. No tienen que llevarse a cabo y compararse en primer lugar varios intentos de cuantificación, hasta que se encuentre un incremento de cuantificador favorable para la codificación.
Sin embargo, puesto que en el caso de la línea característica de cuantificador utilizada se trata de una línea característica no lineal, en la estimación de energía de ruido ha de tenerse en cuenta la línea característica no lineal. Ya no puede utilizarse la estimación de energía de ruido simple para un cuantificador lineal, ya que es muy imprecisa. Según la invención se utiliza un cuantificador con la línea característica de cuantificación siguiente:
1
En la ecuación anterior, x_{i} son los valores espectrales que van a cuantificarse. Los valores de partida están indicados por y_{i}, siendo y_{i} por tanto los valores espectrales cuantificados. q es el incremento de cuantificador. Round es la función de redondeo, que preferiblemente es la función nint, representando "nint" el "número entero más próximo" (nearest integer). El exponente, que hace que el cuantificador se convierta en un cuantificador no lineal, está designado con \alpha, siendo \alpha diferente de 1. Normalmente, el exponente \alpha será inferior a 1, de modo que el cuantificador tendrá una propiedad de compresión. En la capa 3 y en AAC el exponente \alpha es igual a 0,75. El parámetro s es una constante de suma, que puede tener cualquier valor, que sin embargo también puede ser cero.
Según la invención, para el cálculo del incremento de cuantificador se utiliza la relación siguiente:
2
Con \alpha igual a ¾ se obtiene la ecuación siguiente:
3
En estas ecuaciones, el término izquierdo representa la interferencia THR permitida en una banda de frecuencia, que se proporciona por un módulo psicoacústico para una banda de factor de escala con las líneas de frecuencia de i igual a i_{1} a i igual a i_{2}. La ecuación anterior permite una estimación casi exacta de la interferencia introducida mediante un incremento de cuantificador q para un cuantificador no lineal con la línea característica de cuantificador anterior con el exponente \alpha diferente de 1, realizando la función nint de la ecuación de cuantificador la verdadera ecuación de cuantificador, concretamente un redondeo al número entero más próximo.
Se indica que en lugar de la función nint puede utilizarse cualquier función de redondeo round, concretamente por ejemplo también un redondeo al número entero par más próximo o al número entero impar más próximo o un redondeo a la decena más próxima. En general, la función de redondeo es responsable de mapear un valor a partir de una reserva de valores con un número determinado de valores permitidos con una reserva de valores con un segundo número de valores determinado inferior.
En un ejemplo de realización preferido de la presente invención, los valores espectrales cuantificados ya se han sometido previamente a un procesamiento TNS y, cuando se trata de por ejemplo señales estéreo, a una codificación central/lateral siempre que los canales sean tales que se haya activado el codificador central/lateral.
\newpage
Con la relación entre incremento de cuantificador y factor de escala, que viene dada según la ecuación siguiente,
4
puede indicarse por tanto directamente el factor de escala para cada banda de factor de escala y alimentarse a un codificador de audio correspondiente. El factor de escala se obtiene a partir de la ecuación siguiente.
5
En un ejemplo de realización preferido de la presente invención puede utilizarse aún otra iteración de procesamiento posterior, que se basa en un principio de análisis mediante síntesis, para variar aún ligeramente el incremento de cuantificador calculado directamente sin iteración para cada banda de factor de escala, para alcanzar el óptimo real.
Sin embargo, en comparación con el estado de la técnica, el cálculo ya muy exacto de los valores iniciales hace posible una iteración muy corta, aunque ha resultado que en los casos más generales puede prescindirse completamente de la iteración aguas abajo.
El concepto preferido, que se basa en el cálculo del incremento con ayuda de la energía de ruido media, proporciona por tanto una estimación buena y realista, porque no trabaja con un escenario en el peor de los casos, como en el estado de la técnica, sino que utiliza como base un valor esperado del error de cuantificación y de este modo, en caso de una calidad equivalente subjetiva, permite una codificación más eficaz de los datos con un número de bits considerablemente inferior. Además, por el hecho de que puede prescindirse completamente de la iteración o que puede reducirse claramente el número de las etapas de iteración, puede alcanzarse un codificador sustancialmente más rápido. Esto es notable especialmente porque los bucles de iteración en el codificador conocido eran fundamentales para la necesidad de tiempo total del codificador. De este modo una reducción en una o varias etapas de iteración lleva ya en total a un ahorro de tiempo considerable del codificador.
Ejemplos de realización preferidos de la presente invención se explican a continuación de forma más detallada con referencia a los dibujos adjuntos. Muestran:
la figura 1, un diagrama de bloques de un dispositivo para determinar una señal de audio cuantificada;
la figura 2, un diagrama de flujo para representar un procesamiento posterior según un ejemplo de realización preferido de la presente invención;
la figura 3, un diagrama de bloques de un codificador conocido según la norma AAC;
la figura 4, una representación de la reducción de la interferencia de cuantificación mediante un incremento de cuantificador más aproximado; y
la figura 5, un diagrama de bloques del dispositivo según la invención para determinar un incremento de cuantificador para cuantificar una señal.
A continuación se representa el concepto según la invención con referencia a la figura 5. La figura 5 muestra una representación esquemática de un dispositivo para determinar un incremento de cuantificador para cuantificar una señal, que presenta información de audio o vídeo, y se facilita a través de una entrada 500 de señal. La señal se suministra a un dispositivo 502 para proporcionar un primer incremento de cuantificador (IDC) y para proporcionar un umbral de interferencia, que a continuación se designará también como interferencia que puede introducirse. Se indica que el umbral de interferencia puede ser cualquier umbral. Preferiblemente, sin embargo, será una interferencia psicoacústica o psicoóptica que pueda introducirse, estando seleccionado este umbral de modo que una señal, en la que se ha introducido la interferencia, pueda percibirse aún así por el oyente u observador humano como libre de interferencias.
El umbral (THR) así como el primer incremento de cuantificador se suministran a un dispositivo 504 para determinar la primera interferencia real introducida por el primer incremento de cuantificador. La determinación de la interferencia realmente introducida tiene lugar preferiblemente mediante la cuantificación con el primer incremento de cuantificador, mediante la recuantificación utilizando el primer incremento de cuantificador y mediante el cálculo de la distancia entre la señal inicial y la señal recuantificada. Preferiblemente, cuando se procesan valores espectrales, de los valores espectrales correspondientes de la señal original y de la señal recuantificada se forman los cuadrados, para a continuación determinar la diferencia de los cuadrados. Pueden utilizarse métodos de determinación de la distancia alternativos.
El dispositivo 504 proporciona un valor para una primera interferencia realmente introducida mediante el primer incremento de cuantificador. Esta se suministra junto con el umbral THR a un dispositivo 506 para comparar. El dispositivo 506 realiza una comparación entre el umbral THR y la primera interferencia realmente introducida. En caso de que la primera interferencia realmente introducida sea superior al umbral, entonces el dispositivo 506 activará un dispositivo 508 para seleccionar un segundo incremento de cuantificador, estando configurado el dispositivo 508 para seleccionar el segundo incremento de cuantificador de forma más basta, es decir más grande que el primer incremento de cuantificador. El segundo incremento de cuantificador seleccionado por el dispositivo 508 se suministra a un dispositivo 510 para determinar la segunda interferencia realmente introducida. Para ello el dispositivo 510 obtiene la señal inicial así como el segundo incremento de cuantificador y vuelve a realizar una cuantificación con el segundo incremento de cuantificador, una recuantificación con el segundo incremento de cuantificador y un cálculo de distancia entre la señal recuantificada y la señal inicial, para suministrar una medida para la segunda interferencia realmente introducida a un dispositivo 512 para comparar. El dispositivo 512 para comparar compara la segunda interferencia realmente introducida con la primera interferencia realmente introducida o con el umbral THR. En caso de que la segunda interferencia realmente introducida sea inferior a la primera interferencia realmente introducida o incluso inferior al umbral THR, entonces se utiliza el segundo incremento de cuantificador para cuantificar
la señal.
Se indica que el concepto mostrado en la figura 5 sólo es esquemático. Evidentemente, para realizar las comparaciones en los bloques 506 y 512 no tienen que estar previstos necesariamente dispositivos de comparación separados, sino que también puede estar previsto un único dispositivo de comparación, que se active de manera correspondiente. Lo mismo es válido para los dispositivos 504 y 510 para determinar las interferencias realmente introducidas. Éstos tampoco tienen que estar realizados necesariamente como dispositivos separados.
Además se indica que el dispositivo para cuantificar no tiene que estar realizado necesariamente como dispositivo separado del dispositivo 510. Porque normalmente las señales cuantificadas mediante el segundo incremento de cuantificador ya se generan en el dispositivo 510, cuando el dispositivo 510 realiza una cuantificación y una recuantificación, para determinar la interferencia realmente introducida. Los valores cuantificados obtenidos en el mismo también pueden almacenarse y después, cuando el dispositivo 512 para comparar proporciona un resultado positivo, emitirse como señal cuantificada, de modo que el dispositivo 514 para cuantificar se "funde" en cierto modo con el dispositivo 510 para determinar la segunda interferencia realmente introducida.
En un ejemplo de realización preferido de la presente invención, el umbral THR es la interferencia máxima que puede introducirse determinada de manera psicoacústica, siendo en este caso la señal una señal de audio. El umbral THR se proporciona en este caso por un modelo psicoacústico, que funciona de manera convencional y que para cada banda de factor de escala proporciona una interferencia de cuantificación máxima que puede introducirse estimada en esta banda de factor de escala. La interferencia máxima que puede introducirse se basa en el umbral de enmascaramiento en el sentido de que es idéntica al umbral de enmascaramiento o se deriva del umbral de enmascaramiento, en el sentido de que, por ejemplo, se realiza una codificación con una distancia de seguridad, de modo que la interferencia que puede introducirse es inferior al umbral de enmascaramiento, o se realiza una codificación más bien ofensiva en el sentido de una reducción de la tasa de bits y concretamente en el sentido de que la interferencia permitida se encuentra por encima del umbral de enmascaramiento.
A continuación se representa con referencia a la figura 1 una forma preferida para implementar el dispositivo 502 para proporcionar el primer incremento de cuantificador. En este sentido, las funcionalidades del dispositivo 50 de la figura 2 y del dispositivo 502 de la figura 5 son iguales. Preferiblemente, el dispositivo 502 está configurado para tener las funcionalidades del dispositivo 10 y del dispositivo 12 de la figura 1. Además, en este ejemplo, el cuantificador 514 en la figura 5 está configurado de igual manera que el cuantificador 14 en la figura 1.
A continuación se representa además con referencia a la figura 2 un procedimiento completo, que cuando la interferencia introducida es superior al umbral, también intenta incrementos de cuantificador más bastos.
Además la rama izquierda de la figura 2, que representa el concepto según la invención, está ampliada en el sentido de que cuando la interferencia introducida es superior al umbral y la aproximación basta del incremento de cuantificador es inútil, y cuando los requisitos de la tasa de bits no son especialmente estrictos o aún hay sitio en el "banco de bits", también se realiza una iteración con un incremento de cuantificador inferior, es decir más fino.
A continuación, con referencia a la figura 4 se representa finalmente el efecto, en el que se basa la presente invención, concretamente que a pesar de la aproximación basta del incremento de cuantificador puede obtenerse un ruido de cuantificación inferior y por tanto con ello un aumento de la ganancia de compresión.
La figura 1 muestra un dispositivo para determinar una señal de audio cuantificada, que viene dada como representación espectral en forma de valores espectrales. En especial se indica que cuando, con referencia a la figura 3, no se ha realizado ningún procesamiento TNS y ninguna codificación central/lateral, los valores espectrales son directamente los valores de partida del banco de filtros. Sin embargo, si sólo se realiza un procesamiento TNS, pero ninguna codificación central/lateral, entonces los valores espectrales alimentados al cuantificador 1015 son valores residuales espectrales, tal como se originan por el filtrado de predicción TNS.
\newpage
En caso de utilizar un procesamiento TNS y una codificación central/lateral, entonces los valores espectrales alimentados al dispositivo según la invención son valores espectrales de un canal central o valores espectrales de un canal lateral.
El dispositivo según la invención comprende en primer lugar un dispositivo para proporcionar una interferencia permitida, que en la figura 1 está designada con 10. Como dispositivo para proporcionar una interferencia permitida puede servir el modelo 1020 psicoacústico mostrado en la figura 3, que normalmente está configurado para proporcionar un umbral o interferencia permitida, también denominada THR, para cada banda de factor de escala, es decir, para un grupo de varios valores espectrales adyacentes entre sí de manera espectral. La interferencia permitida se basa en el umbral de enmascaramiento psicoacústico e indica cuánta energía puede introducirse en una señal de audio inicial, sin que el oído humano perciba la energía de interferencia. Dicho de otro modo, la interferencia permitida es la parte de señal introducida artificialmente (mediante la cuantificación), que se enmascara por la señal de audio real.
El dispositivo 10 está representado, para calcular la interferencia THR permitida para una banda de frecuencia, preferiblemente una banda de factor de escala y suministrarla a un dispositivo 12 aguas abajo. El dispositivo 12 sirve para calcular una información de incremento de cuantificador para la banda de frecuencia, para la que se ha indicado la interferencia THR permitida. El dispositivo 12 está configurado para suministrar la información q de incremento de cuantificador a un dispositivo 14 para cuantificar aguas abajo. El dispositivo 14 para cuantificar funciona según las instrucciones de cuantificación mostradas en el bloque 14, utilizándose la información de incremento de cuantificador en el caso mostrado en la figura 1 para dividir en primer lugar un valor x_{i} espectral entre el valor q, y a continuación elevar el resultado a la potencia con el exponente \alpha diferente de 1 y a continuación, dado el caso, añadir un factor s de suma.
Entonces se suministra este resultado a una función de redondeo, que en el ejemplo de realización mostrado en la figura 1 selecciona el número entero más próximo. El número entero puede volver a generarse, por definición, cortando decimales detrás de la coma, es decir "redondeando siempre hacia abajo". De forma alternativa, el número entero más próximo también puede generarse redondeando hacia abajo hasta 0,499 y redondeando hacia arriba desde 0,5. De nuevo, de manera alternativa, el número entero más próximo puede determinarse "redondeando siempre hacia arriba", según la implementación individual. En lugar de la función nint puede utilizarse sin embargo también cualquier función round, que en general mapea un valor que va a redondearse a partir de una primera reserva de valores superior con una segunda reserva de valores inferior.
Entonces, en la salida del dispositivo 14 se encuentra el valor espectral cuantificado en la banda de frecuencia. Tal como puede observarse por la ecuación mostrada en el bloque 14, al dispositivo 14 además del incremento q de cuantificador también se suministra evidentemente el valor espectral que va a cuantificarse en la banda de frecuencia considerada.
Se indica que el dispositivo 12 no tiene necesariamente que calcular directamente el incremento q de cuantificador, sino que como información de incremento de cuantificador alternativa puede calcularse también el factor de escala, tal como se utiliza en codificadores de audio basados en transformación conocidos. El factor de escala está enlazado con el incremento de cuantificador real mediante la relación mostrada en la figura 1 a la derecha del bloque 12. En caso de que el dispositivo para calcular esté configurado para calcular como información de incremento de cuantificador el factor scf de escala, entonces este factor de escala se suministra al dispositivo 14 para cuantificar, que a continuación en vez del valor q en el bloque 14 utiliza el valor 2^{1/4 scf} para el cálculo de cuantificación.
A continuación se da una derivación de la forma indicada en el bloque 12.
Tal como se ha explicado, el cuantificador de ley exponencial, tal como se representa en el bloque 14, cumple la relación siguiente:
6
La operación inversa se representa de manera siguiente:
7
Esta ecuación representa por tanto la operación necesaria para la recuantificación, siendo y_{i} un valor espectral cuantificado y siendo x'_{i} un valor espectral recuantificado. q vuelve a ser el incremento de cuantificador, que mediante la relación mostrada en la figura 1 a la derecha del bloque 12 está relacionado con el factor de escala.
Según lo esperado, el resultado concuerda con esta ecuación para el caso en el que \alpha es igual a 1.
Si ahora la ecuación anterior se suma a través de un vector de los valores espectrales, entonces la potencia de ruido total en una banda, que se determina por el índice i, viene dada de la siguiente manera:
8
Resumiendo, el valor esperado del ruido de cuantificación de un vector se determina mediante el incremento q de cuantificador y un denominado factor de forma, que describe la distribución de magnitud de las componentes del vector.
El factor de forma, que es el término más a la derecha en la ecuación anterior, depende de los valores de entrada reales y sólo tiene que calcularse una vez, incluso si la ecuación anterior se calcula para niveles de interferencia THR deseados de manera distinta.
Tal como ya se ha explicado, esta ecuación se simplifica con \alpha igual a ¾ de la siguiente manera:
9
El lado izquierdo de esta ecuación es por tanto una estimación de la energía de ruido de cuantificación, que en el caso límite coincide con la energía de ruido permitida (threshold, umbral).
Por tanto se realiza el siguiente planteamiento:
10
La suma a través de las raíces de las líneas de frecuencia en la parte derecha de la ecuación corresponde a una medida para la uniformidad de las líneas de frecuencia y se conoce como factor de forma preferiblemente ya en el codificador:
11
Por tanto se obtiene:
12
q corresponde en este caso al incremento de cuantificador. Éste está determinado en AAC como:
13
Scf es el factor de escala. En caso de tener que determinar el factor de escala, la ecuación, debido a la relación entre incremento y factor de escala, puede calcularse de la manera siguiente:
14
15
16
17
18
La ecuación anterior proporciona por tanto una relación cerrada entre el factor scf de escala para una banda de factor de escala, que tiene un factor de forma determinado, y para el que se da un umbral THR de interferencia determinado, que normalmente procede del modelo psicoacústico.
Tal como ya se explicó, el cálculo del incremento con ayuda de la energía de ruido media proporciona una mejor estimación, ya que no se parte de ningún escenario en el peor de los casos, sino que se utiliza como base el valor esperado del error de cuantificación.
El concepto según la invención es adecuado por tanto para determinar el incremento de cuantificador o el equivalente del factor de escala para una banda de factor de escala sin iteraciones.
Aún así, cuando los requisitos de tiempo de cálculo no son tan estrictos, aún puede realizarse un procesamiento posterior, tal como se representa a continuación mediante la figura 2. En una primera etapa en la figura 2 se estima el primer incremento de cuantificador (etapa 50). La estimación del primer incremento de cuantificador (IDC) tiene lugar utilizando el procedimiento representado mediante la figura 1. A continuación, en una etapa 52, se realiza una cuantificación con el primer incremento de cuantificación preferiblemente según el cuantificador, tal como se representa mediante el bloque 14 en la figura 1. Después se realiza una recuantificación de los valores obtenidos con el primer incremento de cuantificador, para a continuación calcular la interferencia introducida. Después se comprueba en una etapa 54, si la interferencia introducida es superior al umbral dado.
Se indica que el incremento q (o scf) de cuantificador calculado mediante la relación representada en el bloque 12 es una aproximación. En caso de que la relación dada en el bloque 12 de la figura 1 fuera realmente exacta, entonces en el bloque 54 debería determinarse que la interferencia introducida corresponde exactamente al umbral. Debido a la naturaleza de aproximación de la relación en el bloque 12 de la figura 1, la interferencia introducida puede ser sin embargo superior o inferior al umbral THR.
Además se indica que la desviación del umbral no será especialmente grande, aunque sin embargo estará presente. En caso de que en la etapa 54 se observe que la interferencia introducida utilizando el primer incremento de cuantificador es inferior al umbral, es decir, en caso de que la pregunta en la etapa 54 se responda con un no, entonces se toma la rama derecha en la figura 3. En caso de que la interferencia introducida sea inferior al umbral, entonces esto significa que la estimación en el bloque 12 en la figura 1 era pesimista, de modo que en una etapa 56 se ajusta un incremento de cuantificador más basto como segundo incremento de cuantificador.
La medida de cuánto más basto es el segundo incremento de cuantificador en comparación con el primer incremento de cuantificador puede seleccionarse. Sin embargo se prefiere tomar incrementos relativamente pequeños, ya que la estimación en el bloque 50 ya será relativamente exacta.
En una etapa 58 se lleva a cabo entonces con el segundo incremento de cuantificador más basto (grande) una cuantificación de los valores espectrales, se realiza una recuantificación posterior y un cálculo de la segunda interferencia correspondiente al segundo incremento de cuantificador.
En una etapa (60) se comprueba entonces si la segunda interferencia, que corresponde al segundo incremento de cuantificador, sigue siendo inferior al umbral inicial. En este caso, entonces se almacena (62) el segundo incremento de cuantificador y se inicia una nueva iteración, para de nuevo en una etapa (56) ajustar un incremento de cuantificador aún más basto. Entonces con el incremento de cuantificador aún más basto se realiza de nuevo la etapa 58, la etapa 60 y, dado el caso, la etapa 62, para de nuevo iniciar una nueva iteración. Si entonces durante una iteración se determina en la etapa 60, que la segunda interferencia no es inferior al umbral, es decir, que es superior al umbral, entonces se alcanza un criterio de terminación, y al alcanzar el criterio de terminación se cuantifica (64) con el incremento de cuantificador almacenado en último lugar.
Después de que el primer incremento de cuantificador estimado fuera ya un valor relativamente bueno, el número de las iteraciones será reducido en comparación con valores iniciales mal estimados, lo que lleva a un ahorro de tiempo de cálculo significativo durante la codificación, ya que las iteraciones para el cálculo del incremento de cuantificador suponen la mayor parte de tiempo de cálculo del codificador.
A continuación, mediante la rama izquierda en la figura 2 se representa un procedimiento según la invención, que se utiliza cuando la interferencia introducida es realmente superior al umbral.
Aún así, según la invención, a pesar del hecho de que la interferencia introducida ya es superior al umbral, se ajusta (70) un segundo incremento de cuantificador aún más basto, realizándose entonces en una etapa 72 una cuantificación, recuantificación y cálculo de la segunda interferencia de ruido que corresponde al segundo incremento de cuantificador. Después se comprueba en una etapa 74, si ahora la segunda interferencia de ruido es inferior al umbral. En este caso, entonces la pregunta en la etapa 74 se responde con "sí", y se almacena (76) el segundo incremento de cuantificador. Por el contrario si se observa que la segunda interferencia de ruido es superior al umbral, entonces o bien se cuantifica con el incremento de cuantificador almacenado o, si no se ha almacenado ningún segundo incremento de cuantificador mejor, se recorre una iteración, en la que, como en el estado de la técnica, se selecciona un segundo incremento cuantificado más fino, para "empujar" la interferencia introducida por debajo del umbral.
A continuación se explica por qué especialmente cuando la interferencia introducida es superior al umbral, aún así puede conseguirse una mejora, cuando se trabaja con un incremento de cuantificador aún más basto. Hasta ahora siempre se partía de que un incremento de cuantificador más fino llevaba a una energía de cuantificación introducida inferior y que un incremento de cuantificador superior llevaba a una interferencia de cuantificación introducida superior. Generalmente puede ser así; sin embargo, no siempre y especialmente en el caso de bandas de factor de escala ocupadas de manera más bien débil y especialmente cuando el cuantificador tiene una línea característica no lineal, será justamente al contrario. Según la invención se ha descubierto que en un número de casos no irrelevante un incremento de cuantificador más basto lleva a una interferencia introducida más reducida. Esto se debe a que también puede producirse el caso en el que un incremento de cuantificador más basto "coincide" mejor con un valor espectral que va a cuantificarse que un incremento de cuantificador más fino, tal como se explica mediante el ejemplo siguiente con referencia a la figura 4.
La figura 4 muestra a modo de ejemplo una línea (60) característica de cuantificación, que proporciona cuatro escalones 0, 1, 2, 3 de cuantificación cuando se cuantifican señales de entrada entre 0 y 1. Los valores cuantificados corresponden a 0,0, 0,25, 0,5, 0,75. Como comparación se ha dibujado (62) otra línea característica de cuantificación más basta en la figura 4 mediante una línea discontinua, que sólo tiene 3 escalones de cuantificación, que corresponden a los valores absolutos 0,0, 0,33, 0,66. Así el incremento de cuantificador en el primer caso, es decir, con la línea 60 característica de cuantificador, es igual a 0,25, mientras que el incremento de cuantificador en el segundo caso, es decir con la línea 62 característica de cuantificador, es igual a 0,33. La segunda línea (62) característica de cuantificador tiene por tanto un incremento de cuantificador más basto que la primera línea (60) característica de cuantificador, que debe representar una línea característica de cuantificación fina. Cuando se considera el valor x_{i}=0,33 que va a cuantificarse, entonces en la figura 4 puede observarse que el error en la cuantificación con el cuantificador fino con cuatro escalones es igual a la diferencia entre 0,33 y 0,25 y por tanto, que es igual a 0,08. Por el contrario, el error en la cuantificación con tres escalones, debido al hecho de que un escalón de cuantificador "coincide" en cierta medida exactamente con el valor que va a cuantificarse, es igual a 0.
En la figura 4 puede observarse que una cuantificación más basta puede llevar a un error de cuantificación inferior que una cuantificación más fina.
Además una cuantificación más basta es decisiva para que se requiera una tasa de bits de partida inferior, ya que los posibles estados sólo son tres estados, concretamente 0, 1, 2, al contrario que el caso del cuantificador más fino en el que deben señalizarse cuatro escalones, concretamente 0, 1, 2, 3. Además, el incremento de cuantificador más basto tiene la ventaja de que, según la tendencia, se "eliminan por cuantificación" más valores a 0, que en el caso de un incremento de cuantificador más fino, en el que menos valores se eliminan por cuantificación a 0. Aunque cuando se observan varios valores espectrales en una banda de factor de escala, la "cuantificación a 0" lleva a un aumento del error de cuantificación, esto no tiene que ser necesariamente problemático, ya que el incremento de cuantificador más basto a lo mejor coincide con otros valores espectrales más importantes de manera más exacta, de modo que el error de cuantificación se anula por la cuantificación más basta de los demás valores espectrales e incluso se compensa en exceso, produciéndose simultáneamente una tasa de bits inferior.
Por tanto, dicho de otro modo, se consigue un "mejor" resultado de codificador en total, ya que mediante el concepto según la invención se consiguen un número inferior de estados que han de señalizarse y simultáneamente una mejor "coincidencia" de los escalones de cuantificación.
Por lo tanto, según la invención, tal como se ha representado mediante la figura 2 en la rama izquierda, partiendo de valores estimados (etapa 50 en la figura 2), cuando la interferencia introducida es superior al umbral, aún así se intenta un incremento de cuantificador aún más basto, para sacar provecho del efecto representado en la figura 4. Además se ha demostrado que este efecto en caso de una cuantificación no lineal aparece de una manera más significativa que en el caso trazado en la figura 4 de dos líneas características de cuantificador lineales.
El concepto representado del procesamiento posterior del incremento de cuantificador o procesamiento posterior de factor de escala sirve por tanto para mejorar el resultado del estimador de factor de escala.
Partiendo de los incrementos de cuantificador que se determinaron en el estimador de factor de escala (50 en la figura 2) se determinan en la etapa de análisis mediante síntesis nuevos incrementos de cuantificador lo más grandes posible, para los que la energía de error es inferior a la del valor umbral predeterminado.
Por tanto, en primer lugar se cuantifica el espectro con los incrementos de cuantificador calculados, y se determina la energía de la señal de error, es decir, preferiblemente la suma de los cuadrados de la diferencia de valores espectrales originales y cuantificados. Alternativamente a la determinación de errores, también puede utilizarse una señal de tiempo correspondiente, aunque se prefiere el uso de valores espectrales.
El incremento de cuantificador y la señal de error se almacenan como mejor resultado hasta el momento. Si la interferencia calculada se encuentra por encima de un valor umbral, entonces se procede de la siguiente manera:
El factor escala en un intervalo predeterminado se modifica con respecto al valor calculado inicialmente, utilizándose especialmente también incrementos de cuantificador más bastos (70).
Para cada factor de escala nuevo vuelve a cuantificarse el espectro y se calcula la energía de la señal de error. En caso de que la señal de error sea inferior a la menor calculada hasta el momento, entonces el incremento de cuantificador actual se almacena de manera intermedia junto con la energía de la señal de error correspondiente como mejor resultado hasta el momento.
A este respecto se consideran según la invención no sólo factores de ajuste a escala inferiores, sino también superiores, para especialmente cuando el cuantificador es un cuantificador no lineal, sacar provecho del concepto descrito mediante la figura 4.
Por el contrario, si la interferencia calculada se encuentra por debajo del valor umbral, es decir, si la estimación en la etapa 50 ha sido demasiado pesimista, entonces el factor de escala dentro de un intervalo predeterminado se modifica por el valor calculado inicialmente.
Para cada factor de escala nuevo vuelve a cuantificarse el espectro y se calcula la energía de la señal de error.
En caso de que la señal de error sea inferior a la menor calculada hasta ahora, entonces el incremento de cuantificador actual se almacena de manera intermedia junto con la energía de la señal de error correspondiente como mejor resultado hasta el momento.
A este respecto sólo se consideran sin embargo factores de ajuste a escala más bastos para reducir el número de bits que se requieren para la codificación del espectro de audio.
En función de las circunstancias, el procedimiento según la invención puede implementarse en hardware o software. La implementación puede llevarse a cabo en un medio de almacenamiento digital, especialmente un disquete o CD con señales de control legibles electrónicamente, que pueden actuar conjuntamente con un sistema informático programable de modo que se lleve a cabo el procedimiento.
Por tanto, la invención consiste en general también en un producto de programa informático con un código de programa almacenado en un soporte legible por máquina para la realización del procedimiento según la invención, cuando el producto de programa informático se ejecuta en un ordenador. Dicho de otro modo, la invención puede realizarse por tanto como un programa informático con un código de programa para la realización del procedimiento, cuando el programa informático se ejecuta en un ordenador.

Claims (10)

1. Dispositivo para determinar un incremento de cuantificador para cuantificar una señal, que presenta información de audio o vídeo, con las características siguientes:
un dispositivo (502) para proporcionar un primer incremento de cuantificador y un umbral de interferencia;
un dispositivo (504) para determinar una primera interferencia introducida por el primer incremento de cuantificador;
un dispositivo (506) para comparar la interferencia introducida por el primer incremento de cuantificador con el umbral de interferencia;
un dispositivo (508) para seleccionar un segundo incremento de cuantificador, que es superior al primer incremento de cuantificador, cuando la primera interferencia introducida es superior al umbral de interferencia;
un dispositivo (510) para determinar una segunda interferencia introducida por el segundo incremento de cuantificador;
un dispositivo (512) para comparar la segunda interferencia introducida con el umbral de interferencia o la primera interferencia introducida; y
un dispositivo (514) para cuantificar la señal con el segundo incremento de cuantificador, cuando la segunda interferencia introducida es inferior a la primera interferencia introducida o inferior al umbral de interferencia.
2. Dispositivo según la reivindicación 1, en el que la señal es una señal de audio y presenta valores espectrales de una representación espectral de la señal de audio, y en el que el dispositivo (502) para proporcionar está configurado como modelo psicoacústico, que calcula una interferencia permitida para una banda de frecuencia, basándose en un umbral de enmascaramiento psicoacústico.
3. Dispositivo según la reivindicación 1 ó 2, en el que el dispositivo (504) para determinar la primera interferencia introducida o el dispositivo (510) para calcular la segunda interferencia introducida está configurado para cuantificar utilizando un incremento de cuantificador, para recuantificar utilizando el incremento de cuantificador y para calcular una distancia entre la señal recuantificada y la señal, para obtener la interferencia introducida.
4. Dispositivo según una de las reivindicaciones anteriores, en el que el dispositivo (502) para proporcionar el primer incremento de cuantificador está configurado para calcular el incremento de cuantificador según la ecuación siguiente:
19
en la que el dispositivo (514) para cuantificar está configurado para cuantificar según la ecuación siguiente:
20
siendo x_{i} un valor espectral que va a cuantificarse, representando q la información de incremento de cuantificador, siendo s un número diferente de o igual a cero, siendo \alpha un exponente diferente de "1", siendo round una función de redondeo que mapea un valor a partir de un primer intervalo de valores superior con un valor en un segundo intervalo de valores inferior, siendo \sum\limits_{i}|\Delta x_{i}|^{2} (THR) la interferencia permitida, y siendo i un índice continuo para valores espectrales en la banda de frecuencia.
5. Dispositivo según una de las reivindicaciones anteriores, en el que el dispositivo (508) para seleccionar está configurado además para seleccionar, cuando la interferencia introducida es inferior a la interferencia permitida, un incremento de cuantificador superior.
6. Dispositivo según una de las reivindicaciones anteriores, en el que el dispositivo (502) para proporcionar está configurado para proporcionar el primer incremento de cuantificador como resultado de una determinación de análisis/síntesis.
7. Dispositivo según una de las reivindicaciones anteriores, en el que el dispositivo (508) para seleccionar está configurado para modificar un incremento de cuantificador para una banda de frecuencia, independientemente de un incremento de cuantificador para otra banda de frecuencia.
8. Dispositivo según una de las reivindicaciones anteriores, en el que el dispositivo (502) para proporcionar está configurado para determinar el primer incremento de cuantificador como resultado de una etapa de iteración previa con una aproximación basta del incremento de cuantificador, y en el que el umbral de interferencia es una interferencia introducida por una etapa de iteración previa para determinar el primer incremento de cuantificador.
9. Procedimiento para determinar un incremento de cuantificador para cuantificar una señal, que presenta información de audio o vídeo, con las etapas siguientes:
proporcionar (502) un primer incremento de cuantificador y un umbral de interferencia;
determinar (504) una primera interferencia introducida por el primer incremento de cuantificador;
comparar (506) la interferencia introducida por el primer incremento de cuantificador con el umbral de interferencia;
seleccionar (508) un segundo incremento de cuantificador, que es superior al primer incremento de cuantificador, cuando la primera interferencia introducida es superior al umbral de interferencia;
determinar (510) una segunda interferencia introducida por el segundo incremento de cuantificador;
comparar (512) la segunda interferencia introducida con el umbral de interferencia o la primera interferencia introducida;
cuantificar (514) la señal con el segundo incremento de cuantificador, cuando la segunda interferencia introducida es inferior a la primera interferencia introducida o inferior al umbral de interferencia.
10. Programa informático con un código de programa adaptado para realizar el procedimiento según la reivindicación 9 de patente, cuando el programa informático se ejecuta en un ordenador.
ES05707482T 2004-03-01 2005-02-17 Dispositivo y procedimiento para determinar un incremento de cuantificador. Active ES2302185T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004009955A DE102004009955B3 (de) 2004-03-01 2004-03-01 Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
DE102004009955 2004-03-01

Publications (1)

Publication Number Publication Date
ES2302185T3 true ES2302185T3 (es) 2008-07-01

Family

ID=34745332

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05707482T Active ES2302185T3 (es) 2004-03-01 2005-02-17 Dispositivo y procedimiento para determinar un incremento de cuantificador.

Country Status (17)

Country Link
US (2) US7574355B2 (es)
EP (1) EP1687810B1 (es)
JP (1) JP4531805B2 (es)
KR (1) KR100852481B1 (es)
CN (1) CN1922656B (es)
AT (1) ATE386320T1 (es)
AU (1) AU2005217508B2 (es)
BR (1) BRPI0507229A (es)
CA (1) CA2557777C (es)
DE (2) DE102004009955B3 (es)
ES (1) ES2302185T3 (es)
HK (1) HK1093596A1 (es)
IL (1) IL176688A (es)
NO (1) NO338935B1 (es)
PT (1) PT1687810E (es)
RU (1) RU2329549C2 (es)
WO (1) WO2005083681A1 (es)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004009955B3 (de) 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
US7702161B2 (en) * 2005-10-28 2010-04-20 Aspeed Technology Inc. Progressive differential motion JPEG codec
FR2898443A1 (fr) * 2006-03-13 2007-09-14 France Telecom Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants
EP2122615B1 (en) * 2006-10-20 2011-05-11 Dolby Sweden AB Apparatus and method for encoding an information signal
KR101149448B1 (ko) * 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
ATE500588T1 (de) 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
US8559742B2 (en) * 2008-10-10 2013-10-15 Accusoft Corporation Image encoding methods and apparatus providing improved visual results
AU2011237882B2 (en) 2010-04-09 2014-07-24 Dolby International Ab MDCT-based complex prediction stereo coding
WO2012152764A1 (en) 2011-05-09 2012-11-15 Dolby International Ab Method and encoder for processing a digital stereo audio signal
KR20130047643A (ko) * 2011-10-28 2013-05-08 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
WO2013113351A1 (en) * 2012-01-30 2013-08-08 Nokia Siemens Networks Oy Processing a signal in station apparatus
US8947274B2 (en) * 2012-06-21 2015-02-03 Mitsubishi Electric Corporation Encoding apparatus, decoding apparatus, encoding method, encoding program, decoding method, and decoding program
CN105723454B (zh) * 2013-09-13 2020-01-24 三星电子株式会社 能量无损编码方法和设备、信号编码方法和设备、能量无损解码方法和设备及信号解码方法和设备
US11227615B2 (en) * 2017-09-08 2022-01-18 Sony Corporation Sound processing apparatus and sound processing method
KR102589303B1 (ko) * 2017-11-02 2023-10-24 삼성전자주식회사 고정 소수점 타입의 뉴럴 네트워크를 생성하는 방법 및 장치
DE102018112215B3 (de) * 2018-04-30 2019-07-25 Basler Ag Quantisiererbestimmung, computerlesbares Medium und Vorrichtung, die mindestens zwei Quantisierer implementiert
US10762910B2 (en) 2018-06-01 2020-09-01 Qualcomm Incorporated Hierarchical fine quantization for audio coding
US11701278B2 (en) 2019-08-23 2023-07-18 Hill-Rom Services. Inc. Technologies for efficiently tracking the location of a patient bed
US11165435B2 (en) 2019-10-08 2021-11-02 Tron Future Tech Inc. Signal converting apparatus
CN115052309A (zh) * 2021-03-09 2022-09-13 中兴通讯股份有限公司 干扰检测方法、装置、设备和存储介质

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4751736A (en) * 1985-01-31 1988-06-14 Communications Satellite Corporation Variable bit rate speech codec with backward-type prediction and quantization
EP0267344B1 (en) * 1986-10-30 1993-09-01 International Business Machines Corporation Process for the multi-rate encoding of signals, and device for carrying out said process
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
US5542008A (en) * 1990-02-28 1996-07-30 Victor Company Of Japan, Ltd. Method of and apparatus for compressing image representing signals
EP0520068B1 (en) * 1991-01-08 1996-05-15 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5664057A (en) * 1993-07-07 1997-09-02 Picturetel Corporation Fixed bit rate speech encoder/decoder
JPH07225598A (ja) * 1993-09-22 1995-08-22 Massachusetts Inst Of Technol <Mit> 動的に決定された臨界帯域を用いる音響コード化の方法および装置
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
US5754742A (en) * 1995-05-12 1998-05-19 Intel Corporation Setting quantization level to match DCT coefficients
JPH0944198A (ja) * 1995-07-25 1997-02-14 Victor Co Of Japan Ltd 音声の準可逆符号化装置
US5692102A (en) * 1995-10-26 1997-11-25 Motorola, Inc. Method device and system for an efficient noise injection process for low bitrate audio compression
US5924064A (en) * 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP3784993B2 (ja) * 1998-06-26 2006-06-14 株式会社リコー 音響信号の符号化・量子化方法
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
US6246345B1 (en) * 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
DE19947877C2 (de) * 1999-10-05 2001-09-13 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals
TW499672B (en) * 2000-02-18 2002-08-21 Intervideo Inc Fast convergence method for bit allocation stage of MPEG audio layer 3 encoders
US7286715B2 (en) * 2001-03-28 2007-10-23 Sony Corporation Quantization apparatus, quantization method, quantization program, and recording medium
ATE323316T1 (de) * 2001-04-09 2006-04-15 Koninkl Philips Electronics Nv Vorrichtung zur adpcm sprachkodierung mit spezifischer anpassung der schrittweite
DE10129239C1 (de) * 2001-06-18 2002-10-31 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Einbetten eines Wasserzeichens in ein Audiosignal
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US20040002859A1 (en) * 2002-06-26 2004-01-01 Chi-Min Liu Method and architecture of digital conding for transmitting and packing audio signals
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
DE102004007200B3 (de) 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007184B3 (de) 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
DE102004009955B3 (de) 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
JP2008000002A (ja) * 2004-09-30 2008-01-10 Sysmex Corp リブロース2リン酸カルボキシラーゼスモールチェーン1A(RBCS−1A)遺伝子及び/又は該遺伝子のmRNAを検出するための核酸増幅用プライマ、及び内部標準として該遺伝子及び/又は該遺伝子のmRNAを用いた検査方法。
US7668715B1 (en) * 2004-11-30 2010-02-23 Cirrus Logic, Inc. Methods for selecting an initial quantization step size in audio encoders and systems using the same
JP4765521B2 (ja) * 2005-09-30 2011-09-07 株式会社日立製作所 可変利得増幅器
JP4921180B2 (ja) 2006-01-25 2012-04-25 キヤノン株式会社 放射線検出装置及び放射線撮像システム
JP4554561B2 (ja) * 2006-06-20 2010-09-29 株式会社シマノ 釣り用グローブ
EP2122615B1 (en) * 2006-10-20 2011-05-11 Dolby Sweden AB Apparatus and method for encoding an information signal
US8204744B2 (en) * 2008-12-01 2012-06-19 Research In Motion Limited Optimization of MP3 audio encoding by scale factors and global quantization step size

Also Published As

Publication number Publication date
EP1687810A1 (de) 2006-08-09
IL176688A0 (en) 2006-10-31
JP4531805B2 (ja) 2010-08-25
AU2005217508A1 (en) 2005-09-09
NO20064439L (no) 2006-11-29
US7574355B2 (en) 2009-08-11
RU2006130966A (ru) 2008-03-20
BRPI0507229A (pt) 2007-06-26
HK1093596A1 (en) 2007-03-02
RU2329549C2 (ru) 2008-07-20
DE102004009955B3 (de) 2005-08-11
CA2557777C (en) 2012-07-31
CA2557777A1 (en) 2005-09-09
PT1687810E (pt) 2008-05-23
KR100852481B1 (ko) 2008-08-18
WO2005083681A8 (de) 2008-03-27
WO2005083681A1 (de) 2005-09-09
NO338935B1 (no) 2016-10-31
US20060293884A1 (en) 2006-12-28
EP1687810B1 (de) 2008-02-13
US8756056B2 (en) 2014-06-17
IL176688A (en) 2011-01-31
JP2007525716A (ja) 2007-09-06
KR20060121973A (ko) 2006-11-29
DE502005002824D1 (de) 2008-03-27
AU2005217508B2 (en) 2008-05-15
ATE386320T1 (de) 2008-03-15
CN1922656A (zh) 2007-02-28
US20090274210A1 (en) 2009-11-05
CN1922656B (zh) 2010-04-14

Similar Documents

Publication Publication Date Title
ES2302185T3 (es) Dispositivo y procedimiento para determinar un incremento de cuantificador.
US7613603B2 (en) Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model
KR101395252B1 (ko) 스펙트럼 포락선의 수를 산출하기 위한 장치 및 그 방법
AU2005217507B2 (en) Device and method for determining an estimated value
US7627469B2 (en) Audio signal encoding apparatus and audio signal encoding method
KR100823097B1 (ko) 멀티채널 신호를 처리하는 장치 및 방법
KR101196620B1 (ko) 오디오 인코더 및 디코더
ES2526767T3 (es) Codificador de audio, procedimiento para codificar una señal de audio y programa de ordenador
US8032371B2 (en) Determining scale factor values in encoding audio data with AAC
CN105247614B (zh) 音频编码器和解码器
US20080199014A1 (en) Low power downmix energy equalization in parametric stereo encoders
US11043226B2 (en) Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
US20110282674A1 (en) Multichannel audio coding
US7650277B2 (en) System, method, and apparatus for fast quantization in perceptual audio coders
CN110709926A (zh) 用于使用基于预测的整形后处理音频信号的装置和方法
ES2646021T3 (es) Método y aparato para codificación, procesamiento y decodificación de envolvente de señal de audio mediante modelado de una representación de suma acumulativa que emplea cuantificación de distribución y codificación
CN110534119B (zh) 一种基于人耳听觉频率尺度信号分解的音频编解码方法
Yang et al. Efficient bit allocation algorithm for MPEG-4 advanced audio coding
Melkote et al. Trellis-based approaches to rate-distortion optimized audio encoding
MXPA06009932A (es) Aparato y metodo para determinar un tamaño de la etapa del cuantificador
JP2005165056A (ja) オーディオ信号符号化装置及び方法
Padhi et al. Low bitrate MPEG 1 layer III encoder
MXPA06009934A (es) Metodo y aparato para determinar un estimado