ES2338117T3 - Codificacion de audio con diferentes longitudes de trama de codificacion. - Google Patents

Codificacion de audio con diferentes longitudes de trama de codificacion. Download PDF

Info

Publication number
ES2338117T3
ES2338117T3 ES04733394T ES04733394T ES2338117T3 ES 2338117 T3 ES2338117 T3 ES 2338117T3 ES 04733394 T ES04733394 T ES 04733394T ES 04733394 T ES04733394 T ES 04733394T ES 2338117 T3 ES2338117 T3 ES 2338117T3
Authority
ES
Spain
Prior art keywords
coding
frame
section
encoding
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04733394T
Other languages
English (en)
Inventor
Jari Makinen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of ES2338117T3 publication Critical patent/ES2338117T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Procedimiento para soportar una codificación de una señal de audio, en el que al menos una sección de dicha señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación, comprendiendo dicho procedimiento: - determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de dicha señal de audio; - limitar dichas opciones de longitudes de trama de codificación posibles para dicha al menos una sección mediante dicho al menos un parámetro de control; y - en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, seleccionar una longitud de trama de codificación para dicha sección a partir de dichas opciones limitadas.

Description

Codificación de audio con diferentes longitudes de trama de codificación.
Campo de la invención
La invención se refiere a un procedimiento para soportar una codificación de una señal de audio, en el que al menos una sección de dicha señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación. La invención también se refiere a un módulo correspondiente, a un dispositivo electrónico correspondiente, a un sistema correspondiente y a un producto de programa de software correspondiente.
Antecedentes de la invención
Se conoce la codificación de señales de audio para permitir una transmisión y/o un almacenamiento eficaz de señales de audio.
Una señal de audio puede ser una señal de voz u otro tipo de señal de audio, tal como música, y para diferentes tipos de señales de audio pueden ser apropiados diferentes modelos de codificación.
Una técnica utilizada ampliamente para la codificación de señales de voz es la codificación de predicción lineal excitada por código algebraico (ACELP). La ACELP modela el sistema de producción de voz humana y es muy adecuada para codificar la periodicidad de una señal de voz. Como resultado, puede conseguirse una gran calidad de voz con velocidades binarias muy bajas. La banda ancha adaptable a múltiples velocidades (AMR-WB), por ejemplo, es un códec de voz basado en la tecnología ACELP. La AMR-WB está descrita, por ejemplo, en la especificación técnica 3GPP TS 26.190: "Speech Codec speech processing functions; AMR Wideband speech codec; Transcoding functions", V5.1.0 (2001-12). Sin embargo, los códecs de voz basados en el sistema de producción de voz humana no funcionan normalmente de manera óptima para otros tipos de señales de audio, tales como música.
Una técnica utilizada ampliamente para la codificación de señales de audio distintas a la voz es la codificación por transformada (TCX). La superioridad de la codificación por transformada para señales de audio se basa en un enmascaramiento perceptivo y en una codificación en el dominio de frecuencia. La calidad de la señal de audio resultante puede mejorarse adicionalmente seleccionando una longitud de trama de codificación adecuada para la codificación por transformada. Pero aunque las técnicas de codificación por transformada dan como resultado una alta calidad para señales de audio distintas a la voz, su rendimiento no es bueno para señales de voz periódicas. Por lo tanto, la calidad de la voz codificada por transformada es normalmente bastante baja, especialmente con longitudes de trama TCX largas.
El códec AMR-WB extendido (AMR-WB+) codifica una señal de audio estéreo como una señal mono de una alta velocidad binaria y proporciona una cierta cantidad de información conexa para una extensión estéreo. El códec AMR-WB+ utiliza tanto codificación ACELP como modelos TCX para codificar la señal mono principal en una banda de frecuencia de 0 Hz a 6400 Hz. Para el modelo TCX se utiliza una longitud de trama de codificación de 20 ms, de 40 ms o de 80 ms.
Puesto que un modelo ACELP puede degradar la calidad de audio y la codificación por transformada no tiene normalmente un funcionamiento óptimo para la voz, especialmente cuando se utilizan largas tramas de codificación, debe seleccionarse el mejor modelo de codificación respectivo. La selección del modelo de codificación que vaya a utilizarse finalmente puede llevarse a cabo de varias maneras.
En sistemas que requieren técnicas poco complejas, tales como los servicios multimedia móviles (MMS), normalmente se utilizan algoritmos de clasificación de música/voz para seleccionar el modelo de codificación óptimo. Estos algoritmos clasifican toda la señal fuente como música o como voz basándose en un análisis de la energía y de la frecuencia de la señal de audio.
Si una señal de audio consiste solamente en voz o solamente en música, será satisfactorio utilizar el mismo modelo de codificación para toda la señal en base a tal clasificación de música/voz. Sin embargo, en muchos otros casos, la señal de audio que va a codificarse es un tipo mixto de señal de audio. Por ejemplo, la voz puede estar presente al mismo tiempo que la música y/o alternarse con música en la señal de audio.
En estos casos, una clasificación de todas las señales fuente en la categoría de música o en la categoría de voz es un enfoque muy limitado. La conmutación entre los modelos de codificación durante la codificación de la señal de audio solo puede maximizar entonces la calidad de audio global. Es decir, el modelo ACELP también se utiliza en parte para codificar una señal fuente clasificada como una señal de audio en lugar de voz, mientras que el modelo TCX también se utiliza en parte para una señal fuente clasificada como una señal de voz.
El códec AMR-WB extendido (AMR-WB+) también está diseñado para codificar tales tipos mixtos de señales de audio con modelos de codificación mixtos trama a trama.
La selección de los modelos de codificación en AMR-WB+ puede llevarse a cabo de varias maneras.
En el enfoque más complejo, la señal se codifica en primer lugar con todas las posibles combinaciones de modelos ACELP y TCX. A continuación, la señal se sintetiza de nuevo para cada combinación. Después se selecciona la mejor excitación en base a la calidad de las señales de voz sintetizadas. La calidad de la voz sintetizada generada mediante una combinación específica puede medirse, por ejemplo, determinando su relación de señal a ruido (SNR). Este tipo de enfoque de análisis por síntesis proporciona buenos resultados. Sin embargo, en algunas aplicaciones no es factible debido a su gran complejidad. La complejidad se debe en gran parte a la codificación ACELP, que es la parte más compleja de un codificador.
En sistemas como MMS, por ejemplo, el enfoque de análisis por síntesis en bucle cerrado es demasiado complejo de realizar. Por lo tanto, en un codificador MMS se utiliza un procedimiento en bucle abierto poco complejo para determinar si se selecciona un modelo de codificación ACELP o un modelo TCX para codificar una trama particular.
La AMR-WB+ ofrece dos enfoques diferentes de bucle abierto poco complejos para seleccionar el modelo de codificación respectivo para cada trama. Ambos enfoques de bucle abierto evalúan las características de señal fuente y los parámetros de codificación para seleccionar un modelo de codificación respectivo.
En el primer enfoque de bucle abierto, una señal de audio se divide en primer lugar dentro de cada trama en varias bandas de frecuencia y se analiza la relación entre la energía en las bandas de frecuencia inferiores y la energía en las bandas de frecuencia superiores, así como las variaciones de nivel de energía en esas bandas. Después, el contenido de audio en cada trama de la señal de audio se clasifica como un contenido de música o como un contenido de voz en base a las dos mediciones realizadas o a las diferentes combinaciones de estas mediciones utilizando diferentes ventanas de análisis y valores umbral de decisión.
En el segundo enfoque de bucle abierto, que también se denomina como refinamiento de clasificación de modelo, la selección del modelo de codificación se basa en una evaluación de la periodicidad y en las propiedades estacionarias del contenido de audio en una trama respectiva de la señal de audio. La periodicidad y las propiedades estacionarias se evalúan más específicamente determinando parámetros de correlación, de predicción a largo plazo (LTP) y mediciones de la distancia espectral.
Si las propiedades de señal se analizan con un enfoque de bucle abierto para seleccionar ACELP o TCX, y se selecciona TCX para la codificación, todavía es necesario definir si se utilizará una la longitud de trama TCX de 20 ms, de 40 ms o de 80 ms. Sin embargo, es muy difícil seleccionar la longitud de trama óptima para TCX en base a las características de señal en un enfoque de bucle abierto.
Por lo tanto, es posible seleccionar solamente las longitudes de trama TCX en el enfoque de análisis por síntesis mencionado anteriormente. Sin embargo, en sistemas que requieren técnicas poco complejas, el enfoque de análisis por síntesis es demasiado complejo, incluso si solo se utiliza para la selección de las longitudes de trama TCX.
El documento US 2004/0088160 AI se refiere a la codificación de audio digital utilizando un modelo psicoacústico avanzado. Una unidad de conmutación de ventana determina el tipo de ventana que se utilizará en una unidad CMDCT y en una unidad FFT basándose en la característica de una señal de audio de entrada e introduce la información del tipo de ventana determinada en la unidad CMDCT y en la unidad FFT. El tipo de ventana se divide en una ventana corta y en una venta larga. La unidad CMDCT lleva a cabo CMDCT aplicando la venta larga o la ventana corta a los datos de salida del banco de filtros basándose en la información de tipo de ventana introducida desde la unidad de conmutación de ventana.
Resumen de la invención
Un objeto de la invención es permitir una selección eficaz y sencilla de una longitud de trama de codificación que vaya a utilizarse para codificar una sección de una señal de audio.
Se propone un procedimiento para soportar una codificación de una señal de audio, en el que al menos una sección de la señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación. El procedimiento propuesto comprende determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de la señal de audio. El procedimiento propuesto comprende además limitar las opciones de longitudes de trama de codificación posibles para la al menos una sección mediante el al menos un parámetro de control. El procedimiento propuesto comprende además seleccionar una longitud de trama de codificación para la sección a partir de las opciones limitadas en caso de que haya más de una opción de longitudes de trama de codificación posibles después de la limitación.
Además, se propone un componente para soportar una codificación de una señal de audio en el que al menos una sección de la señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación. El componente comprende una parte de selección de parámetro adaptada para determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de la señal de audio. El componente comprende además una parte de selección de longitud de trama adaptada para limitar las opciones de longitudes de trama de codificación posibles para al menos una sección de la señal de audio mediante al menos un parámetro de control proporcionado por la parte de selección de parámetro. La parte de selección de longitud de trama está adaptada además para seleccionar una longitud de trama de codificación para la sección a partir de las opciones limitadas en caso de que haya más de una opción de longitudes de trama de codificación posibles después de la limitación. Este componente puede ser, por ejemplo, un codificador o una parte de un codificador.
Además, se propone un dispositivo electrónico que comprende un componente de este tipo.
Además, se propone un sistema de codificación de audio que comprende un componente de este tipo y, además, un descodificador para descodificar señales de audio que se han codificado con longitudes de trama de codificación variables.
Finalmente, se propone un producto de programa de software en el que está almacenado un código de software para soportar una codificación de una señal de audio. Al menos una sección de la señal de audio va a codificarse con un modelo de codificación, lo que permite la utilización de diferentes longitudes de trama de codificación. Cuando se ejecuta en un componente de procesamiento de un codificador, el código de software realiza las etapas del procedimiento propuesto.
La invención parte de la consideración de que aunque la determinación final de una longitud de trama de codificación para una sección específica de una señal de audio no puede determinarse normalmente en base a características de señal, tales características de señal permiten una preselección de longitudes de trama de codificación adecuadas. Por lo tanto, se propone que se determine al menos un parámetro de control en base a las características de señal para una sección respectiva de una señal de audio y que este al menos un parámetro de control se utilice para limitar las opciones disponibles de longitud de trama de codificación.
Una ventaja de la invención es que reduce el número de opciones de longitud de trama de codificación con un enfoque que tiene una baja complejidad. Por otro lado, la reducción de las opciones de longitud de trama de codificación reduce la complejidad de la selección final de la longitud de trama de codificación que va a utilizarse.
En una realización de la invención, la selección final de la longitud de trama de codificación se realiza con un enfoque de análisis por síntesis. Es decir, en caso de que haya más de una opción de longitudes de trama de codificación posibles después de la limitación propuesta, cada una de las longitudes de trama de codificación por transformada restantes se utiliza para codificar la al menos una sección. Después, las señales codificadas resultantes se descodifican de nuevo con la longitud de trama de codificación por transformada usada respectivamente. En este momento puede seleccionarse la longitud de trama de codificación que dé como resultado la señal de audio mejor descodificada en la al menos una sección.
Debido a la limitación anterior, el número de ciclos de análisis por síntesis requeridos puede reducirse significativamente en comparación con el enfoque de bucle completamente cerrado mencionado anteriormente. Como resultado, también se reduce la complejidad global de un codificador en el que se implementa la invención.
La señal de audio mejor descodificada puede determinarse de varias formas. Por ejemplo, puede determinarse comparando una SNR resultante con cada una de las longitudes de trama de codificación restantes. La SNR puede determinarse fácilmente y proporciona una indicación fiable de la calidad de señal.
En caso de que puedan utilizarse varios modelos de codificación para codificar la señal de audio, por ejemplo un modelo TCX y un modelo de codificación ACELP, también debe determinarse qué modelo de codificación va a utilizarse para qué sección de la señal de audio. Esto puede conseguirse de una manera poco compleja en base a las características de señal de audio para una sección respectiva, tal y como se ha mencionado anteriormente. El número y/o la posición de las secciones para las que va a utilizarse el otro modelo de codificación en lugar del modelo que permite la utilización de diferentes longitudes de trama de codificación pueden utilizarse también como parámetros de control para limitar las opciones de longitud de trama de codificación.
Por ejemplo, la longitud de trama de codificación no puede superar el tamaño de la sección o secciones entre dos secciones para las que se seleccionó el otro modelo de codificación.
En una realización adicional de la invención, la longitud de trama de codificación solo se selecciona dentro de una supersección respectiva que comprende un número de secciones predeterminado. En este caso, las opciones de longitud de trama de codificación para una sección particular también pueden limitarse conociendo los límites de la supersección a la que pertenece la sección.
Una supersección de este tipo puede ser, por ejemplo, una supertrama que comprenda como secciones cuatro tramas de señal de audio, presentando cada trama de señal de audio una longitud de 20 ms. En caso de que el modelo de codificación sea un modelo TCX, puede permitir longitudes de trama de codificación de 20 ms, de 40 ms y de 80 ms. Si en este caso, por ejemplo, se ha seleccionado un modelo de codificación ACELP para la segunda trama de señal de audio de una supertrama, se sabe que la tercera trama de señal de audio puede codificarse a lo sumo con una longitud de codificación de 20 ms o, junto con la cuarta trama de señal de audio, de 40 ms.
\newpage
En otra realización ventajosa de la invención, un indicador que indica si va a utilizarse una longitud de trama de codificación más corta o más larga, proporciona un parámetro de control adicional. Una indicación de que va a utilizarse una longitud de trama de codificación más corta excluye entonces al menos la opción de longitud de trama de codificación más larga, mientras que una indicación de que va a utilizarse una longitud de trama de codificación más larga excluye al menos la opción de longitud de trama de codificación más corta.
\vskip1.000000\baselineskip
Breve descripción de las figuras
Otros objetos y características de la presente invención resultarán evidentes a partir de la siguiente descripción detallada considerada junto con los dibujos adjuntos.
La fig. 1 es un diagrama esquemático de un sistema de codificación de audio según una realización de la invención;
la fig. 2 es un diagrama de flujo que ilustra una realización del procedimiento según la invención implementado en el sistema de la fig. 1;
la fig. 3 es una primera tabla que ilustra una limitación de combinaciones de modo en base a parámetros de control según la invención; y
la fig. 4 es una segunda tabla que ilustra una limitación de combinaciones de modo en base a parámetros de control según la invención.
\vskip1.000000\baselineskip
Descripción detallada de la invención
La figura 1 es un diagrama esquemático de un sistema de codificación de audio según una realización de la invención que permite una selección de la longitud de trama de codificación de un modelo de codificación por transformada.
El sistema comprende un primer dispositivo 1 que incluye un codificador 10 AMR-WB+ y un segundo dispositivo 2 que incluye un descodificador 20 AMR-WB+. El primer dispositivo 1 puede ser, por ejemplo, un servidor MMS, mientras que el segundo dispositivo 2 puede ser, por ejemplo, un teléfono móvil.
El primer dispositivo 1 comprende una primera parte 12 de evaluación para una primera selección de un modelo de codificación en un enfoque de bucle abierto. El primer dispositivo 1 comprende además una segunda parte 13 de evaluación para refinar la primera selección en un enfoque de bucle abierto adicional y para determinar en paralelo un indicador de trama corta como un parámetro de control. La primera parte 12 de evaluación y la segunda parte 13 de evaluación forman conjuntamente una parte de selección de parámetro. El primer dispositivo 1 comprende además una parte 14 de selección de longitud de trama TCX para limitar las opciones de longitud de trama de codificación en caso de que se seleccione un modelo TCX y para seleccionar entre las opciones restantes la mejor opción en un enfoque de bucle cerrado. El primer dispositivo 1 comprende además una parte 15 de codificación. La parte 15 de codificación puede aplicar un modelo de codificación ACELP, un modelo TCX20 que utiliza una longitud de trama TCX de 20 ms, un modelo TCX40 que utiliza una longitud de trama TCX de 40 ms o un modelo TCX80 que utiliza una longitud de trama TCX de 80 ms para tramas de audio recibidas.
La primera parte 12 de evaluación está conectada a la segunda parte 13 de evaluación y a la parte 15 de codificación. La segunda parte 13 de evaluación está conectada además a la parte 14 de selección de longitud de trama TCX y a la parte 15 de codificación. La parte 14 de selección de longitud de trama TCX también está conectada a la parte 15 de codificación.
Debe entenderse que las partes 12 a 15 presentadas están diseñadas para codificar una señal de audio mono, la cual puede haberse generado a partir de una señal de audio estéreo. Puede generarse información estéreo adicional en partes de extensión estéreo adicionales no mostradas. Además, debe observarse que el codificador 10 comprende partes adicionales no mostradas. Además, debe entenderse que las partes 12 a 15 presentadas no tienen que ser partes independientes, sino que también pueden entrelazarse entre sí o con otras partes.
Las partes 12, 13, 14 y 15 pueden realizarse en particular mediante un software SW que se ejecuta en un componente 11 de procesamiento del codificador 10, indicado mediante líneas de puntos.
A continuación se describirá en mayor detalle el procesamiento del codificador 10 con referencia al diagrama de flujo de la figura 2.
El procesamiento se lleva a cabo para una supertrama respectiva. Cada supertrama tiene una longitud de 80 ms y comprende cuatro tramas de señal de audio consecutivas.
El codificador 10 recibe una señal de audio que se ha proporcionado al primer dispositivo 1. La señal de audio se convierte en una señal de audio mono y un filtro de predicción lineal (LP) calcula una codificación de predicción lineal (LPC) en cada trama para modelar la envolvente espectral.
La primera parte 12 de evaluación para cada trama de la supertrama en un primer análisis de bucle abierto procesa la excitación LPC resultante proporcionada por el filtro LP. Este análisis determina, basándose en características de señal fuente, si puede asumirse que el contenido de la trama respectiva es voz u otro contenido de audio, como música. El análisis puede basarse, por ejemplo, en una evaluación de la energía en diferentes bandas de frecuencia, tal y como se ha mencionado anteriormente. Para cada trama que supuestamente comprende voz se selecciona un modelo de codificación ACELP, mientras que para cada trama que supuestamente comprende otro contenido de audio se selecciona un modelo TCX. En este momento no se produce una separación entre modelos TCX que utilicen diferentes longitudes de trama de codificación. Para aquellas tramas para las que las características analizadas no indiquen claramente un contenido de voz u otro contenido de audio, se selecciona un modo indeterminado.
La primera parte 12 de evaluación informa a la parte 15 de codificación acerca de todas las tramas para las que se ha seleccionado hasta ahora el modelo ACELP.
La segunda parte 13 de evaluación realiza después un segundo análisis de bucle abierto trama por trama para una separación adicional en tramas ACELP y TCX basándose en características de señal. En paralelo, la segunda parte 13 de evaluación determina una bandera NoMtcx de indicación de trama corta como un parámetro de control. Si la bandera NoMtcx está fijada, se inhabilita la utilización de TCX80.
El procesamiento en la segunda parte 13 de evaluación se lleva a cabo para una trama respectiva si una bandera VAD de indicación de actividad de voz está fijada para la trama y si la primera parte 12 de evaluación no ha seleccionado el modelo de codificación ACELP para esta trama.
Si la salida del primer análisis de bucle abierto del primer componente 12 de evaluación ha sido el modo indeterminado, en primer lugar se calcula una distancia espectral y se reúne una variedad de características de señales disponibles.
La distancia espectral SD_{n} de la trama actual n se calcula a partir de parámetros de par espectral de inmitancia (ISP) según la siguiente ecuación:
\vskip1.000000\baselineskip
1
\vskip1.000000\baselineskip
en el que ISP_{n} es el vector de coeficientes ISP de trama n y donde ISP_{n}(i) es el i-ésimo elemento de este vector. En cualquier caso, los parámetros ISP están disponibles ya que los coeficientes LP se transforman en el dominio ISP para fines de cuantificación y de interpolación.
El parámetro Lag_{n} contiene dos valores de retraso de bucle abierto de la trama actual n. El retraso es el retardo de filtro a largo plazo. Normalmente es el periodo de tono verdadero, o su múltiplo o submúltiplo. Un análisis de tono de bucle abierto se realiza dos veces por trama, es decir, cada 10 ms, para obtener dos estimaciones del retraso de tono en cada trama. Esto se realiza con el fin de simplificar el análisis de tono y para delimitar la búsqueda de tono de bucle cerrado a un pequeño número de retrasos en torno a los retrasos estimados de bucle abierto.
Además, LagDif_{buf} es una memoria intermedia que contiene los valores de retraso de bucle abierto de las diez tramas anteriores de 20 ms.
El parámetro Gain_{n} contiene dos valores de ganancia LTP de la trama actual n.
El parámetro NormCorr_{n} contiene dos valores de correlación normalizados de la trama actual n.
El parámetro MaxEnergy_{buf} es el valor máximo de una memoria intermedia que contiene valores de energía. La memoria intermedia de energía contiene los valores de energía de la trama actual n y de las cinco tramas anteriores, presentando cada una una longitud de 20 ms.
\newpage
A continuación se seleccionan los modos de codificación y el parámetro de control NoMtcx se fija según el siguiente algoritmo de bucle abierto:
\vskip1.000000\baselineskip
2
\vskip1.000000\baselineskip
Por lo tanto, varias características de señal y sus combinaciones se comparan con varios valores umbral predeterminados para determinar si una trama de modo indeterminado contiene contenido de voz u otro contenido de audio y para asignar el modelo de codificación apropiado. De manera similar, la bandera NoMtcx de indicación de trama corta se fija dependiendo de algunas de estas características de señal y sus combinaciones.
En cambio, si la salida del primer análisis de bucle abierto del primer componente 12 de evaluación ha sido el modo TCX, se determina si la bandera VAD se ha fijado a cero para al menos una trama de la supertrama anterior. Si este es el caso, la bandera NoMtcx de indicación de trama corta se fija igualmente a "1".
Si el modo de codificación para la trama actual se ha fijado por el momento al modo TCX o todavía está fijado en el modo indeterminado, se verifica además la decisión de modo. Para ello, en primer lugar se crea un vector mag de envolvente espectral por transformada discreta de Fourier (DFT) a partir de los coeficientes de filtro LP de la trama actual. La verificación del modelo de codificación se realiza entonces según el siguiente algoritmo:
4
5
La suma final DFTSum es la suma de los primeros 40 elementos del vector mag, excluyendo el primer elemento mag(0) del vector mag.
La segunda parte 13 de evaluación informa a la parte 15 de codificación acerca de todas las tramas para las que el modelo ACELP se ha seleccionado adicionalmente.
En la parte 14 de selección de longitud de trama TCX, en primer lugar se evalúan los parámetros de control para limitar el número de opciones de longitud de trama TCX.
Un parámetro de control es el número de modos ACELP seleccionados en la supertrama. En caso de que se haya seleccionado el modelo de codificación ACELP para cuatro tramas de la supertrama, no queda ninguna trama para la que tenga que determinarse una longitud de trama TCX. En caso de que se haya seleccionado el modelo de codificación ACELP para tres tramas de la supertrama, la longitud de trama TCX se fija a 20 ms.
Limitaciones adicionales se llevan a cabo en base a la tabla de la figura 3 o de la figura 4. Las figuras 3 y 4 ilustran una tabla respectiva de cinco columnas que asocian longitudes de trama TCX seleccionables a varias combinaciones de modos de codificación seleccionados.
Ambas tablas muestran en una primera columna siete combinaciones posibles de modos de codificación seleccionados para las cuatro tramas de una supertrama. En cada una de las combinaciones se han seleccionado a lo sumo dos modos ACELP. Las combinaciones son (0,1,1,1), (1,0,1,1), (1,1,0,1), (1,1,1,0), (1,1,0,0), (0,0,1,1) y (1,1,1,1), la última apareciendo dos veces. En esta representación de las combinaciones seleccionadas, un "0" representa un modo ACELP y un "1" un modo TCX.
La cuarta columna respectiva presenta el parámetro de control Aind, que indica para cada combinación de la primera columna el número de modos ACELP seleccionados. Puede observarse que solo hay combinaciones de modo asociadas a valores Aind de "0", "1" y "2", ya que en caso de valores de "3" ó "4", la parte 14 de selección de longitud de trama TCX puede seleccionar inmediatamente la longitud de trama TCX sin un procesamiento adicional.
La quinta columna respectiva presenta la bandera NoMtcx de indicación de trama corta. Este parámetro solo se evalúa por la parte 14 de selección de longitud de trama TCX en caso de que el parámetro de control Aind tenga un valor de "0", es decir, en caso de que el modo ACELP no se haya seleccionado para ninguna trama de la supertrama.
La segunda y la tercera columna respectiva muestran para cada combinación las longitudes de trama TCX que pueden seleccionarse para las tramas de modo TCX en vista de las limitaciones de los parámetros de control. Para cada combinación de la primera columna deben comprobarse como mucho dos longitudes de trama TCX. En estas combinaciones de longitudes de trama TCX, un "0" representa una trama de codificación ACELP de 20 ms, un "1" una trama TCX de 20 ms, una secuencia de dos "2" una trama TCX de 40 ms y una secuencia de cuatro "3" una trama TCX de 80 ms.
Para la primera combinación de modos (0,1,1,1), por ejemplo, se permite la combinación de longitudes de trama de codificación (0,1,1,1) y (0,1,2,2). Es decir, o bien la segunda, la tercera y la cuarta trama se codifican con una trama TCX de 20 ms, o bien solamente la segunda trama se codifica con una trama TCX de 20 ms, mientras que la tercera y la cuarta trama se codifican con una trama TCX de 40 ms.
De manera similar, para la segunda combinación de modos (1,0,1,1), se permite la combinación de longitudes de trama de codificación (1,0,1,1) y (1,0,2,2). Para la tercera combinación de modos (1,1,0,1) se permite la combinación de longitudes de trama de codificación (1,1,0,1) y (2,2,0,1). Para la cuarta combinación de modos (1,1,1,0) se permite la combinación de longitudes de trama de codificación (1,1,1,0) y (2,2,1,0). Para la quinta combinación de modos (1,1,0,0) se permite la combinación de longitudes de trama de codificación (1,1,0,0) y (2,2,0,0). Para la sexta combinación de modos (0,0,1,1) se permite la combinación de longitudes de trama de codificación (0,0,1,1) y (0,0,2,2).
Para la séptima combinación de modos (1,1,1,1), la bandera NoMtcx de indicación de trama corta indica si probar longitudes de trama TCX más largas o más cortas. La bandera NoMtcx está fijada para la supertrama en caso de que la segunda parte 13 de evaluación para al menos una de las tramas de la supertrama la haya fijado. Si la bandera NoMtcx está fijada para la supertrama solo se permiten longitudes de trama cortas.
En la tabla de la figura 3 esto significa que la parte 14 de selección de longitud de trama TCX selecciona inmediatamente una longitud de trama TCX de 20 ms para toda la supertrama. Es decir, la única combinación permitida de longitudes de trama TCX es (1,1,1,1). En la tabla de la figura 4, una bandera NoMtcx fijada significa que se permite la combinación de longitudes de trama TCX (1,1,1,1) y además la combinación de longitudes de trama TCX (2,2,2,2), esta última representando dos tramas TCX de 40 ms.
Si la bandera NoMtcx de indicación de trama corta no está fijada, solamente se permiten longitudes de trama TCX largas. En las tablas de la figura 3 y de la figura 4, esto significa que se permite la combinación de longitudes de trama TCX (2,2,2,2) y (3,3,3,3), esta última representando una única trama TCX de 80 ms.
La música nítida requiere generalmente tramas TCX más largas para una codificación óptima y, obviamente, la voz se codifica mejor mediante ACELP. Especialmente al principio de la música y/o de la voz, cuando la energía es baja o un indicador VAD de activad de voz estaba fijado a cero en tramas anteriores, las tramas TCX más largas utilizadas para codificar la voz degradan la calidad de la voz. Por otro lado, tramas TCX cortas de 20 ms son relativamente buenas para la música y determinados segmentos de voz. Con algunas características de señal es difícil determinar si un contenido de trama es música o voz. Por lo tanto, una trama TCX corta es una buena alternativa al modelo de codificación óptima en un caso de este tipo ya que es adecuada para ambos tipos de contenido. Por lo tanto, un indicador de trama corta es muy adecuado como un parámetro de control.
Combinaciones adicionales de longitudes de trama de codificación para las combinaciones de modos presentadas no son permitidas por la estructura de codificador, en la que no está permitido un modelo TCX40 para las tramas de señal de audio medianas.
De manera similar, combinaciones adicionales de modos con Aind < 3 no representadas en las figuras 3 y 4 solo permiten una única combinación de longitudes de trama de codificación, ya sea por sí solas o debido a la estructura de codificador. Es decir, una combinación de modos (1,0,0,1) solo permite una combinación de longitudes de trama de codificación de (1,0,0,1) y una combinación de modos (0,1,1,0) solo permite una combinación de longitudes de trama de codificación de (0,1,1,0).
Puesto que los parámetros de control Aind y NoMtcx limitan las combinaciones de modo con respecto a las longitudes de trama TCX, debe comprobarse una longitud de dos tramas a lo sumo para cada supertrama.
En caso de que haya dos combinaciones de longitud de trama TCX posibles, se utiliza un tipo de algoritmo SNR en la parte 14 de selección de longitud de trama TCX para obtener el modelo o los modelos TCX óptimo(s) para la supertrama.
Para evaluar las longitudes de trama TCX seleccionables, las tramas de la supertrama para las que se ha seleccionado el modo TCX se codifican utilizando una codificación por transformada con ambas combinaciones de longitud de trama TCX permitidas. La TCX se basa, a modo de ejemplo, en una transformada rápida de Fourier (FFT). Las señales codificadas se descodifican de nuevo y los resultados para ambas longitudes de trama TCX se comparan después en base a una SNR segmentaria.
La SNR segmentaria es la SNR de una subtrama de una trama TCX. La subtrama tiene una longitud de N que corresponde a una subtrama de 5 ms de la señal de audio original.
La SNR segmentaria de la subtrama i, segSNR_{i,} se determina para cada subtrama de una trama TCX según la siguiente ecuación:
6
En esta ecuación, x_{w}(n) es la amplitud de la señal de audio original digitalizada en la posición n de la subtrama, mientras que \hat{x}_{w}(n) es la amplitud de la señal de audio codificada y descodificada en la posición n de la subtrama.
Por lo tanto, la SNR segmentaria media de todas las subtramas de una trama TCX se determina según la siguiente ecuación:
7
donde N_{SF} es el número de subtramas de la trama TCX. Puesto que una trama TCX puede tener una longitud de 20 ms, de 40 ms o de 80 ms, N_{SF} puede ser 4, 8 o 16.
Después, la parte 14 de selección de longitud de trama TCX determina cuál de las longitudes de trama TCX permitidas para un determinado número de tramas de señal de audio da como resultado una mejor SRN media. Por ejemplo, en caso de que dos tramas de señal de audio puedan codificarse cada una con un modelo TCX20 o conjuntamente con un modelo TCX40, la SNR media de la trama TCX40 se compara con la suma de las SNR medias de ambas tramas TCX20. Se selecciona la longitud de trama TCX que dé como resultado una SNR media superior y se notifica a la parte 15 de codificación.
La parte 15 de codificación codifica todas las tramas de la señal de audio con el modelo de codificación seleccionado respectivamente indicado por la primera parte 12 de evaluación, la segunda parte 13 de evaluación o la parte 14 de selección de longitud de trama TCX. La TCX se basa, a modo de ejemplo, en una FFT utilizando la longitud de trama de codificación seleccionada, y la codificación ACELP utiliza, a modo de ejemplo, una LTP y parámetros de libro de códigos fijo para una excitación LPC.
Después, la parte 15 de codificación proporciona las tramas codificadas para una transmisión al segundo dispositivo 2. En el segundo dispositivo 2, el descodificador 20 descodifica todas las tramas recibidas con el modelo de codificación ACELP o con uno de los modelos TCX. Las tramas descodificadas se proporcionan, por ejemplo, para su presentación a un usuario del segundo dispositivo 2.
La sección de longitud de trama TCX presentada se basa por tanto en un enfoque de bucle semicerrado, en el que el tipo básico del modelo de codificación y los parámetros de control se seleccionan en un procedimiento de bucle abierto, mientras que la longitud de trama TCX se selecciona entonces a partir de un número limitado de opciones con un enfoque de bucle cerrado. Mientras que en un análisis de bucle totalmente cerrado el análisis por síntesis siempre se realiza cuatro veces por supertrama, en el enfoque presentado de bucle semicerrado un análisis por síntesis debe realizarse como mucho dos veces por supertrama.
Debe observarse que la realización descrita constituye solamente una realización de una variedad de posibles realizaciones de la invención. El alcance de la invención está definido por las reivindicaciones adjuntas.

Claims (30)

1. Procedimiento para soportar una codificación de una señal de audio, en el que al menos una sección de dicha señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación, comprendiendo dicho procedimiento:
-
determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de dicha señal de audio;
-
limitar dichas opciones de longitudes de trama de codificación posibles para dicha al menos una sección mediante dicho al menos un parámetro de control; y
-
en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, seleccionar una longitud de trama de codificación para dicha sección a partir de dichas opciones limitadas.
2. Procedimiento según la reivindicación 1, que comprende además determinar el dicho al menos un parámetro de control en base a al menos uno de los siguientes parámetros:
-
un indicador de una distancia espectral entre la trama actual y una trama anterior;
-
el número de tramas de una supertrama seleccionada que va a codificarse con otro modelo de codificación, comprendiendo cada supertrama un número de tramas predeterminado.
3. Procedimiento según la reivindicación 1 ó 2, que comprende además:
-
en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, codificar dicha al menos una sección con cada una de dichas longitudes de trama de codificación restantes;
-
descodificar dichas secciones codificadas con la longitud de trama de codificación utilizada respectivamente; y
-
seleccionar para dicha al menos una sección una longitud de trama de codificación que dé como resultado la señal de audio mejor codificada en dicha al menos una sección.
4. Procedimiento según la reivindicación 3, en el que una longitud de trama de codificación que dé como resultado la sección mejor descodificada se determina comparando una relación de señal a ruido resultante para cada una de dichas longitudes de trama de codificación.
5. Procedimiento según la reivindicación 4, en el que para dicha relación de señal a ruido de una señal de audio obtenida con una longitud de trama de codificación particular, en primer lugar se determina por separado una relación de señal a ruido segmentaria para una pluralidad de subtramas en una trama de codificación respectiva, y en el que posteriormente se calcula la media de dichas relaciones de señal a ruido segmentarias de dichas subtramas de una trama de codificación para toda la trama de codificación para obtener dicha relación de señal a ruido para dicha al menos una sección.
6. Procedimiento según al menos una de las reivindicaciones anteriores, que comprende además una etapa para determinar para cada sección de dicha señal de audio, en base a características de señal de audio para una sección respectiva, si va a utilizarse dicho modelo de codificación u otro modelo de codificación, en el que dicho al menos un parámetro de control comprende una indicación de las secciones para las que se ha seleccionado dicho otro modelo de codificación.
7. Procedimiento según la reivindicación 6, en el que dicho modelo de codificación es un modelo de codificación por transformada y en el que dicho otro modelo de codificación es un modelo de codificación de predicción lineal excitada por código algebraico.
8. Procedimiento según la reivindicación 6 ó 7, en el que cada sección de dicha señal de audio tiene una longitud predeterminada y en el que dicha indicación de las secciones para las que se ha seleccionado dicho otro modelo de codificación se proporciona para una supersección respectiva que comprende un número predeterminado de dichas secciones.
9. Procedimiento según al menos una de las reivindicaciones anteriores, en el que cada sección de dicha señal de audio tiene una longitud predeterminada, en el que un número predeterminado de secciones consecutivas, respectivamente, forman una supersección respectiva, y en el que dichas opciones de longitud de trama de codificación para una sección particular están limitadas por los límites de la supersección a la que pertenece dicha sección.
10. Procedimiento según la reivindicación 7, en el que cada sección de dicha señal de audio tiene una longitud de 20 ms, en el que cuatro secciones consecutivas, respectivamente, forman una supersección, en el que dicho modelo de codificación por transformada permite la utilización de longitudes de trama de codificación de 20 ms, 40 ms y 80 ms, y en el que dichas opciones de longitud de trama de codificación para una sección está limitadas por los límites de la supersección a la que pertenece dicha sección.
11. Procedimiento según al menos una de las reivindicaciones anteriores, en el que dicho al menos un parámetro de control comprende un indicador que indica si va a utilizarse una longitud de trama de codificación más corta o más larga, donde una indicación de que va a utilizarse una longitud de trama de codificación más corta excluye al menos la opción de longitud de trama de codificación más larga y una indicación de que va a utilizarse una longitud de trama de codificación más larga excluye al menos la opción de longitud de trama de codificación más corta.
12. Componente (10, 11) para soportar una codificación de una señal de audio, en el que al menos una sección de dicha señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación, comprendiendo dicho componente:
-
una parte (12, 13) de selección de parámetro adaptada para determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de dicha señal de audio; y
-
una parte (14) de selección de longitud de trama adaptada para limitar opciones de longitudes de trama de codificación posibles para al menos una sección mediante al menos un parámetro de control proporcionado por dicha parte (12, 13) de selección de parámetro y adaptada para seleccionar una longitud de trama de codificación para dicha sección a partir de dichas opciones limitadas en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación.
13. Componente (10, 11) según la reivindicación 12, en el que dicha parte (12, 13) de selección de parámetro está adaptada para determinar dicho al menos un parámetro de control en base a al menos uno de los siguientes parámetros:
-
un indicador de trama corta, que se determina al menos en base a la distancia espectral; y
-
el número de tramas de predicción lineal excitada por código algebraico de una supertrama, comprendiendo cada supertrama un número de tramas predeterminado.
14. Componente (10, 11) según la reivindicación 12 ó 13, en el que dicha parte (14) de selección de longitud de trama está adaptada además para codificar dicha al menos una sección con cada una de dichas longitudes de trama de codificación restantes, en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, para descodificar de nuevo dichas secciones codificadas con la trama de codificación utilizada respectivamente y para seleccionar para dicha al menos una sección una longitud de trama de codificación que dé como resultado la señal de audio mejor descodificada en dicha al menos una sección.
15. Componente (10, 11) según la reivindicación 14, en el que dicha parte (14) de selección de longitud de trama está adaptada para determinar una longitud de trama de codificación que dé como resultado la sección mejor descodificada comparando una relación de señal a ruido resultante para cada una de dichas longitudes de trama de codificación.
16. Componente (10, 11) según la reivindicación 15, en el que para determinar dicha relación de señal a ruido de una señal de audio obtenida con una longitud de trama de codificación particular, dicha parte (14) de selección de longitud de trama está adaptada para determinar en primer lugar una relación de señal a ruido segmentaria por separado para una pluralidad de subtramas en una trama de codificación respectiva, y para obtener la media de dichas relaciones de señal a ruido segmentarias de dichas subtramas de una trama de codificación para toda la trama de codificación para obtener dicha relación de señal a ruido para dicha al menos una sección.
17. Componente (10, 11) según al menos una de las reivindicaciones 12 a 16, en el que dicha parte (12, 13) de selección de parámetro está adaptada además para determinar al menos para algunas secciones de una señal de audio, en base a características de señal de audio para una sección respectiva de dicha señal de audio, si va a utilizarse dicho modelo de codificación u otro modelo de codificación y para proporcionar como uno de dicho al menos un parámetro de control una indicación de las secciones para las que se ha seleccionado dicho otro modelo de codificación.
18. Componente (10, 11) según la reivindicación 17, en el que dicho modelo de codificación es un modelo de codificación por transformada y en el que dicho otro modelo de codificación es un modelo de codificación de predicción lineal excitada por código algebraico.
19. Componente (10, 11) según la reivindicación 17 o 18, en el que cada sección de dicha señal de audio tiene una longitud predeterminada y en el que dicha parte (12, 13) de selección de parámetro está adaptada para proporcionar una indicación de las secciones para las que se ha seleccionado dicho otro modelo de codificación para una supersección respectiva que comprende un número predeterminado de dichas secciones.
\newpage
20. Componente (10, 11) según una de las reivindicaciones 12 a 19, en el que cada sección de dicha señal de audio tiene una longitud predeterminada, en el que un número predeterminado de secciones consecutivas, respectivamente, forman una supersección respectiva, y en el que dicha parte (14) de selección de longitud de trama está adaptada para limitar las opciones de longitud de trama de codificación para una sesión particular basándose en los límites de la supersección a la que pertenece dicha sección.
21. Componente (10, 11) según la reivindicación 20, en el que cada sección de dicha señal de audio tiene una longitud de 20 ms, en el que cuatro secciones consecutivas, respectivamente, forman una supersección, en el que dicho modelo de codificación por transformada permite la utilización de longitudes de trama de codificación de 20 ms, 40 ms y 80 ms, y en el que dicha parte (14) de selección de longitud de trama está adaptada para limitar las opciones de longitud de trama de codificación para una sección basándose en los límites de la supersección a la que pertenece dicha sección.
22. Componente (10, 11) según una de las reivindicaciones 12 a 21, en el que dicha parte (12, 13) de selección de parámetro está adaptada para proporcionar como uno de dicho al menos un parámetro de control un indicador que indica si va a utilizarse una longitud de trama de codificación más corta o más larga, donde una indicación de que va a utilizarse una longitud de trama de codificación más corta excluye al menos la opción de longitud de trama de codificación más larga y una indicación de que va a utilizarse una longitud de trama de codificación más larga excluye al menos la opción de longitud de trama de codificación más corta.
23. Dispositivo (1) electrónico que comprende un componente (10, 11) según una de las reivindicaciones 12 a 21.
24. Dispositivo (1) electrónico según la reivindicación 23, que comprende además medios para transmitir tramas codificadas.
25. Sistema (1, 2) de codificación de audio que comprende un componente (10, 11) según al menos una de las reivindicaciones 12 a 18 y un descodificador (20) para descodificar señales de audio que se han codificado con longitudes de trama de codificación variables.
26. Sistema (1, 2) de codificación de audio según la reivindicación 25, que comprende además determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de dicha señal de audio.
27. Sistema (1, 2) de codificación de audio según la reivindicación 25, que comprende además limitar dichas opciones de longitudes de trama de codificación posibles mediante dicho al menos un parámetro de control.
28. Sistema (1, 2) de codificación de audio según al menos una de las reivindicaciones 26 y 27, que comprende además
-
en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, codificar dicha al menos una sección con cada una de dichas longitudes de trama de codificación por transformada restantes;
-
descodificar dichas secciones codificadas con la longitud de trama de codificación por transformada utilizada respectivamente; y
-
seleccionar para dicha al menos una sección una longitud de trama de codificación que dé como resultado la señal de audio mejor descodificada en dicha al menos una sección.
29. Un código de software para soportar una codificación de una señal de audio, en el que al menos una sección de dicha señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación, realizando dicho código de software el procedimiento según una de las reivindicaciones 1 a 11 cuando se ejecuta en un componente (11) de procesamiento de un codificador (10).
30. Un producto de programa de software en el que está almacenado un código de software según la reivindicación 29.
ES04733394T 2004-05-17 2004-05-17 Codificacion de audio con diferentes longitudes de trama de codificacion. Expired - Lifetime ES2338117T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2004/001585 WO2005112003A1 (en) 2004-05-17 2004-05-17 Audio encoding with different coding frame lengths

Publications (1)

Publication Number Publication Date
ES2338117T3 true ES2338117T3 (es) 2010-05-04

Family

ID=34957451

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04733394T Expired - Lifetime ES2338117T3 (es) 2004-05-17 2004-05-17 Codificacion de audio con diferentes longitudes de trama de codificacion.

Country Status (13)

Country Link
US (1) US7860709B2 (es)
EP (1) EP1747554B1 (es)
JP (1) JP2007538282A (es)
CN (1) CN1954364B (es)
AT (1) ATE457512T1 (es)
AU (1) AU2004319556A1 (es)
BR (1) BRPI0418838A (es)
CA (1) CA2566368A1 (es)
DE (1) DE602004025517D1 (es)
ES (1) ES2338117T3 (es)
MX (1) MXPA06012617A (es)
TW (1) TW200609902A (es)
WO (1) WO2005112003A1 (es)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
EP1984911A4 (en) * 2006-01-18 2012-03-14 Lg Electronics Inc DEVICE AND METHOD FOR SIGNAL CODING AND DECODING
CA2656867C (en) 2006-07-07 2013-01-08 Johannes Hilpert Apparatus and method for combining multiple parametrically coded audio sources
US7966175B2 (en) 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
US7953595B2 (en) 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
BRPI0720266A2 (pt) * 2006-12-13 2014-01-28 Panasonic Corp Dispositivo de decodificação de aúdio e método de ajuste de potência
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
JPWO2009038170A1 (ja) * 2007-09-21 2011-01-06 日本電気株式会社 音声処理装置、音声処理方法、プログラム及び音楽・メロディ配信システム
WO2009038115A1 (ja) * 2007-09-21 2009-03-26 Nec Corporation 音声符号化装置、音声符号化方法及びプログラム
RU2454736C2 (ru) * 2007-10-15 2012-06-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство обработки сигнала
US8504377B2 (en) * 2007-11-21 2013-08-06 Lg Electronics Inc. Method and an apparatus for processing a signal using length-adjusted window
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
CA2871498C (en) * 2008-07-11 2017-10-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and decoder for encoding and decoding audio samples
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR20100007738A (ko) * 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
JP4834179B2 (ja) * 2008-12-09 2011-12-14 日本電信電話株式会社 符号化方法、その装置、プログラム及び記録媒体
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP4977157B2 (ja) * 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
EP3693963B1 (en) * 2009-10-15 2021-07-21 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
IL295473B2 (en) 2010-07-02 2023-10-01 Dolby Int Ab After–selective bass filter
CN103262539A (zh) * 2010-12-17 2013-08-21 三菱电机株式会社 运动图像编码装置、运动图像解码装置、运动图像编码方法以及运动图像解码方法
EP3503098B1 (en) 2011-02-14 2023-08-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
RU2586838C2 (ru) 2011-02-14 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодек, использующий синтез шума в течение неактивной фазы
EP2676270B1 (en) 2011-02-14 2017-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coding a portion of an audio signal using a transient detection and a quality result
AU2012217215B2 (en) 2011-02-14 2015-05-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for error concealment in low-delay unified speech and audio coding (USAC)
EP2676268B1 (en) 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
TWI483245B (zh) 2011-02-14 2015-05-01 Fraunhofer Ges Forschung 利用重疊變換之資訊信號表示技術
MY165853A (en) 2011-02-14 2018-05-18 Fraunhofer Ges Forschung Linear prediction based coding scheme using spectral domain noise shaping
TR201903388T4 (tr) 2011-02-14 2019-04-22 Fraunhofer Ges Forschung Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi.
AR085445A1 (es) 2011-03-18 2013-10-02 Fraunhofer Ges Forschung Codificador y decodificador que tiene funcionalidad de configuracion flexible
US9380492B2 (en) 2011-12-02 2016-06-28 Intel Corporation Methods, systems and apparatuses to enable short frames
US9099099B2 (en) 2011-12-21 2015-08-04 Huawei Technologies Co., Ltd. Very short pitch detection and coding
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
RU2656681C1 (ru) * 2012-11-13 2018-06-06 Самсунг Электроникс Ко., Лтд. Способ и устройство для определения режима кодирования, способ и устройство для кодирования аудиосигналов и способ, и устройство для декодирования аудиосигналов
PL2951820T3 (pl) 2013-01-29 2017-06-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób wyboru jednego spośród pierwszego algorytmu kodowania i drugiego algorytmu kodowania
PL2951821T3 (pl) * 2013-01-29 2017-08-31 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Koncepcja kompensacji przełączania trybu kodowania
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
CN105632503B (zh) * 2014-10-28 2019-09-03 南宁富桂精密工业有限公司 信息隐藏方法及系统

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69028176T2 (de) * 1989-11-14 1997-01-23 Nippon Electric Co Adaptive Transformationskodierung durch optimale Blocklängenselektion in Abhängigkeit von Unterschieden zwischen aufeinanderfolgenden Blöcken
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JPH06180948A (ja) * 1992-12-11 1994-06-28 Sony Corp ディジタル信号処理装置又は方法、及び記録媒体
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US5913191A (en) * 1997-10-17 1999-06-15 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US5963897A (en) * 1998-02-27 1999-10-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for hybrid excited linear prediction speech encoding
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
JP2000134105A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
EP1199711A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
EP1483759B1 (en) * 2002-03-12 2006-09-06 Nokia Corporation Scalable audio coding
EP1383110A1 (fr) * 2002-07-17 2004-01-21 STMicroelectronics N.V. Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée
KR100467617B1 (ko) * 2002-10-30 2005-01-24 삼성전자주식회사 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
US7325023B2 (en) * 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding

Also Published As

Publication number Publication date
WO2005112003A1 (en) 2005-11-24
MXPA06012617A (es) 2006-12-15
DE602004025517D1 (de) 2010-03-25
EP1747554A1 (en) 2007-01-31
ATE457512T1 (de) 2010-02-15
AU2004319556A1 (en) 2005-11-24
CA2566368A1 (en) 2005-11-24
US20050267742A1 (en) 2005-12-01
EP1747554B1 (en) 2010-02-10
CN1954364A (zh) 2007-04-25
BRPI0418838A (pt) 2007-11-13
JP2007538282A (ja) 2007-12-27
US7860709B2 (en) 2010-12-28
TW200609902A (en) 2006-03-16
CN1954364B (zh) 2011-06-01

Similar Documents

Publication Publication Date Title
ES2338117T3 (es) Codificacion de audio con diferentes longitudes de trama de codificacion.
ES2291877T3 (es) Codificacion de audio con diferentes modelos de codificacion.
ES2960089T3 (es) Procedimiento y aparato para la ocultación de errores de trama y procedimiento y aparato para la decodificación de audio
CN105793924B (zh) 使用错误隐藏提供经解码的音频信息的音频解码器及方法
ES2337270T3 (es) Clasificacion de señales audio.
ES2406681T3 (es) Codificación de una señal de voz y procesamiento de una señal de voz codificada
US8532984B2 (en) Systems, methods, and apparatus for wideband encoding and decoding of active frames
ES2683077T3 (es) Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
ES2797525T3 (es) Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
TWI553628B (zh) 訊框錯誤隱藏方法
ES2380307T3 (es) Esquema de codificación/decodificación de audio de tasa de transmisión de bits baja con preprocesamiento común.
ES2592416T3 (es) Esquema de codificación/decodificación de audio que tiene una derivación conmutable
EP1747442B1 (en) Selection of coding models for encoding an audio signal
ES2625895T3 (es) Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal
ES2659838T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
TW200912897A (en) Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
CN110299147A (zh) 针对切换式音频编码系统在错误隐藏过程中的改善信号衰落的装置及方法
CN104937662B (zh) 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体
CN106575505A (zh) Fd/lpd转换环境中的帧丢失管理
RU2344493C2 (ru) Кодирование звука с различными длительностями кадра кодирования
KR20070017379A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
ZA200609478B (en) Audio encoding with different coding frame lengths
KR20070017380A (ko) 서로 다른 코딩 프레임 길이의 오디오 인코딩