ES2349554T3 - Codificación de señales. - Google Patents

Codificación de señales. Download PDF

Info

Publication number
ES2349554T3
ES2349554T3 ES05734033T ES05734033T ES2349554T3 ES 2349554 T3 ES2349554 T3 ES 2349554T3 ES 05734033 T ES05734033 T ES 05734033T ES 05734033 T ES05734033 T ES 05734033T ES 2349554 T3 ES2349554 T3 ES 2349554T3
Authority
ES
Spain
Prior art keywords
excitation
frame
stage
parameters
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05734033T
Other languages
English (en)
Inventor
Jari M. Makinen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of ES2349554T3 publication Critical patent/ES2349554T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Un procedimiento para codificar una trama en un codificador de un sistema de comunicación, comprendiendo dicho procedimiento las etapas de: calcular un primer conjunto de parámetros asociado a la trama, en el que dicho primer conjunto de parámetros comprende parámetros relacionados con bandas de frecuencia y sus niveles de energía asociados; seleccionar, en una primera etapa (204), una entre la excitación de predicción lineal excitada de código algebraico, la excitación codificada por transformación o una modalidad incierta, en base a condiciones predeterminadas asociadas al primer conjunto de parámetros; calcular un segundo conjunto de parámetros asociados a la trama; seleccionar, en una segunda etapa (210), una entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, en base al resultado de la selección de la primera etapa y el segundo conjunto de parámetros; y codificar la trama usando la seleccionada, entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, de la segunda etapa.

Description

Campo de la Invención
La presente invención se refiere a un procedimiento para codificar una señal en un codificador de un sistema de comunicación.
Antecedentes de la Invención
Los sistemas de comunicación celular son ubicuos en la actualidad. Los sistemas de comunicación celular funcionan habitualmente de acuerdo a un estándar o especificación dados. Por ejemplo, el estándar o especificación puede definir los protocolos de comunicación y / o parámetros que se usarán para una conexión. Los ejemplos de los distintos estándares y / o especificaciones incluyen, sin limitarse a, el GSM (Sistema Global para Comunicaciones Móviles), el GSM / EDGE (Velocidades mejoradas de datos para la Evolución del GSM), el AMPS (Sistema Telefónico Móvil Estadounidense), el WCDMA (Acceso Múltiple por División de Código de Banda Ancha) o el UMTS (Sistema Universal de Telecomunicaciones Móviles) de 3ª generación (3G), el IMT 2000 (Telecomunicaciones Móviles Internacionales 2000), etc.
En un sistema de comunicaciones celulares y en las aplicaciones generales de procesamiento de señales, una señal se comprime a menudo a fin de reducir la cantidad de información necesaria para representar la señal. Por ejemplo, una señal de audio es habitualmente capturada como una señal analógica, digitalizada en un convertidor de analógico a digital (A / D) y codificada luego. En un sistema de comunicación celular, la señal codificada puede ser transmitida por la interfaz aérea inalámbrica entre un equipo de usuario, tal como un terminal móvil, y una estación base. Alternativamente, como en sistemas más generales de procesamiento de señales, la señal de audio codificada puede almacenarse en un medio de almacenamiento para el uso o reproducción posterior de la señal de audio.
La codificación comprime la señal y, como en un sistema de comunicación celular, puede transmitirse luego por la interfaz aérea con la cantidad mínima de datos, manteniendo a la vez un aceptable nivel de calidad de señal. Esto es especialmente importante, ya que la capacidad del canal de radio por la interfaz aérea inalámbrica está limitada en un sistema de comunicación celular.
Un procedimiento de codificación ideal codificará la señal de audio en tan pocos bits como sea posible, optimizando por ello la capacidad del canal, produciendo a la vez una señal descodificada que suene tan similar al audio original como sea posible. En la práctica, hay usualmente un equilibrio entre la velocidad de bits del procedimiento de compresión y la calidad de la voz descodificada.
La compresión o codificación puede ser con o sin pérdidas. En la compresión con pérdidas, se pierde alguna información durante la compresión, donde no es posible reconstruir totalmente la señal original a partir de la señal comprimida. En la compresión sin pérdidas normalmente no se pierde ninguna información y la señal original puede reconstruirse totalmente a partir de la señal comprimida.
Una señal de audio puede considerarse como una señal que contiene voz, música (o contenido no vocálico) o ambas. Las distintas características de la voz y la música dificultan diseñar un único procedimiento de codificación que funcione bien tanto para la voz como para la música. A menudo un procedimiento de codificación que es óptimo para señales de voz no es óptimo para música o señales de contenidos no vocálicos. Por lo tanto, para resolver este problema, se han desarrollado distintos procedimientos de codificación a fin de codificar la voz y la música. Sin embargo, la señal de audio debe clasificarse como voz o música antes de que pueda seleccionarse un procedimiento de codificación adecuado.
Clasificar una señal de audio bien como señal de voz o bien como señal de música, o contenido no vocálico, es una tarea difícil. La precisión requerida de la clasificación depende de la aplicación que usa la señal. En algunas aplicaciones la precisión es más crítica, como en el reconocimiento de la voz o en el archivo con fines de almacenamiento y recuperación.
Sin embargo, es posible que un procedimiento de codificación para partes de la señal de audio, que comprendan principalmente voz, sea también muy eficiente para partes que comprendan principalmente música. En efecto, es posible que un procedimiento de codificación para música con fuertes componentes tonales pueda ser muy adecuado para la voz. Por lo tanto, los procedimientos para clasificar una señal de audio basados estrictamente en si la señal está compuesta de voz o música no necesariamente tienen como resultado la selección del procedimiento de compresión óptimo para la señal de audio.
El códec adaptable de múltiples velocidades (AMR) es un procedimiento de codificación
desarrollado por el Proyecto de Sociedad de 3ª Generación (3GPP) para redes de comunicación de GSM / EDGE y WCDMA. Además, también se ha previsto que el AMR se usará en futuras redes conmutadas por paquetes. El AMR se basa en la codificación de excitación de la Predicción Lineal Excitada de Código Algebraico (ACELP). El AMR y los códecs adaptables de múltiples velocidades de banda ancha (AMR-WB) consisten, respectivamente, en tasas de 8 y 9 bits activos y también incluyen la funcionalidad de detección de inactividad vocal (VAD) y de transmisión discontinua (DTX). La tasa de muestreo en el códec AMR es de 8 kHz. En el códec AMR-WB la tasa de muestreo es de 16kHz.
Los detalles de los códecs AMR y AMR-WB pueden hallarse en las especificaciones técnicas 3GPP TS 26.090 y 3GPP TS 26.190. Detalles adicionales del códec AMW-WB y la VAD pueden hallarse en la especificación técnica 3GPP TS 26.194.
En otro procedimiento de codificación, el códec AMR-WB extendido (AMR-WB+), la codificación se basa en dos procedimientos distintos de excitación: la excitación por pulsos de ACELP y la excitación codificada por transformación (TCX). La excitación de ACELP es la misma que la usada ya en el códec AMR-WB original. La excitación TCX es una modificación específica de AMR-WB+.
La codificación de la excitación de ACELP funciona usando un modelo de cómo se genera una señal en el origen y extrae de la señal los parámetros del modelo. Más específicamente, la codificación de ACELP se basa en un modelo del sistema vocal humano, donde la garganta y la boca se modelan como un filtro lineal y una señal es generada por una vibración periódica de aire que excita el filtro. La señal es analizada, trama por trama, por el codificador y, para cada trama, un conjunto de parámetros que representan la señal modelada es generado y emitido por el codificador. El conjunto de parámetros puede incluir parámetros de excitación y los coeficientes para el filtro, así como otros parámetros. La salida de un codificador de este tipo se denomina a menudo una representación paramétrica de la señal de entrada. El conjunto de parámetros es usado por un descodificador debidamente configurado para regenerar la señal de entrada.
En el códec AMR-WB+, se calcula la codificación de predicción lineal (LPC) en cada trama de la señal para modelar el envolvente espectral de la señal como un filtro lineal. El resultado de la LPC, conocido como la excitación de la LPC, se codifica luego usando la excitación de ACELP o la excitación TCX.
Habitualmente, la excitación de ACELP utiliza predictores a largo plazo y parámetros de libro de códigos fijos, mientras que la excitación TCX utiliza Transformadas Rápidas de Fourier (FFT). Además, en el códec AMR-WB+, la excitación TCX puede llevarse a cabo usando una entre tres distintas longitudes de trama (20, 40 y 80 ms).
La excitación TCX se usa extensamente en la codificación de audio no vocálico. La superioridad de la codificación basada en la excitación TCX para señales no vocálicas se debe al uso del enmascaramiento perceptual y la codificación del dominio de frecuencia. Incluso aunque las técnicas de TCX brindan señales musicales de calidad superior, la calidad no es tan buena para señales vocálicas periódicas. Por el contrario, los códecs basados en el sistema de producción vocal humana, tales como ACELP, proporcionan señales vocálicas de calidad superior, pero señales musicales de mala calidad.
Por lo tanto, en general, la excitación de ACELP se usa mayormente para codificar señales de voz y la excitación TCX se usa mayormente para codificar música y otras señales no vocálicas. Sin embargo, no siempre es este el caso, ya que a veces una señal vocálica tiene partes que son similares a la música y una señal musical tiene partes que son similares a la voz. También existen señales de audio que contienen tanto música como voz, donde el procedimiento de codificación seleccionado, basado únicamente en una entre la excitación de ACELP y la excitación TCX, puede no ser óptimo.
La selección de la excitación en AMR-WB+ puede hacerse de varias maneras.
El primer y más sencillo procedimiento es analizar las propiedades de la señal una vez antes de codificar la señal, clasificando por ello la señal como voz o música (o contenido no vocal) y seleccionando la mejor excitación entre ACELP y TCX para el tipo de señal. Esto se conoce como un procedimiento de “preselección”. Sin embargo, tal procedimiento no es adecuado para una señal que tiene características variables, tanto de voz como de música, lo que da como resultado una señal codificada que no está optimizada ni para la voz ni para la música.
El procedimiento más complejo es codificar la señal de audio utilizando la excitación tanto de ACELP como TCX, y seleccionar luego la excitación en base a la señal de audio sintetizada que sea de mejor calidad. La calidad de la señal puede medirse usando un tipo de algoritmo de señal con respecto al ruido. Este tipo de procedimiento de “análisis por síntesis”, también conocido como el procedimiento de “fuerza bruta”, ya que se calculan todas las distintas excitaciones y se selecciona la mejor, proporciona buenos resultados, pero no es práctico debido a la complejidad de cómputo para realizar múltiples cálculos.
El documento de BESSETTE B ET AL: “A wideband speech and audio codec at 16 / 24 / 32 kbits / s using hybrid ACELP / TCX techniques” [“Un códec de voz y audio de banda ancha a 16 / 24 / 32 kbits / s que usa técnicas híbridas de ACELP / TCX”] revela un algoritmo híbrido de ACELP / TCX. Este documento revela que ambas excitaciones, de ACELP y TCX, pueden usarse para codificar una señal. El documento revela adicionalmente que se requiere un algoritmo robusto para conmutar entre ACELP y TCX a fin de superar el problema del ruido al conmutar entre los algoritmos.
El documento de MAKINEN J ET AL: “Source signal based rate adaptation for GSM ASR speech codec” [“Adaptación de velocidad en base a la señal de origen para códec vocálico ASR del GSM”] revela un códec adaptable de múltiples velocidades que usa el algoritmo ACELP. Se selecciona una modalidad (una tasa de bits) en base a la comparación de una serie de parámetros en un cierto número de ecuaciones. Si algunas de, o todas, las ecuaciones son verdaderas, se selecciona una modalidad específica. Los parámetros incluyen el libro de códigos de afinación y el cálculo de energía a largo plazo de la afinación de umbrales, y el contacto y análisis de tramas.
El documento EP 1278184 describe un procedimiento para codificar señales de voz y música. Se pasa una señal a un clasificador 250, que clasifica la señal bien como vocálica o bien como no vocálica. Después de eso se envía la señal a un codificador, bien de voz o bien de música, en base a la selección hecha en el clasificador.
El documento EP0932141 revela un procedimiento para conmutar entre distintos esquemas de codificación de audio. Se proporciona un clasificador de señales que calcula un conjunto de parámetros. Estos parámetros se usan en una decisión preliminar en base a un conjunto de operaciones lógicas heurísticamente definidas. El clasificador de señales calcula los parámetros en base al análisis de los LPC (coeficientes de predicción lineal).
Es el objeto de las realizaciones de la presente invención proporcionar un procedimiento mejorado para seleccionar un procedimiento de excitación a fin de codificar una señal que mitigue, al menos parcialmente, algunos de los anteriores problemas.
Resumen de la Invención
De acuerdo a la invención, se proporciona un procedimiento según la reivindicación 1, un aparato según la reivindicación 14 y un medio legible por ordenador según la reivindicación 26. Las realizaciones preferidas se definen en las reivindicaciones subordinadas.
Breve Descripción de los Dibujos
Para una mejor comprensión de la presente invención, se hará ahora referencia, sólo a modo de ejemplo, a los dibujos adjuntos, en los cuales:
La Figura 1 ilustra una red de comunicación en la cual pueden aplicarse las realizaciones de la presente invención;
La Figura 2 ilustra un diagrama en bloques de una realización de la presente invención;
La Figura 3 es una estructura de banco de filtros de VAD en una realización de la presente invención.
Descripción detallada de las realizaciones
La presente invención se describe en el presente documento con referencia a ejemplos específicos. La invención, sin embargo, no está limitada a tales ejemplos.
La Figura 1 ilustra un sistema 100 de comunicación que brinda soporte al procesamiento de señales usando el códec AMR-WB+, según una realización de la invención.
El sistema 100 comprende diversos elementos, que incluyen un convertidor 104 de analógico a digital (A / D), un codificador 106, un transmisor 108, un receptor 110, un descodificador 112 y un convertidor 114 de digital a analógico (D / A). El convertidor 104 de A / D, el codificador 106 y el transmisor 108 pueden formar parte de un terminal móvil. El receptor 110, el descodificador 112 y el convertidor 114 de D / A pueden formar parte de una estación base.
El sistema 100 también comprende una o más fuentes de audio, tal como un micrófono no mostrado en la Figura 1, que produce una señal 102 de audio que comprende señales vocálicas y / o no vocálicas. La señal analógica 102 se recibe en el convertidor 104 de A / D, que convierte la señal analógica 102 en una señal digital 105. Debería apreciarse que si la fuente de audio produce una señal digital en lugar de una señal analógica, entonces se ignora el convertidor 104 de A / D.
La señal digital 105 se ingresa al codificador 106, en el cual se lleva a cabo la codificación para codificar y comprimir la señal digital 105 trama por trama, usando un procedimiento de codificación seleccionado para generar las tramas codificadas 107. El codificador puede funcionar usando el códec AMR-WB+ u otro códec adecuado, y se describirá en más detalle a continuación en el presente documento.
Las tramas codificadas pueden almacenarse en un medio de almacenamiento adecuado para ser procesadas posteriormente, tal como en un grabador digital de voz. Alternativamente, y como se ilustra en la Figura 1, las tramas codificadas se ingresan al transmisor 108, que transmite las tramas codificadas 109.
Las tramas codificadas 109 son recibidas por el receptor 110, que las procesa e ingresa las tramas codificadas 111 en el descodificador 112. El descodificador 112 descodifica y descomprime las tramas codificadas 111. El descodificador 112 también comprende medios de determinación para determinar el procedimiento específico de codificación usado en el codificador para cada trama codificada 111 recibida. El descodificador 112 selecciona, en base a la determinación, un procedimiento de descodificación para descodificar la trama codificada 111.
Las tramas descodificadas son emitidas por el descodificador 112 en forma de una señal descodificada 113, que se ingresa al convertidor 114 de D / A para convertir la señal descodificada 113, que es una señal digital, en una señal analógica 116. La señal analógica 116 puede procesarse luego debidamente, tal como transformarse en audio mediante un altavoz.
La Figura 2 ilustra un diagrama en bloques del codificador 106 de la Figura 1 en una realización preferida de la presente invención. El codificador 106 funciona según el códec AMRWB+ y selecciona una entre la excitación de ACELP y la excitación TCX para codificar una señal. La selección se basa en la determinación del mejor modelo de codificación para la señal de entrada, analizando parámetros generados en los módulos del codificador.
El codificador 106 comprende un módulo 202 de detección de actividad vocal (VAD), un
módulo 206 de análisis de codificación de predicción lineal (LPC), un módulo 208 de análisis de predicción a largo plazo (LTP) y un módulo 212 de generación de excitación. El módulo 212 de generación de excitación codifica la señal usando una entre la excitación de ACELP o la excitación TCX.
El codificador 116 también comprende un módulo 216 de selección de excitación, que está conectado con un módulo 204 de selección de la primera etapa, un módulo 210 de selección de la segunda etapa y un módulo 214 de selección de la tercera etapa. El módulo 216 de selección de excitación determina el procedimiento de excitación, excitación de ACELP o excitación TCX, usado por el módulo 212 de generación de excitación para codificar la señal.
El módulo 204 de selección de la primera etapa se conecta entre el módulo 202 de VAD y el módulo 206 de análisis de LPC. El módulo 210 de selección de la segunda etapa se conecta entre el módulo 208 de análisis de LTP y el módulo 212 de generación de excitación. El módulo 214 de selección de la tercera etapa se conecta con el módulo 212 de generación de excitación y la salida del codificador 106.
El codificador 106 recibe una señal 105 de entrada en el módulo de VAD, que determina si la señal 105 de entrada comprende periodos activos de audio o de silencio. La señal se transmite por el módulo 206 de análisis de LPC y se procesa trama por trama.
El módulo de VAD también calcula valores de banda de filtro que pueden usarse para la selección de la excitación. Durante un periodo de silencio, los estados de selección de excitación no se actualizan mientras dure el periodo de silencio.
El módulo 216 de selección de excitación determina un primer procedimiento de excitación en el módulo 204 de selección de la primera etapa. El primer procedimiento de excitación es uno entre la excitación de ACELP o la excitación TCX, y ha de usarse para codificar la señal en el módulo 212 de generación de excitación. Si no puede determinarse un procedimiento de excitación en el módulo 204 de selección de la primera etapa, se deja indefinido.
Este primer procedimiento de excitación determinado por el módulo 216 de selección de excitación se basa en parámetros recibidos desde el módulo 202 de VAD. En particular, la señal 105 de entrada es dividida por el módulo 202 de VAD en bandas de frecuencia múltiple, donde la señal en cada banda de frecuencia tiene un nivel de energía asociado. Las bandas de frecuencia y los niveles de energía asociados son recibidos por el módulo 204 de selección de la primera etapa y pasados al módulo 216 de selección de excitación, donde son analizados para clasificar la señal, en general, como de tipo vocálico o de tipo musical, usando un primer procedimiento de selección de excitación.
El primer procedimiento de selección de excitación puede incluir analizar la relación entre las bandas de frecuencia inferior y superior de la señal, junto con las variaciones del nivel de energía en esas bandas. También pueden usarse distintas ventanas de análisis y umbrales de decisión en el análisis por parte del módulo 216 de selección de excitación. También pueden usarse otros parámetros asociados con la señal en el análisis.
Un ejemplo de un banco 300 de filtros utilizado por el módulo 202 de VAD, que genera distintas bandas de frecuencia, se ilustra en la Figura 3. Los niveles de energía asociados a cada banda de frecuencia se generan por análisis estadístico. La estructura 300 de banco de filtros incluye los bloques 306, 312, 314, 316, 318 y 320 de filtros de 3er orden. El banco 300 de filtros incluye adicionalmente los bloques 302, 304, 308, 310 y 313 de filtros de 5º orden. El “orden” de un bloque de filtros es el retardo máximo, en términos del número de muestras, usado para crear cada muestra de salida. Por ejemplo, y(n) = a*x(n) + b*x(n-1) + c*x(n-2) + d*x(n-3) especifica una instancia de un filtro de 3er orden.
Una señal 301 se ingresa al banco de filtros y es procesada por una serie de los bloques de filtros de 3er y 5º orden, dando como resultado las bandas 322 de 4,8 a 6,4 kHz, 324 de 4,0 a 4,8 kHz, 326 de 3,2 a 4,0 kHz, 328 de 2,4 a 3,2 kHz, 330 de 2,0 a 2,4 kHz, 332 de 1,6 a 2,0 kHz, 334 de 1,2 a 1,6 kHz, 336 de 0,8 a 1,2 kHz, 338 de 0,6 a 0,8 kHz, 340 de 0,4 a 0,6 kHz, 342 de 0,2 a 0,4 kHz y 344 de 0,0 a 0,2 kHz, de señales filtradas.
La banda 322 de 4,8 a 6,4 kHz de señales filtradas se genera pasando la señal a través del bloque 302 de filtros de 5º orden, seguido por el bloque 304 de filtros de 5º orden. La banda 324 de 4,0 a 4,8 kHz de señales filtradas se genera pasando la señal a través del bloque 302 de filtros de 5º orden, seguido por el bloque 304 de filtros de 5º orden y el bloque 306 de filtros de 3er orden. La banda 326 de 3,2 a 4,0 kHz de señales filtradas se genera pasando la señal a través del bloque 302 de filtros de 5º orden, seguido por el bloque 304 de filtros de 5º orden y el bloque 306 de filtros de 3er orden. La banda 330 de 2,4 a 3,2 kHz de señales filtradas se genera pasando la señal a través del bloque 302 de filtros de 5º orden, seguido por el bloque 308 de filtros de 5º orden y el bloque 310 de filtros de 5º orden. La banda 330 de 2,0 a 2,4 kHz de señales filtradas se genera pasando la señal a través del bloque 302 de filtros de 5º orden, seguido por el bloque 308 de filtros de 5º orden, el bloque 310 de filtros de 5º orden y el bloque 312 de filtros de 3er orden. La banda 332 de 1,6 a 2,0 kHz de señales filtradas se genera pasando la señal a través del bloque 302 de filtros de 5º orden, seguido por el bloque 308 de filtros de 5º orden, el bloque 310 de filtros de 5º orden y el bloque 312 de filtros de 3er orden. La banda 334 de 1,2 a 1,6 kHz de señales filtradas se genera pasando la señal a través del bloque 302 de filtros de 5º orden, seguido por el bloque 308 de filtros de 5º orden, el bloque 313 de filtros de 5º orden y el bloque 314 de filtros de 3er orden. La banda 336 de 0,8 a 1,2 kHz de señales filtradas se genera pasando la señal a través del bloque 302 de filtros de 5º orden, seguido por el bloque 308 de filtros de 5º orden, el bloque 313 de filtros de 5º orden y el bloque 314 de filtros de 3er orden. La banda 338 de 0,6 a 0,8 kHz de señales filtradas se genera pasando la señal a través del bloque 302 de filtros de 5º orden, seguido por el bloque 308 de filtros de 5º orden, el bloque 313 de filtros de 5º orden, el bloque 316 de filtros de 3er orden y el bloque 318 de filtros de 3er orden. La banda 340 de 0,4 a 0,6 kHz de señales filtradas se genera pasando la señal a través del bloque 302 de filtros de 5º orden, seguido por el bloque 308 de filtros de 5º orden, el bloque 313 de filtros de 5º orden, el bloque 316 de filtros de 3er orden y el bloque 318 de filtros de 3er orden. La banda 342 de 0,2 a 0,4 kHz de señales filtradas se genera pasando la señal a través del bloque 302 de filtros de 5º orden, seguido por el bloque 308 de filtros de 5º orden, el bloque 313 de filtros de 5º orden, el bloque 316 de filtros de 3er orden y el bloque 320 de filtros de 3er orden. La banda 344 de 0,0 a 0,2 kHz de señales filtradas se genera pasando la señal a través del bloque 302 de filtros de 5º orden, seguido por el bloque 308 de filtros de 5º orden, el bloque 313 de filtros de 5º orden, el bloque 316 de filtros de 3er orden y el bloque 320 de filtros de 3er orden.
El análisis de los parámetros por parte del módulo 216 de selección de excitación y, en particular, la clasificación resultante de la señal, se usa para seleccionar un primer procedimiento de excitación, uno entre ACELP y TCX, a fin de codificar la señal en el módulo 212 de generación de excitación. Sin embargo, si la señal analizada no resulta clasificada claramente como de tipo vocálico o de tipo musical, por ejemplo, cuando la señal tiene características de voz y de música, no se selecciona ningún procedimiento de excitación, o bien se selecciona como incierto, y la decisión de la selección se deja hasta una etapa posterior de selección de procedimiento. Por ejemplo, puede hacerse la selección específica en el módulo 210 de selección de la segunda etapa después del análisis de LPC y LTP.
El siguiente es un ejemplo de un primer procedimiento de selección de excitación usado
para seleccionar un procedimiento de excitación.
El códec AMR-WB utiliza los bancos de filtros de VAD de AMR-WB en la determinación de un procedimiento de excitación, en donde, para cada trama de entrada de 20 ms, se determina la energía E(n) de la señal en cada una de las 12 subbandas para la gama de frecuencias, desde 0 a 6.400 Hz. Los niveles de energía de cada subbanda pueden normalizarse dividiendo el nivel E(n) de energía de cada subbanda entre el ancho de esa subbanda (en Hz), produciendo los niveles de energía EN(n) normalizada de cada banda.
En el módulo 204 de selección de excitación de la primera etapa, puede calcularse la desviación estándar de los niveles de energía para cada una de las 12 subbandas, usando dos ventanas: una ventana corta stdshort(n) y una ventana larga stdlong(n). En el caso de AMRWB+, la longitud de la ventana corta es de 4 tramas y la ventana larga tiene 16 tramas. Usando este algoritmo, se usan los 12 niveles de energía de la trama actual junto con los 12 niveles de energía de las 3 o 15 tramas anteriores (lo que da como resultado ventanas de 4 y 16 tramas) para derivar los dos valores de la desviación estándar. Una característica de este cálculo es que se lleva a cabo sólo cuando el módulo 202 de VAD determina que la señal 105 de entrada comprende audio activo. Esto permite que el algoritmo reaccione más precisamente después de periodos prolongados de pausas de voz / música, cuando los parámetros estadísticos pueden estar distorsionados.
Luego, para cada trama, se calcula la desviación estándar promedio para todas las 12 subbandas, tanto para las ventanas largas como para las cortas, y también se calculan los valores de desviación estándar promedio de stdalong y stdashort.
Para cada trama de la señal de audio, puede calcularse una relación entre las bandas de frecuencia inferior y las bandas de frecuencia superior. En AMR-WB+, se calcula LevL tomando la suma de los niveles de energía de las subbandas de frecuencia inferior, desde 2 a 8, y normalizando por división de la suma entre la longitud total (ancho de banda) de estas subbandas (en Hz). Para las subbandas de frecuencia superior, entre 9 y 12, se calcula la suma de los niveles de energía de estas subbandas y se normaliza para obtener LevH. En este ejemplo, la subbanda 1 más baja no se usa en los cálculos, porque habitualmente contiene una cantidad desproporcionada de energía que distorsionaría los cálculos y haría que las contribuciones de otras subbandas fueran demasiado pequeñas. De estas mediciones se determina la relación LPH, dada por:
LPH = LevL / LevH
Además, para cada trama se calcula un promedio móvil LPHa usando el valor actual y los 3 valores anteriores de LPH. También se calcula una relación LPHaF de frecuencia baja y alta para la trama actual, en base a la suma ponderada de los valores LPHa del promedio móvil actual y los 7 anteriores, donde se da más peso a los valores más recientes.
El nivel AVL de energía promedio de los bloques de filtros para la trama actual se calcula restando el nivel de energía estimado del ruido de fondo a cada salida del bloque de filtros, y sumando luego el resultado de cada uno de los niveles de energía restados, multiplicado por la frecuencia más alta del correspondiente bloque de filtros. Esto equilibra las subbandas de frecuencia alta que contienen relativamente menos energía, en comparación con las subbandas de frecuencia inferior y mayor energía.
La energía total de la trama actual, TotE0, se calcula tomando los niveles combinados de energía de todos los bloques de filtros y restando la estimación del ruido de fondo de cada banco de filtros.
Después de hacer los cálculos anteriores, puede efectuarse la elección entre los procedimientos de excitación ACELP y TCX usando el siguiente procedimiento, donde se supone que, cuando se activa un indicador dado, los otros indicadores se desactivan para impedir conflictos en las activaciones.
En primer lugar, el valor de la desviación estándar promedio para la ventana larga, stdalong, se compara con un primer valor TH1 de umbral, por ejemplo, 0,4. Si el valor stdalong de desviación estándar es más pequeño que el primer valor TH1 de umbral, se activa un indicador de TCX para indicar la selección de la excitación TCX para la codificación. En caso contrario, se compara la medición calculada de la relación LPHaF de frecuencia baja y alta con un segundo valor TH2 de umbral, por ejemplo, 280.
Si la medición calculada de la relación LPHaF de frecuencia baja y alta es mayor que el segundo valor TH2 de umbral, se activa el indicador TCX. En caso contrario, se calcula una inversa del valor stdalong de desviación estándar menos el primer valor TH1 de umbral, y se suma una primera constante C1, por ejemplo, 5, al valor inverso restado. La suma se compara con la medición calculada de la relación LPHaF de frecuencia baja y alta, según lo siguiente:
C1 + (1 / (stdalong – TH1)) > LPHaF (1)
Si el resultado de la comparación (1) es verdad, se activa el indicador MODALIDAD TCX para indicar la selección de la excitación TCX para la codificación. Si el resultado de la comparación no es verdadero, se multiplica el valor stdalong de la desviación estándar por un primer multiplicando M1 (p. ej., -90) y se suma una segunda constante C2 (p. ej., 120) al resultado de la multiplicación. La suma se compara con la medición calculada de la relación LPHaF de frecuencia baja y alta, según lo siguiente:
(M1*stdalong) + C2 < LPHaF (2)
Si la suma es más pequeña que la medición calculada de la relación LPHaF de frecuencia baja y alta, en otras palabras, si el resultado de la comparación (2) es verdadero, se activa un indicador de ACELP a fin de indicar la selección de la excitación de ACELP para la codificación. En caso contrario, se activa un indicador de INCIERTA que indica que el procedimiento de excitación no pudo determinarse aún para la trama actual.
Puede llevarse a cabo entonces un examen adicional antes de que se confirme la selección del procedimiento de excitación para la trama actual.
El examen adicional determina primero si está activado el indicador de ACELP o el indicador de INCIERTA. Si alguno está activado, y si el nivel promedio calculado AVL de los bancos de filtros para la trama actual es mayor que un tercer valor TH3 de umbral (p. ej., 2.000), entonces se activa en cambio el indicador TCX y se desactivan el indicador de ACELP y el indicador de INCIERTA.
Luego, si el indicador de INCIERTA permanece activado, se realizan cálculos para el valor stdashort de desviación estándar promedio para la ventana corta, similares a los descritos anteriormente para el valor stdalong de desviación estándar promedio para la ventana larga, pero usando valores levemente distintos para las constantes y umbrales en las comparaciones.
Si el valor stdashort de desviación estándar promedio para la ventana corta es más pequeño que un cuarto valor TH4 de umbral (p. ej., 0,2), se activa el indicador TCX para indicar la selección de la excitación TCX para la codificación. En caso contrario, se calcula una inversa del valor stdashort de desviación estándar para la ventana corta, menos el cuarto valor TH4 de umbral, y se suma una tercera constante C3 (p. ej., 2,5) al valor inverso restado. La suma se compara con la medición calculada de la relación LPHaF de frecuencia baja y alta, según lo siguiente:
C3 + (1 / (stdashort – TH4)) > LPHaF (3)
Si el resultado de la comparación (3) es verdadero, se activa el indicador TCX a fin de indicar la selección de la excitación TCX para la codificación. Si el resultado de la comparación no es verdadero, se multiplica el valor stdashort de desviación estándar por un segundo multiplicando M2 (p. ej., -90) y se suma una cuarta constante C4 (p. ej., 140) al resultado de la multiplicación. La suma se compara con la medición calculada de la relación LPHaF de frecuencia baja y alta, según lo siguiente:
M2*stdashort + C4 < LPHaF (4)
Si la suma es más pequeña que la medición calculada de la relación LPHaF de frecuencia baja y alta, en otras palabras, si el resultado de la comparación (4) es verdadero, se activa el indicador ACELP a fin de indicar la selección de la excitación de ACELP para la codificación. En caso contrario, se activa el indicador INCIERTA, indicando que el procedimiento de excitación no pudo determinarse aún para la trama actual.
En una etapa próxima pueden examinarse los niveles de energía de la trama actual y de la trama anterior. Si la energía entre la energía total de la trama actual, TotE0, y la energía total de la trama anterior, TotE-1, es mayor que un quinto valor TH5 de umbral (p. ej., 25), se activa el indicador ACELP y se desactivan el indicador TCX y el indicador INCIERTA.
Finalmente, si está activado el indicador TCX o el indicador INCIERTA, y si el nivel promedio calculado AVL de los bancos 300 de filtros para la trama actual es mayor que el tercer valor TH3 de umbral, y la energía total de la trama actual, TotE0, es menor que un sexto valor TH6 de umbral (p. ej., 60), se activa el indicador ACELP.
Cuando se lleva a cabo el primer procedimiento de selección de excitación, anteriormente descrito, se selecciona el primer procedimiento de excitación TCX en el primer bloque 204 de excitación cuando está activado el indicador TCX, o se selecciona el segundo procedimiento de excitación de ACELP en el primer bloque 204 de excitación cuando está activado el indicador ACELP. Sin embargo, si está activado el indicador INCIERTA, el primer procedimiento de selección de excitación no ha determinado un procedimiento de excitación. En este caso, se selecciona la excitación ACELP o TCX en otro(s) bloque(s) de selección de excitación, tal como el módulo 210 de selección de la segunda etapa, donde puede efectuarse un análisis adicional para determinar qué excitación usar entre ACELP o TCX.
El primer procedimiento de selección de excitación, anteriormente descrito, puede ilustrarse por el siguiente seudocódigo:
imagen1
Después de que el módulo 204 de selección de la primera etapa ha completado el procedimiento anterior y seleccionado un primer procedimiento de excitación para codificar la señal, la señal se transmite al módulo 206 de análisis de LPC desde el módulo 202 de VAD, que procesa la señal trama por trama.
Específicamente, el módulo 206 de análisis de LPC determina un filtro de LPC correspondiente a la trama, minimizando el error residual de la trama. Una vez que se ha determinado el filtro de LPC, puede ser representado por un conjunto de coeficientes de filtro de LPC para el filtro. La trama procesada por el módulo 206 de análisis de LPC, junto con todo parámetro determinado por el módulo de análisis de LPC, tal como los coeficientes de filtro del LPC, se transmite al módulo 208 de análisis de LTP.
El módulo 208 de análisis de LTP procesa la trama y parámetros recibidos. En particular, el módulo de análisis de LTP calcula un parámetro de LTP, que está estrechamente relacionado con la frecuencia fundamental de la trama y que a menudo se denomina un parámetro de “desfase de tono” o parámetro de “retardo de tono”, que describe la periodicidad de la señal de voz en términos de muestras de voz. Otro parámetro calculado por el módulo 208 de análisis de LTP es la ganancia de LTP y está estrechamente relacionado con la periodicidad fundamental de la señal de voz.
La trama procesada por el módulo 208 de análisis de LTP se transmite, junto con los parámetros calculados, el módulo 212 de generación de excitación, en donde la trama se codifica usando uno de los procedimientos de excitación, ACELP o TCX. La selección de uno de los procedimientos, ACELP o TCX, es realizada por el módulo 216 de selección de excitación, conjuntamente con el módulo 210 de selección de la segunda etapa.
El módulo 210 de selección de la segunda etapa recibe la trama procesada por el módulo 208 de análisis de LTP, junto con los parámetros calculados por el módulo 206 de análisis de LPC y el módulo 208 de análisis de LTP. Estos parámetros son analizados por el módulo 216 de selección de excitación para determinar el procedimiento óptimo de excitación, en base a los parámetros de LPC y LTP y la correlación normalizada de la excitación de ACELP y la excitación TCX, a usar para la trama actual. En particular, el módulo 216 de selección de excitación analiza los parámetros del módulo 206 de análisis de LPC y, en particular, el módulo 208 de análisis de LTP y los parámetros de correlación, para seleccionar el procedimiento óptimo de excitación entre la excitación de ACELP y la excitación TCX. El módulo de selección de la segunda etapa verifica el primer procedimiento de excitación determinado por el módulo de selección de la primera etapa o, si el primer procedimiento de excitación fue determinado como incierto por el primer procedimiento de selección de excitación, el módulo 210 de selección de excitación selecciona el procedimiento óptimo de excitación en esta etapa. En consecuencia, la selección de un procedimiento de excitación para codificar una trama se retarda hasta después de que se haya efectuado el análisis de LTP.
La correlación normalizada puede usarse en el módulo de selección de la segunda etapa
y puede calcularse de la siguiente manera:
imagen1
CorrNorm =
en la que la longitud de trama es N, T0 es el desfase de bucle abierto de la trama con una longitud N, Xi es la i-ésima muestra de la trama codificada y Xi-T0 es la muestra de una trama codificada que está a T0 muestras de distancia de la muestra xi.
También hay algunas excepciones en la selección de excitación de la segunda etapa, donde la selección de excitación de la primera etapa, ACELP o TCX, puede cambiarse o reseleccionarse.
En una señal estable, donde la diferencia entre los valores de desfase mínimo y máximo de las tramas actual y previa está por debajo de un umbral TH2 predeterminado, el desfase no puede cambiar mucho entre las tramas actual y previa. En AMR-WB+, la gama de la ganancia de LTP está habitualmente entre 0 y 1,2. La gama de la correlación normalizada está habitualmente entre 0 y 1,0. Como ejemplo, el umbral que indica una alta ganancia de LTP podría estar por encima de 0,8. La alta correlación (o similitud) de la ganancia de LTP y la correlación normalizada pueden observarse examinando su diferencia. Si la diferencia está por debajo de un tercer umbral, por ejemplo, 0,1 en las tramas actuales y / o pasadas, se considera que la ganancia de LTP y la correlación normalizada tienen una alta correlación.
Si la señal es transitoria por naturaleza, puede codificarse usando un primer procedimiento de excitación, por ejemplo, ACELP, en una realización de la presente invención. Las secuencias transitorias pueden detectarse usando la distancia espectral SD de las tramas adyacentes. Por ejemplo, si la distancia espectral, SDn, de la trama n, calculada a partir de los coeficientes del par espectral de impedancia / admitancia (ISP) en las tramas actuales y previas, supera un primer umbral predeterminado, la señal se clasifica como transitoria. Los coeficientes de ISP se derivan de los coeficientes de filtro de LPC que han sido convertidos en la representación de ISP.
Las secuencias similares al ruido pueden codificarse usando un segundo procedimiento de excitación, por ejemplo, por excitación de TCX. Estas secuencias pueden detectarse examinando los parámetros de LTP y la frecuencia promedio a lo largo de la trama en el dominio de frecuencia. Si los parámetros de LTP son muy inestables y / o la frecuencia promedio supera un umbral predeterminado, se determina que la trama contiene una señal similar al ruido.
Un ejemplo de un algoritmo que puede usarse en el segundo procedimiento de selección de excitación se describe de la siguiente manera.
Si el indicador de VAD está activado, indicando una señal de audio activa, y el primer procedimiento de excitación ha sido determinado en el módulo de selección de la primera etapa como incierto (definido como TCX_O_ACELP, por ejemplo), el segundo procedimiento de excitación puede seleccionarse de la siguiente manera:
imagen2
La distancia espectral, SDn, de la trama n se calcula a partir de los parámetros de ISP, de la siguiente manera:
imagen1
5
donde ISPn es el vector de coeficientes de ISP de la trama n e ISPn(i) es su i-ésimo elemento.
LagDifbuf es el almacén temporal que contiene los valores de desfase de bucle abierto de las diez tramas anteriores (20 ms).
10 Lagn contiene dos valores de desfase de bucle abierto de la trama actual n. Gainn contiene dos valores de ganancia de LTP de la trama actual n. NormCorrn contiene dos valores de correlación normalizados de la trama actual n. MaxEnergybuf es el valor máximo del almacén temporal que contiene valores de energía.
El almacén temporal de energía contiene los últimos seis valores de las tramas actuales y previas
15 (20 ms). Iphn indica la inclinación espectral. NoMtcx es el indicador que indica evitar la codificación de TCX con una longitud larga de
trama (80 ms) si se selecciona la excitación TCX.
20 Si un indicador de VAD está activado, indicando una señal activa de audio, y se ha determinado un primer procedimiento de excitación en el módulo de selección de la primera etapa como el ACELP, se verifica la determinación del primer procedimiento de excitación según el siguiente algoritmo, donde el procedimiento puede conmutarse a TCX.
imagen3
Si el indicador de VAD está activado en la trama actual y el indicador de VAD ha sido fijado en cero en al menos una de las tramas en la supertrama anterior (una supertrama tiene 80 ms de longitud y comprende 4 tramas, cada una con 20 ms de longitud) y la modalidad ha sido seleccionada como la modalidad TCX, se inhabilita el uso de la excitación TCX que da como
20 resultado tramas de 80 ms (se activa el indicador NoMtcx).
imagen1
Si el indicador de VAD está activado y el primer procedimiento de selección de excitación ha sido determinado como incierto (TCX_O_ACELP) o TCX, se verifica el primer procedimiento de selección de excitación según el siguiente algoritmo.
imagen1
vadFlagold es el indicador de VAD de la trama anterior e IndicadorVad es el indicador de VAD de la trama actual.
NoMtcx es el indicador que indica evitar la excitación TCX con la longitud de trama larga (80 ms) si se selecciona el procedimiento de excitación TCX.
Mag es una envoltura espectral de la transformada discreta de Fourier (DFT) creada a partir de los coeficientes de filtro de LP, Ap, de la trama actual.
DFTSum es la suma de los primeros 40 elementos del vector mag, excluyendo el primer elemento (mag(0)) del vector mag.
La trama, después del módulo 210 de selección de la segunda etapa, se transmite entonces al módulo 212 de generación de excitación, que codifica la trama recibida desde el módulo 208 de análisis de LTP, junto con parámetros recibidos de los módulos anteriores, usando uno de los procedimientos de excitación seleccionados en los módulos 210 o 204 de selección de la segunda o primera etapa. La codificación está controlada por el módulo 216 de selección de excitación.
La trama emitida por el módulo 212 de generación de excitación es una trama codificada representada por los parámetros determinados por el módulo 206 de análisis de LPC, el módulo 208 de análisis de LTP y el módulo 212 de generación de excitación. La trama codificada se emite mediante un módulo 214 de selección de la tercera etapa.
Si se usó la excitación de ACELP para codificar la trama, entonces la trama codificada atraviesa directamente el módulo 214 de selección de la tercera etapa y es emitida directamente como la trama codificada 107. Sin embargo, si se usó la excitación TCX para codificar la trama, entonces la longitud de la trama codificada debe seleccionarse según el número de tramas de ACELP previamente seleccionadas en la supertrama, donde una supertrama tiene una longitud de 80 ms y comprende 4 tramas de 20 ms. En otras palabras, la longitud de la trama TCX codificada depende del número de tramas de ACELP en las tramas precedentes.
La longitud máxima de una trama TCX codificada es de 80 ms y puede comprender una única trama TCX codificada de 80 ms (TCX80), 2 tramas TCX codificadas de 40 ms (TCX40) o 4 tramas TCX codificadas de 20 ms (TCX20). La decisión en cuanto a cómo codificar la trama TCX de 80 ms es tomada, usando el módulo 214 de selección de la tercera etapa, por el módulo 216 de selección de excitación y depende del número de tramas de ACELP seleccionadas en la supertrama.
Por ejemplo, el módulo 214 de selección de la tercera etapa puede medir la razón entre señal y ruido de las tramas codificadas provenientes del módulo 212 de generación de excitación y seleccionar en consecuencia bien 2 tramas codificadas de 40 ms o bien una única trama codificada de 80 ms.
La tercera etapa de selección de excitación se efectúa sólo si el número de procedimientos de ACELP seleccionados en las etapas de selección de excitación primera y segunda es menor que tres (ACELP < 3) dentro de una supertrama de 80 ms. La Tabla 1 a continuación muestra las posibles combinaciones de procedimientos antes y después de la tercera etapa de selección de excitación. En la tercera etapa de selección de excitación, se selecciona la longitud de trama del procedimiento de TCX, por ejemplo, según la SNR.
Tabla 1 Combinaciones de procedimientos en TCX
Combinación de modalidad seleccionada después de la selección de excitación de las etapas 1ª y 2ª (TCX = 1 y ACELP = 0)
Posible combinación de modalidades después de la selección de excitación de la 3ª etapa (ACELP = 0, TCX20 = 1, TCX40 = 2 y TCX80 = 3)
Indicador NoMtcx
(0, 1, 1, 1)
(0, 1, 1, 1)
(0, 1, 2, 2)
(1, 0, 1, 1)
(1, 0, 1, 1)
(1, 0, 2, 2)
(1, 1, 0, 1)
(1, 1, 0, 1)
(2, 2, 0, 1)
(1, 1, 1, 0)
(1, 1, 1, 0)
(2, 2, 1, 0)
(1, 1, 0, 0)
(1, 1, 0, 0)
(2, 2, 0, 0)
(0, 0, 1, 1)
(0, 0, 1, 1)
(0, 0, 2, 2)
(1, 1, 1, 1)
(1, 1, 1, 1)
(2, 2, 2, 2) 1
(1, 1, 1, 1)
(2, 2, 2, 2) (3, 3, 3, 3) 0
10 Las realizaciones descritas de esta manera seleccionan la excitación de ACELP para señales periódicas con alta correlación a largo plazo, que pueden incluir señales de voz y señales transitorias. Por otra parte, para ciertas clases de señales estáticas, señales similares al ruido y señales similares a tonos, se seleccionará la excitación TCX, que es más adecuada para la
15 manipulación y codificación de la resolución de frecuencia de tales señales.
La selección del procedimiento de excitación en las realizaciones se retarda, pero se
aplica a la trama actual y, por lo tanto, proporciona un procedimiento de complejidad inferior para
la codificación de una señal que en las disposiciones conocidas anteriormente. También el
20 consumo de memoria del procedimiento descrito es considerablemente menor que en las disposiciones conocidas anteriormente. Esto es especialmente importante en dispositivos móviles que tienen memoria y potencia de procesamiento limitadas.
Además, el uso de parámetros del módulo de VAD, y los módulos de análisis de LPC y 25 LTP, da como resultado una clasificación más precisa de la señal y, por lo tanto, una selección más precisa del procedimiento óptimo de excitación para codificar la señal.
Debería observarse que, mientras la exposición y las realizaciones precedentes se refieren al códec AMR-WB+, una persona versada en la tecnología apreciará que las realizaciones pueden ser igualmente para otros códecs, en donde puede usarse más de un procedimiento de excitación, como realizaciones alternativas y como realizaciones adicionales.
5
Además, mientras las realizaciones anteriores describen el uso de uno de dos procedimientos de excitación, ACELP y TCX, una persona versada en la tecnología apreciará que también podrían usarse otros procedimientos de excitación, en lugar de, y así como, los descritos en realizaciones alternativas y adicionales.
10 El codificador también podría usarse en otros terminales, así como los terminales móviles, tales como un ordenador u otro dispositivo de procesamiento de señales.
También se hace notar en el presente documento que, mientras lo precedente describe
15 realizaciones ejemplificadoras de la invención, hay diversas variaciones y modificaciones que pueden hacerse en la solución revelada sin apartarse del alcance de la presente invención, según lo definido en las reivindicaciones adjuntas.
20
25
30
35

Claims (23)

  1. REIVINDICACIONES
    1.
    Un procedimiento para codificar una trama en un codificador de un sistema de comunicación, comprendiendo dicho procedimiento las etapas de:
    calcular un primer conjunto de parámetros asociado a la trama, en el que dicho primer conjunto de parámetros comprende parámetros relacionados con bandas de frecuencia y sus niveles de energía asociados; seleccionar, en una primera etapa (204), una entre la excitación de predicción lineal excitada de código algebraico, la excitación codificada por transformación o una modalidad incierta, en base a condiciones predeterminadas asociadas al primer conjunto de parámetros; calcular un segundo conjunto de parámetros asociados a la trama; seleccionar, en una segunda etapa (210), una entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, en base al resultado de la selección de la primera etapa y el segundo conjunto de parámetros; y codificar la trama usando la seleccionada, entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, de la segunda etapa.
  2. 2.
    Un procedimiento según la reivindicación 1, en el cual, si se ha seleccionado la excitación de predicción lineal excitada de código algebraico en la primera etapa, la selección en la segunda etapa comprende reseleccionar la excitación de predicción lineal excitada de código algebraico
    o bien seleccionar, en cambio, la excitación codificada por transformación, según un primer algoritmo.
  3. 3. Un procedimiento según la reivindicación 2, en el cual el primer algoritmo comprende detectar una señal de audio activa y, en ese caso, efectuar la siguiente operación:
    imagen1
    en la que:
    LagDifbuf es el almacén temporal que contiene los valores de desfase de bucle abierto de
    las diez tramas anteriores (20 ms); NormCorrn contiene dos valores de correlación normalizados de la trama actual n; SDn es la distancia espectral de la trama n; y Iphn indica la inclinación espectral.
  4. 4.
    Un procedimiento según la reivindicación 1, en el cual, si se ha seleccionado la excitación codificada por transformación o la modalidad incierta en la primera etapa, la selección en la segunda etapa comprende reseleccionar la excitación codificada por transformación o seleccionar, en cambio, la excitación de predicción lineal excitada de código algebraico, según un segundo algoritmo.
  5. 5.
    Un procedimiento según la reivindicación 4, en el cual el segundo algoritmo comprende: detectar una señal de audio activa y, en ese caso, efectuar la siguiente operación:
    imagen1
    en la que:
    Gainn contiene dos valores de ganancia de LTP de la trama actual n;
    NormCorrn contiene dos valores de correlación normalizados de la trama actual n;
    Lagn contiene dos valores de desfase de bucle abierto de la trama actual n;
    NoMtcx es el indicador que indica evitar la excitación TCX con la longitud de trama larga (80 ms) si se selecciona el procedimiento de excitación TCX;
    Mag es una envoltura espectral de la transformada discreta de Fourier (DFT) creada a
    partir de los coeficientes de filtro de LP, Ap, de la trama actual; y
    DFTSum es la suma de los primeros 40 elementos del vector mag, excluyendo el primer
    elemento (mag(0)) del vector mag.
    5 6. Un procedimiento según la reivindicación 1, en el cual, si se ha seleccionado la modalidad incierta en la primera etapa, la selección comprende seleccionar una entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, según un tercer algoritmo.
    10 7. Un procedimiento según la reivindicación 6, en el cual el tercer algoritmo comprende detectar una señal de audio activa y, en ese caso, efectuar la siguiente operación:
    15
    20
    25
    30
    imagen1
    35 en la que
    SDn es la distancia espectral de la trama n; y LagDifbug es el almacén temporal que contiene los valores de desfase de bucle abierto de
    las anteriores; Lagn contiene dos valores de desfase de bucle abierto de la trama actual n; Gainn contiene dos valores de ganancia de LTP de la trama actual n; NormCorrn contiene dos valores de correlación normalizados de la trama actual n; NoMtcx es el indicador que indica evitar la excitación TCX con la longitud de trama larga
    (80 ms) si se selecciona el procedimiento de excitación TCX; y MaxEnergybuf es el valor máximo del almacén temporal que contiene valores de energía.
  6. 8.
    Un procedimiento según la reivindicación 1, en el cual dicho segundo conjunto de parámetros comprende al menos uno entre parámetros espectrales, parámetros de predicción a largo plazo y parámetros de correlación asociados a la trama.
  7. 9.
    Un procedimiento según la reivindicación 1, en el cual, cuando se codifica la trama usando la excitación codificada por transformación, el procedimiento comprende adicionalmente:
    seleccionar una longitud de la trama a codificar usando la excitación codificada por transformación, en base a la selección en la primera etapa y en la segunda etapa.
  8. 10.
    Un procedimiento según la reivindicación 9, en el cual la selección de la longitud de la trama a codificar depende de la razón entre señal y ruido de la trama.
  9. 11.
    Un procedimiento según la reivindicación 1, en el cual el codificador es un codificador adaptable extendido de múltiples velocidades y banda ancha.
  10. 12.
    Un procedimiento según la reivindicación 1, en el cual la trama es una trama de audio que comprende voz o contenido no vocálico, en el que el contenido no vocálico puede comprender música.
  11. 13.
    Un procedimiento según cualquier reivindicación precedente, en el cual dicho primer conjunto de parámetros son parámetros de banco de filtros.
  12. 14.
    Un codificador para codificar una trama en un sistema de comunicación, comprendiendo dicho codificador:
    un primer módulo (202) de cálculo configurado para calcular un primer conjunto de parámetros asociado a la trama, en donde dicho primer conjunto de parámetros comprende parámetros relacionados con bandas de frecuencia y sus niveles de energía asociados; un módulo (204) de selección de la primera etapa, configurado para seleccionar una entre la
    5 excitación de predicción lineal excitada de código algebraico, la excitación codificada por transformación o una modalidad incierta, en base a condiciones predeterminadas asociadas al primer conjunto de parámetros; un segundo módulo (206, 208) de cálculo, configurado para calcular un segundo conjunto de parámetros asociado a la trama;
    10 un módulo (210) de selección de la segunda etapa, configurado para seleccionar una entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, en base al resultado de la selección de la primera etapa y el segundo conjunto de parámetros; y un módulo de codificación configurado para codificar la trama usando la seleccionada, entre
    15 la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, del módulo de selección de la segunda etapa.
  13. 15. Un codificador según la reivindicación 14, en el cual el módulo de selección de la segunda etapa está configurado de forma tal que, si se ha seleccionado la excitación de predicción
    20 lineal excitada de código algebraico en el módulo de selección de la primera etapa, el módulo de selección de la segunda etapa reselecciona la excitación de predicción lineal excitada de código algebraico, o bien selecciona, en cambio, la excitación codificada por transformación, según un primer algoritmo.
    25 16. Un codificador según la reivindicación 15, en el cual el primer algoritmo comprende detectar una señal de audio activa y, en ese caso, efectuar la siguiente operación: LagDifbuf es el almacén temporal que contiene los valores de desfase de bucle abierto de
    imagen2
    las diez tramas anteriores (20 ms); NormCorrn contiene dos valores de correlación normalizados de la trama actual n; SDn es la distancia espectral de la trama n; y Iphn indica la inclinación espectral.
  14. 17.
    Un codificador según la reivindicación 14, en el cual el módulo de selección de la segunda etapa está configurado de forma tal que, si se ha seleccionado la excitación codificada por transformación o la modalidad incierta en el módulo de selección de la primera etapa, el módulo de selección de la segunda etapa reselecciona la excitación codificada por transformación, o bien selecciona la excitación de predicción lineal excitada de código algebraico, según un segundo algoritmo.
  15. 18.
    Un codificador según la reivindicación 17, en el cual el segundo algoritmo comprende detectar una señal de audio activa y, en ese caso, efectuar la siguiente operación:
    imagen1
    en la que:
    Gainn contiene dos valores de ganancia de LTP de la trama actual n;
    NormCorrn contiene dos valores de correlación normalizados de la trama actual n;
    Lagn contiene dos valores de desfase de bucle abierto de la trama actual n;
    NoMtcx es el indicador que indica evitar la excitación TCX con la longitud de trama larga (80 ms) si se selecciona el procedimiento de excitación TCX;
    Mag es una envoltura espectral de la transformada discreta de Fourier (DFT) creada a
    partir de los coeficientes de filtro de LP, Ap, de la trama actual; y
    DFTSum es la suma de los primeros 40 elementos del vector mag, excluyendo el primer
    elemento (mag(0)) del vector mag.
    5 19. Un codificador según la reivindicación 14, en el cual el módulo de selección de la segunda etapa está configurado de forma tal que, si se ha seleccionado la modalidad incierta en el módulo de selección de la primera etapa, el módulo de selección de la segunda etapa selecciona una entre la excitación de predicción lineal excitada de código algebraico y la excitación codificada por transformación, según un tercer algoritmo.
    10
  16. 20. Un codificador según la reivindicación 19, en el cual el tercer algoritmo comprende: detectar una señal de audio activa y, en ese caso, efectuar la siguiente operación:
    15
    20
    25
    30
    imagen1
    en la que
    SDn es la distancia espectral de la trama n; y LagDifbuf es el almacén temporal que contiene los valores de desfase de bucle abierto de
    las anteriores; Lagn contiene dos valores de desfase de bucle abierto de la trama actual n; Gainn contiene dos valores de ganancia de LTP de la trama actual n; NormCorrn contiene dos valores de correlación normalizados de la trama actual n; NoMtcx es el indicador que indica evitar la excitación TCX con la longitud de trama larga
    (80 ms) si se selecciona el procedimiento de excitación TCX; y MaxEnergybuf es el valor máximo del almacén temporal que contiene valores de energía.
  17. 21.
    Un codificador según la reivindicación 14, en el cual dicho segundo conjunto de parámetros comprende al menos uno entre parámetros espectrales, parámetros de predicción a largo plazo y parámetros de correlación asociados a la trama.
  18. 22.
    Un codificador según la reivindicación 14, que comprende adicionalmente:
    un módulo (214) de selección de la tercera etapa, configurado para seleccionar una longitud de la trama a codificar, usando la excitación codificada por transformación, en base a la selección en el módulo (204) de selección de la primera etapa y el módulo (210) de selección de la segunda etapa.
  19. 23.
    Un codificador según la reivindicación 22, en el cual el módulo (214) de selección de la tercera etapa está configurado para seleccionar una longitud de la trama a codificar, en base a una razón entre señal y ruido de la trama.
  20. 24.
    Un codificador según la reivindicación 14, en el cual el codificador comprende un codificador adaptable extendido de múltiples velocidades y banda ancha.
  21. 25.
    Un codificador según la reivindicación 14, en el cual la trama comprende una trama de audio que comprende voz o contenido no vocálico, en el que el contenido no vocálico puede comprender música.
  22. 26.
    Un codificador según cualquiera de las reivindicaciones 14 a 25, en el cual dicho primer
    conjunto de parámetros son parámetros de banco de filtros.
  23. 27. Un medio legible por ordenador que comprende un programa de ordenador en el mismo, realizando el programa de ordenador el procedimiento de cualquiera de las reivindicaciones 1 5 a 13.
ES05734033T 2004-04-21 2005-04-19 Codificación de señales. Active ES2349554T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0408856.3A GB0408856D0 (en) 2004-04-21 2004-04-21 Signal encoding
GB0408856 2004-04-21

Publications (1)

Publication Number Publication Date
ES2349554T3 true ES2349554T3 (es) 2011-01-05

Family

ID=32344124

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05734033T Active ES2349554T3 (es) 2004-04-21 2005-04-19 Codificación de señales.

Country Status (18)

Country Link
US (1) US8244525B2 (es)
EP (1) EP1738355B1 (es)
JP (1) JP2007534020A (es)
KR (2) KR20080103113A (es)
CN (1) CN1969319B (es)
AT (1) ATE483230T1 (es)
AU (1) AU2005236596A1 (es)
BR (1) BRPI0510270A (es)
CA (1) CA2562877A1 (es)
DE (1) DE602005023848D1 (es)
ES (1) ES2349554T3 (es)
GB (1) GB0408856D0 (es)
HK (1) HK1104369A1 (es)
MX (1) MXPA06011957A (es)
RU (1) RU2006139793A (es)
TW (1) TWI275253B (es)
WO (1) WO2005104095A1 (es)
ZA (1) ZA200609627B (es)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2566368A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
JP5113049B2 (ja) * 2005-07-29 2013-01-09 エルジー エレクトロニクス インコーポレイティド 符号化されたオーディオ信号の生成方法及びオーディオ信号の処理方法
JP2009524101A (ja) * 2006-01-18 2009-06-25 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
WO2007119135A2 (en) * 2006-04-19 2007-10-25 Nokia Corporation Modified dual symbol rate for uplink mobile communications
JP4847246B2 (ja) * 2006-07-31 2011-12-28 キヤノン株式会社 通信装置、通信装置の制御方法、及び当該制御方法をコンピュータに実行させるためのコンピュータプログラム
PT2102619T (pt) * 2006-10-24 2017-05-25 Voiceage Corp Método e dispositivo para codificação de tramas de transição em sinais de voz
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
JP4410792B2 (ja) * 2006-12-21 2010-02-03 株式会社日立コミュニケーションテクノロジー 暗号化装置
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
US8982744B2 (en) * 2007-06-06 2015-03-17 Broadcom Corporation Method and system for a subband acoustic echo canceller with integrated voice activity detection
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
WO2009038422A2 (en) * 2007-09-20 2009-03-26 Lg Electronics Inc. A method and an apparatus for processing a signal
US8050932B2 (en) 2008-02-20 2011-11-01 Research In Motion Limited Apparatus, and associated method, for selecting speech COder operational rates
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
KR20100007738A (ko) * 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
KR101297026B1 (ko) * 2009-05-19 2013-08-14 광운대학교 산학협력단 Mdct―tcx 프레임과 celp 프레임 간 연동을 위한 윈도우 처리 장치 및 윈도우 처리 방법
CN101615910B (zh) * 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
US20110040981A1 (en) * 2009-08-14 2011-02-17 Apple Inc. Synchronization of Buffered Audio Data With Live Broadcast
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) * 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CA3093517C (en) 2010-07-02 2021-08-24 Dolby International Ab Audio decoding with selective post filtering
AR085895A1 (es) 2011-02-14 2013-11-06 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio
CN103493129B (zh) * 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
ES2535609T3 (es) 2011-02-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio con estimación de ruido de fondo durante fases activas
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
EP4243017A3 (en) 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
CN104321815B (zh) * 2012-03-21 2018-10-16 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
US8645128B1 (en) * 2012-10-02 2014-02-04 Google Inc. Determining pitch dynamics of an audio signal
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
MY177336A (en) * 2013-01-29 2020-09-12 Fraunhofer Ges Forschung Concept for coding mode switching compensation
US9147397B2 (en) * 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
EP4336500A3 (en) 2014-04-17 2024-04-03 VoiceAge EVS LLC Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
CN107424621B (zh) * 2014-06-24 2021-10-26 华为技术有限公司 音频编码方法和装置
CN106448688B (zh) * 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
SG11201509526SA (en) * 2014-07-28 2017-04-27 Fraunhofer Ges Forschung Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
CN107210824A (zh) 2015-01-30 2017-09-26 美商楼氏电子有限公司 麦克风的环境切换
CN105242111B (zh) * 2015-09-17 2018-02-27 清华大学 一种采用类脉冲激励的频响函数测量方法
CN111739543B (zh) * 2020-05-25 2023-05-23 杭州涂鸦信息技术有限公司 音频编码方法的调试方法及其相关装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
FI101439B1 (fi) * 1995-04-13 1998-06-15 Nokia Telecommunications Oy Transkooderi, jossa on tandem-koodauksen esto
JP2882463B2 (ja) * 1995-11-01 1999-04-12 日本電気株式会社 Vox判定装置
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
EP0932141B1 (en) 1998-01-22 2005-08-24 Deutsche Telekom AG Method for signal controlled switching between different audio coding schemes
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US7139700B1 (en) * 1999-09-22 2006-11-21 Texas Instruments Incorporated Hybrid speech coding and system
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
FR2825826B1 (fr) * 2001-06-11 2003-09-12 Cit Alcatel Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
KR100477701B1 (ko) * 2002-11-07 2005-03-18 삼성전자주식회사 Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US7120576B2 (en) * 2004-07-16 2006-10-10 Mindspeed Technologies, Inc. Low-complexity music detection algorithm and system

Also Published As

Publication number Publication date
AU2005236596A1 (en) 2005-11-03
JP2007534020A (ja) 2007-11-22
ZA200609627B (en) 2008-09-25
RU2006139793A (ru) 2008-05-27
CN1969319A (zh) 2007-05-23
ATE483230T1 (de) 2010-10-15
CN1969319B (zh) 2011-09-21
GB0408856D0 (en) 2004-05-26
HK1104369A1 (en) 2008-01-11
KR20070001276A (ko) 2007-01-03
MXPA06011957A (es) 2006-12-15
US20050240399A1 (en) 2005-10-27
US8244525B2 (en) 2012-08-14
KR20080103113A (ko) 2008-11-26
TW200605518A (en) 2006-02-01
TWI275253B (en) 2007-03-01
CA2562877A1 (en) 2005-11-03
WO2005104095A1 (en) 2005-11-03
DE602005023848D1 (de) 2010-11-11
EP1738355A1 (en) 2007-01-03
BRPI0510270A (pt) 2007-10-30
EP1738355B1 (en) 2010-09-29

Similar Documents

Publication Publication Date Title
ES2349554T3 (es) Codificación de señales.
ES2337270T3 (es) Clasificacion de señales audio.
US7747430B2 (en) Coding model selection
US9653088B2 (en) Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
RU2331933C2 (ru) Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
EP1141947B1 (en) Variable rate speech coding
JP5037772B2 (ja) 音声発話を予測的に量子化するための方法および装置
ES2302754T3 (es) Procedimiento y aparato para codificacion de habla sorda.
ES2297578T3 (es) Procedimiento y aparato para submuestrear informacion del espectro de fase.
MXPA06009370A (es) Seleccion de modelos de codificacion
MXPA06009369A (es) Clasificacion de señales de audio