ES2337270T3 - Clasificacion de señales audio. - Google Patents

Clasificacion de señales audio. Download PDF

Info

Publication number
ES2337270T3
ES2337270T3 ES05708203T ES05708203T ES2337270T3 ES 2337270 T3 ES2337270 T3 ES 2337270T3 ES 05708203 T ES05708203 T ES 05708203T ES 05708203 T ES05708203 T ES 05708203T ES 2337270 T3 ES2337270 T3 ES 2337270T3
Authority
ES
Spain
Prior art keywords
excitation
subbands
block
signal
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05708203T
Other languages
English (en)
Inventor
Janne Vainio
Hannu Mikkola
Pasi Ojala
Jari Makinen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of ES2337270T3 publication Critical patent/ES2337270T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Stereophonic System (AREA)

Abstract

Un codificador (200) que comprende una entrada (201) para el ingreso de tramas de una señal de audio en una banda de frecuencia, al menos un primer bloque (206) de excitación para llevar a cabo una primera excitación para una señal de audio similar al habla, y un segundo bloque (207) de excitación para llevar a cabo una segunda excitación para una señal de audio similar a la música, caracterizado porque el codificador (200) comprende adicionalmente un filtro (300) para dividir la banda de frecuencia en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y un bloque (203) de selección de excitación para seleccionar un bloque de excitación entre al menos dicho primer bloque (206) de excitación y dicho segundo bloque (207) de excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas.

Description

Clasificación de señales de audio.
Campo de la invención
La invención se refiere a la codificación de habla y audio, en la cual la modalidad de codificación cambia según que la señal de entrada sea una señal similar al habla o la música. La presente invención se refiere a un codificador que comprende una entrada para ingresar tramas de una señal de audio en una banda de frecuencia, al menos un primer bloque de excitación, para llevar a cabo una primera excitación para una señal de audio similar a la del habla, y un segundo bloque de excitación para llevar a cabo una segunda excitación, para una señal de audio, no de habla. La invención también se refiere a un dispositivo que comprende un codificador, que comprende una entrada para ingresar tramas de una señal de audio en una banda de frecuencia, al menos un primer bloque de excitación para llevar a cabo una primera excitación, para una señal de audio similar al habla, y un segundo bloque de excitación para llevar a cabo una segunda excitación para una señal de audio no de habla. La invención también se refiere a un sistema que comprende un codificador, que comprende una entrada para ingresar tramas de una señal de audio en una banda de frecuencia, al menos un primer bloque de excitación para llevar a cabo una primera excitación para una señal de audio similar al habla, y un segundo bloque de excitación para llevar a cabo una segunda excitación, para una señal de audio no de habla. La invención se refiere adicionalmente a un procedimiento para comprimir señales de audio en una banda de frecuencia, en la cual se utiliza una primera excitación para una señal de audio similar al habla, y una segunda excitación se utiliza para una señal de audio no de habla. La invención se refiere a un módulo para clasificar tramas de una señal de audio en una banda de frecuencia, para la selección de una excitación entre al menos una primera excitación para una señal de audio similar al habla, y una segunda excitación para una señal de audio no de habla. La invención se refiere a un producto de programa de ordenador que comprende etapas ejecutables en una máquina, para comprimir señales de audio en una banda de frecuencia, en el cual se utiliza una primera excitación para una señal de audio similar al habla, y se utiliza una segunda excitación para una señal de audio no de habla.
Antecedentes de la invención
En muchas aplicaciones de procesamiento de audio, las señales de audio se comprimen para reducir los requisitos de potencia de procesamiento al procesar la señal de audio. Por ejemplo, en sistemas de comunicación digital, la señal de audio se captura, habitualmente, como una señal analógica, se digitaliza en un convertidor de analógico a digital (A/D), y se codifica luego antes de la transmisión por una interfaz aérea inalámbrica entre un equipo de usuario, tal como una estación móvil, y una estación base. El propósito de la codificación es comprimir la señal digitalizada y transmitirla por la interfaz aérea, con la cantidad mínima de datos, manteniendo a la vez un nivel aceptable de calidad de señal. Esto es especialmente importante, ya que la capacidad del canal de radio, por la interfaz aérea inalámbrica, está limitada en una red de comunicación celular. También hay aplicaciones en las cuales la señal de audio digitalizada se almacena en un medio de almacenamiento para la reproducción posterior de la señal de audio.
La compresión puede ser con pérdida o sin pérdida. En la compresión con pérdida se pierde alguna información durante la compresión, en donde no es posible reconstruir totalmente la señal original a partir de la señal comprimida. En la compresión sin pérdida, normalmente, no se pierde ninguna información. Por ello, la señal original puede usualmente reconstruirse completamente a partir de la señal comprimida.
La señal terminal de audio se concibe normalmente como una señal que contiene habla, música (no habla), o ambas. La distinta naturaleza del habla y de la música dificulta en cierto grado diseñar un algoritmo de compresión que funcione lo bastante bien tanto para el habla como la música, p. ej., el documento de E. Paksoy et al., "Variable Rate Speech Coding With Phonetic Segmentation" ["Codificación del Habla de Velocidad Variable Con Segmentación Fonética"], Proc. of ICASSP, New York, EE UU, 1993, revela una clasificación de habla/no habla de un códec de habla de velocidad variable. Por lo tanto, el problema se resuelve a menudo diseñando distintos algoritmos tanto para la música como para el habla, y utilizando alguna clase de procedimiento de reconocimiento, para reconocer si la señal de audio es similar al habla o similar a la música, y seleccionar el algoritmo adecuado según el reconocimiento.
En general, distinguir simplemente entre señales de habla, y de música, y no vocales, es una tarea difícil. La precisión requerida depende en gran medida de la aplicación. En algunas aplicaciones la precisión es más crítica, como en el reconocimiento de voz, o en el archivo exacto con fines de almacenamiento y recuperación. Sin embargo, la situación es un poco distinta si la clasificación se emplea para seleccionar el procedimiento óptimo de compresión para la señal de entrada. En este caso, puede ocurrir que no exista un procedimiento de compresión que sea siempre óptimo para el habla y otro procedimiento que sea siempre óptimo para la música y las señales no vocales. En la práctica, puede ser que un procedimiento de compresión para entidades transitorias del habla sea también muy eficiente para entidades transitorias de la música. También es posible que una compresión musical para componentes tonales fuertes pueda ser buena para segmentos de habla vocalizados. Así, en estos casos, los procedimientos para clasificar simplemente entre habla y música no crean el algoritmo más óptimo para seleccionar el mejor procedimiento de compresión.
A menudo el habla puede considerarse como limitada a una banda entre, aproximadamente, 200 Hz y 3400 Hz. La tasa típica de muestreo utilizada por un convertidor A/D (analógico a digital), para convertir una señal analógica de habla en una señal digital es bien de 8 kHz o bien de 16 kHz. La música o las señales no vocales pueden contener componentes de frecuencia bien por encima del ancho de banda del habla normal. En algunas aplicaciones, el sistema de audio debería poder asimilar una banda de frecuencias entre alrededor de 20 Hz y 20.000 kHz. La velocidad de muestreo para esa clase de señales debería ser de al menos 40.000 kHz, para evitar la generación de alias. Debería observarse aquí que los valores anteriormente mencionados son sólo ejemplos no limitadores. Por ejemplo, en algunos sistemas el límite superior para señales de música puede ser de alrededor de 10.000 kHz, o incluso menos de eso.
La señal digital muestreada se codifica luego, usualmente trama a trama, dando como resultado un flujo de datos digitales con una tasa de bits que está determinada por un códec utilizado para la codificación. Cuanto mayor sea la tasa de bits, más datos se codifican, lo que da como resultado una representación más precisa de la trama de entrada. La señal de audio codificada puede descodificarse luego, y pasar a través de un convertidor de digital a analógico (D/A) para reconstruir una señal que esté tan cerca de la señal original como sea posible.
Un códec ideal codificará la señal de audio con tan pocos bits como sea posible, optimizando por ello la capacidad del canal, produciendo a la vez una señal de audio descodificada que suene tan similar a la señal de audio original como sea posible. En la práctica, hay habitualmente una compensación entre la tasa de bits del códec y la calidad del audio descodificado.
Actualmente hay numerosos códecs distintos, tales como el códec adaptable de velocidades múltiples (AMR) y el códec adaptable de velocidades múltiples y banda ancha (AMR-WB), que están desarrollados para comprimir y codificar señales de audio. El códec AMR fue desarrollado por el Proyecto de Asociación de 3ª Generación (3GPP) para las redes de comunicación GSM/EDGE y WCDMA. Además, también se ha vislumbrado que el códec AMR se utilizará en redes conmutadas por paquetes. El códec AMR se basa en la codificación de Predicción Lineal Excitada de Código Algebraico (ACELP). Los códecs de AMR y AMR WB consisten en 8 y 9 tasas activas de bits, respectivamente, y también incluyen funcionalidad de detección de actividad vocal (VAD) y de transmisión discontinua (DTX). De momento, la tasa de muestreo en el códec AMR es de 8 kHz, y en el códec AMR WB la tasa de muestreo es de 16 kHz. Es obvio que los códecs y las tasas de muestreo anteriormente mencionadas son sólo ejemplos no limitadores.
La codificación ACELP funciona utilizando un modelo de cómo se genera la fuente de la señal, y extrae de la señal los parámetros del modelo. Más específicamente, la codificación ACELP se basa en un modelo del sistema vocal humano, donde la garganta y la boca se modelizan como un filtro lineal, y el habla se genera por una vibración periódica del aire que excita el filtro. El habla es analizada trama a trama por el codificador y, para cada trama, un conjunto de parámetros que representa el habla modelizada es generado y emitido por el codificador. El conjunto de parámetros puede incluir parámetros de excitación y los coeficientes para el filtro, así como otros parámetros. La salida de un codificador del habla se denomina con frecuencia una representación paramétrica de la señal vocálica de entrada. El conjunto de parámetros es utilizado luego por un descodificador debidamente configurado para regenerar la señal de voz de entrada.
Para algunas señales de entrada, la excitación ACELP, similar a un pulso, genera una mayor calidad y, para algunas señales de entrada, la excitación codificada por transformación (TCX) es mejor. Se supone aquí que la excitación ACELP se emplea mayormente para el típico contenido vocal como una señal de entrada, y la excitación TCX se emplea mayormente para música típica como una señal de entrada. Sin embargo, no siempre es este el caso, es decir, algunas veces la señal del habla tiene partes que son similares a la música, y la señal de música tiene partes que son similares al habla. La definición de una señal similar al habla, en esta aplicación, es que la mayor parte del habla pertenece a esta categoría, y algo de la música también puede pertenecer a esta categoría. Para las señales similares a la música, la definición es la contraria. Además, hay algunas partes de señales de habla y partes de señales de música que son neutrales, en el sentido de que pueden pertenecer a ambas clases.
La selección de la excitación puede hacerse de varias maneras: el procedimiento más complejo, y uno bastante bueno, es codificar tanto la excitación ACELP como la TCX, y seleccionar luego la mejor excitación sobre la base de la señal de habla sintetizada. Este tipo de procedimiento, de análisis por síntesis, brindará buenos resultados pero, en algunas aplicaciones, no es práctico, debido a su alta complejidad. En este procedimiento, por ejemplo, puede emplearse al tipo SNR de algoritmo para medir la calidad producida por ambas excitaciones. Este procedimiento puede llamarse un procedimiento de "fuerza bruta", porque prueba todas las combinaciones de distintas excitaciones y selecciona después la mejor. El procedimiento menos complejo llevaría a cabo la síntesis sólo una vez, analizando las propiedades de la señal de antemano y seleccionando luego la mejor excitación. El procedimiento también puede ser una combinación de selección previa y "fuerza bruta", para llegar a un compromiso entre la calidad y la complejidad.
La Figura 1 presenta un codificador simplificado 100, con clasificación de alta complejidad de la tecnología anterior. Una señal de audio ingresa al bloque 101 de señales de entrada, en el cual la señal es digitalizada y filtrada. El bloque 101 de señales de entrada también forma tramas a partir de la señal digitalizada y filtrada. Las tramas ingresan a un bloque 102 de análisis de codificación de predicción lineal (LPC). Efectúa un análisis de LPC sobre la señal de entrada digitalizada, trama a trama, para hallar el conjunto de parámetros que se corresponda mejor con la señal de entrada. Los parámetros determinados (parámetros LPC) se cuantizan y se emiten 109 desde el codificador 100. El codificador 100 también genera dos señales de salida con los bloques 103, 104 de síntesis LPC. El primer bloque 103 de síntesis LPC utiliza una señal generada por el bloque 105 de excitación TCX para sintetizar la señal de audio a fin de hallar el vector de códigos que genera el mejor resultado para la excitación TCX. El segundo bloque 104 de síntesis LPC utiliza una señal generada por el bloque 106 de excitación ACELP para sintetizar la señal de audio, a fin de hallar el vector de códigos que genera el mejor resultado para la excitación ACELP. En el bloque 107 de selección de excitación, las señales generadas por los bloques 103, 104 de síntesis LPC se comparan para determinar cuál de los procedimientos de excitación brindan la mejor (óptima) excitación. La información acerca del procedimiento de excitación seleccionado y los parámetros de la señal de excitación seleccionada, por ejemplo, se cuantizan y se codifican 108 por canal antes de emitir 109 las señales desde el codificador 100 para su transmisión.
Resumen de la invención
Un objetivo de la presente invención es proporcionar un procedimiento mejorado para clasificar las señales similares al habla y similares a la música, utilizando información de frecuencia de la señal. Hay segmentos de señal de habla similares a la música, y viceversa, y hay segmentos de señal en el habla y en la música que pueden pertenecer a cualquiera de las clases. En otras palabras, la invención no distingue nítidamente entre habla y música. Sin embargo, define medios para categorizar la señal de entrada en componentes similares a la música y similares al habla, según algunos criterios. La información de clasificación puede utilizarse, p. ej., en un codificador multimodal para seleccionar una modalidad de codificación.
La invención, según lo definido por las reivindicaciones, se basa en la idea de que la señal de entrada se divide en varias bandas de frecuencia, y las relaciones entre las bandas de frecuencia inferiores y superiores se analizan junto con las variaciones del nivel de energía en esas bandas, y la señal se clasifica como similar a la música o similar al habla, sobre la base tanto de las mediciones calculadas, o de diversas combinaciones distintas de esas mediciones, utilizando distintas ventanas de análisis, como de valores de umbral de decisión. Esta información puede utilizarse luego, por ejemplo, en la selección del procedimiento de compresión para la señal analizada.
El codificador según la presente invención se caracteriza principalmente porque el codificador comprende adicionalmente un filtro para dividir la banda de frecuencia en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y un bloque de selección de excitación para seleccionar un bloque de excitación entre al menos dicho primer bloque de excitación y dicho segundo bloque de excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio, al menos en una dichas subbandas.
El dispositivo según la presente invención se caracteriza principalmente porque dicho codificador comprende un filtro para dividir la banda de frecuencia en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y porque el dispositivo también comprende un bloque de selección de excitación para seleccionar un bloque de excitación al menos entre dicho primer bloque de excitación y dicho segundo bloque de excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio en al menos una de dichas subbandas.
El sistema según la presente invención se caracteriza principalmente porque dicho codificador comprende adicionalmente un filtro para dividir la banda de frecuencia en una pluralidad de subbandas, teniendo cada una de ellas un ancho de banda más estrecho que dicha banda de frecuencia, y porque el sistema también comprende un bloque de selección de excitación para seleccionar un bloque de excitación al menos entre dicho primer bloque de excitación y dicho segundo bloque de excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio en al menos una de dichas subbandas.
El procedimiento según la presente invención se caracteriza principalmente porque la banda de frecuencia se divide en una pluralidad de subbandas, teniendo cada una de ellas un ancho de banda más estrecho que dicha banda de frecuencia, y porque se selecciona una excitación entre al menos dicha primera excitación y dicha segunda excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio en al menos una de dichas subbandas.
El módulo según la presente invención se caracteriza principalmente porque el módulo comprende adicionalmente una entrada para ingresar información indicadora de la banda de frecuencia, dividida en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y un bloque de selección de excitación para seleccionar un bloque de excitación entre al menos dicho primer bloque de excitación y dicho segundo bloque de excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio en al menos una de dichas subbandas.
El producto de programa de ordenador según la presente invención se caracteriza principalmente porque el producto de programa de ordenador comprende adicionalmente etapas ejecutables por una máquina para dividir la banda de frecuencia en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, etapas ejecutables por una máquina para seleccionar una excitación entre al menos dicha primera excitación y dicha segunda excitación, sobre la base de las propiedades de la señal de audio para al menos una de dichas subbandas, para llevar a cabo la excitación para una trama de la señal de audio.
En esta aplicación, los términos "similar al habla" y "similar a la música" se definen para separar la invención de las típicas clasificaciones de habla y música. Incluso si alrededor del 90% del habla se categorizara como similar al habla en un sistema según la presente invención, el resto de la señal de habla puede definirse como una señal similar a la música, lo que puede mejorar la calidad del audio si la selección del algoritmo de compresión se basa en esta clasificación. Además, las típicas señales musicales pueden coincidir, en el 80-90% de los casos, con señales similares a la música, pero la clasificación de parte de la señal musical en la categoría similar al habla mejorará la calidad de la señal sonora para el sistema de compresión. Por lo tanto, la presente invención proporciona ventajas cuando se compara con procedimientos y sistemas de la tecnología anterior. Utilizando el procedimiento de clasificación según la presente invención, es posible mejorar la calidad del sonido reproducido sin afectar en gran medida la eficiencia de la compresión.
En comparación con el enfoque de fuerza bruta anteriormente presentado, la invención proporciona un enfoque mucho menos complejo del tipo de preselección, para realizar la selección entre dos tipos de excitación. La invención divide la señal de entrada en bandas de frecuencia y analiza las relaciones entre las bandas de frecuencias inferiores y superiores entre sí, y también puede utilizar, por ejemplo, las variaciones del nivel de energía en dichas bandas, y clasifica la señal en señales similares a la música y señales similares al habla.
Descripción de los dibujos
La Fig. 1 presenta un codificador simplificado con clasificación de alta complejidad de la tecnología anterior,
La Fig. 2 presenta una realización ejemplar de un codificador con una clasificación según la invención,
La Fig. 3 ilustra un ejemplo de una estructura de banco filtrador de VAD en el algoritmo de VAD del AMR - WB,
La Fig. 4 muestra un ejemplo de la graficación de una desviación estándar de niveles de energía en bancos filtradores de VAD, como una función de la relación entre componentes de baja y alta energía en una señal musical,
La Fig. 5 muestra un ejemplo de una graficación de la desviación estándar de los niveles de energía en bancos de filtrado de VAD como una función de la relación entre los componentes de baja y alta energía en una señal de habla,
La Fig. 6 muestra un ejemplo de una graficación combinada para señales tanto de música como de habla, y
La Fig. 7 muestra un ejemplo de un sistema según la presente invención.
Descripción detallada de la invención
En lo siguiente se describirá en más detalle un codificador 200 según una realización ejemplar de la presente invención, con referencia a la Fig. 2. El codificador 200 comprende un bloque 201 de entrada para digitalizar, filtrar y entramar la señal de entrada cuando sea necesario. Aquí debería observarse que la señal de entrada ya puede estar en una forma adecuada para el proceso de codificación. Por ejemplo, la señal de entrada puede haber sido digitalizada en una etapa anterior, y almacenada en un medio de memoria (no mostrado). Las tramas de señales de entrada se ingresan a un bloque 202 de detección de actividad vocal. El bloque 202 de detección de actividad vocal emite una multiplicidad de señales de banda más estrecha, que se ingresan a un bloque 203 de selección de excitación. El bloque 203 de selección de excitación analiza las señales para determinar qué procedimiento de excitación es el más adecuado para codificar la señal de entrada. El bloque 203 de selección de excitación produce una señal 204 de control para controlar un medio 205 de selección, según la determinación del procedimiento de excitación. Si se determinó que el mejor procedimiento de excitación para codificar la trama actual de la señal de entrada es un primer procedimiento de excitación, los medios 205 de selección se controlan para seleccionar la señal de un primer bloque 206 de excitación. Si se determinó que el mejor procedimiento de excitación para codificar la trama actual de la señal de entrada es un segundo procedimiento de excitación, los medios 205 de selección se controlan para seleccionar la señal de un segundo bloque 207 de excitación. Aunque el codificador de la Fig. 2 sólo tiene el primer bloque 206 y el segundo bloque 207 de excitación para el proceso de codificación, es obvio que también puede haber más de dos bloques distintos de excitación para distintos procedimientos de excitación disponibles en el codificador 200, para ser utilizados en la codificación de la señal de entrada.
El primer bloque 206 de excitación produce, por ejemplo, una señal de excitación TCX, y el segundo bloque 207 de excitación produce, por ejemplo, una señal de excitación ACELP.
El bloque 208 de análisis LPC realiza un análisis LPC sobre la señal de entrada digitalizada, trama a trama, para hallar aquel conjunto de parámetros que mejor coincida con la señal de entrada.
Los parámetros LPC 210 y los parámetros 211 de excitación, por ejemplo, se cuantizan y codifican en un bloque 212 de cuantización y codificación antes de la transmisión, p. ej., a una red 704 de comunicación (Fig. 7). Sin embargo, no es necesario transmitir los parámetros, sino que, por ejemplo, pueden almacenarse en un medio de almacenamiento y recuperarse en una etapa posterior para su transmisión y/o descodificación.
La Fig. 3 ilustra un ejemplo de un filtro 300 que puede utilizarse en el codificador 200 para el análisis de señales. El filtro 300 es, por ejemplo, un banco de filtrado del bloque de detección de actividad vocal del códec AMR-WB, en el cual no se necesita un filtro por separado, pero también es posible utilizar otros filtros con este fin. El filtro 300 comprende dos o más bloques 301 de filtrado, para dividir la señal de entrada en dos o más señales de subbanda en distintas frecuencias. En otras palabras, cada señal de salida del filtro 300 representa una cierta banda de frecuencia de la señal de entrada. Las señales de salida del filtro 300 pueden utilizarse en el bloque 203 de selección de excitación para determinar el contenido de frecuencia de la señal de entrada.
El bloque 203 de selección de excitación evalúa los niveles de energía de cada salida del banco 300 de filtrado y analiza las relaciones entre las subbandas de frecuencia inferior y superior, junto con las variaciones del nivel de energía en esas subbandas, y clasifica la señal en musical o vocal.
La invención se basa en examinar el contenido de frecuencia de la señal de entrada para seleccionar el procedimiento de excitación para las tramas de la señal de entrada. En lo que sigue, se emplea la extensión de AMR-WB (AMR-WB+) como un ejemplo práctico, utilizado para clasificar la señal de entrada en señales vocales o musicales, y para seleccionar, respectivamente, bien la excitación ACELP o bien la TCX para esas señales. Sin embargo, la invención no se limita a los códecs AMR-WB o a los procedimientos de excitación ACELP y TCX.
En el códec AMR-WB extendido (AMR-WB+), hay dos tipos de excitación para la síntesis LP: excitación ACELP por pulsos y excitación codificada transformada (TCX). La excitación ACELP es la misma que la utilizada ya en el estándar AMR-WB original del 3GPP (3GPP TS 26.190) y TCX es una mejora implementada en el AMR-WB extendido.
El ejemplo de extensión del AMR-WB se basa en los bancos de filtrado de VAD del AMR-WB, que, para cada trama de entrada de 20 ms, produce energía E(n) de señal en las 12 subbandas sobre la gama de frecuencias entre 0 y 6400 Hz, según se muestra en la Fig. 3. Los anchos de banda de los bancos de filtrado, normalmente, no son iguales, pero pueden variar sobre bandas distintas, como puede verse en la Fig. 3. También el número de subbandas puede variar, y las subbandas pueden estar solapándose parcialmente. Luego, los niveles de energía de cada subbanda se normalizan dividiendo el nivel (E(n) de energía de cada subbanda entre el ancho de esa subbanda (en Hz), produciendo niveles normalizados de energía EN(n) de cada banda, donde n es el número de banda entre 0 y 11. El índice 0 se refiere a la menor subbanda mostrada en la Fig. 3.
En el bloque 203 de selección de excitación, se calcula la desviación estándar de los niveles de energía para cada una de las 12 subbandas, utilizando, p. ej., dos ventanas: una ventana corta stdcorta(n) y una ventana larga stdlarga(n). Para el caso AMR-WB+, la longitud de la ventana corta es de 4 tramas y la ventana larga tiene 16 tramas. En estos cálculos, se utilizan los 12 niveles de energía de la trama actual junto con las 3 o 15 tramas anteriores, para deducir estos dos valores de desviación estándar. La característica especial de este cálculo es que sólo se lleva a cabo cuando el bloque 202 de detección de actividad vocal indica 213 habla activa. Esto hará que el algoritmo reaccione más rápidamente, especialmente después de largas pausas de voz.
Luego, para cada trama, se toma la desviación estándar promedio sobre todos los 12 bancos de filtrado, tanto para la ventana larga como para la corta, y se crean los valores de desviación estándar promedio stdpcorta y stdplarga.
Para tramas de la señal de audio, también se calcula una relación entre las bandas de frecuencia inferior y las bandas de frecuencia superior. En el AMR-WB+ se toma la energía de las subbandas de frecuencia inferior LevL entre 1 y 7, y se normaliza dividiéndola entre la longitud (ancho de banda) de estas subbandas (en Hz). Para bandas de frecuencia mayor, entre 8 y 11, su energía se toma y se normaliza, respectivamente, para crear LevH. Obsérvese que en esta realización ejemplar la subbanda inferior 0 no se emplea en estos cálculos, porque usualmente contiene tanta energía que distorsionará los cálculos, y hará que las contribuciones de otras subbandas sean demasiado pequeñas. A partir de estas mediciones se define la relación LPH = LevL/LevH. Además, para cada trama se calcula un promedio móvil LPHa, utilizando los valores de LPH actual y los 3 anteriores. Después de estos cálculos se calcula una medición de la relación LPHaF entre la baja y la alta frecuencia para la trama actual, utilizando la suma ponderada de los valores actuales y los 7 más allá del promedio móvil LPHa, fijando una ponderación levemente mayor para los valores más recientes.
También es posible implementar la presente invención de forma tal que sólo se analicen una, o unas pocas, de las subbandas disponibles.
También se calcula el nivel promedio AVL de los bloques 301 de filtrado para la trama actual, restando el nivel estimado del ruido de fondo a cada salida de bloque de filtrado, y sumando estos niveles, multiplicados por la mayor frecuencia del correspondiente bloque 301 de filtrado, para equilibrar las subbandas de alta frecuencia que contengan relativamente menos energía que las subbandas de menor frecuencia.
También se calcula la energía total de la trama actual, TotE0, de todos los bloques 301 de filtrado, decrementada en la estimación del ruido de fondo de cada banco 301 de filtrado.
Después de calcular estas mediciones, se escoge entre la excitación ACELP y la TCX, utilizando, por ejemplo, el siguiente procedimiento. En lo que sigue se supone que cuando se activa un indicador, se desactivan otros indicadores, para impedir conflictos. En primer lugar, se compara el valor de la desviación estándar promedio para la ventana larga, stdplarga, con un primer valor TH1 de umbral, por ejemplo, 0,4. Si el valor stdplarga de desviación estándar es menor que el primer valor TH1 de umbral, se activa un indicador de MODALIDAD TCX. En caso contrario, se compara la medición calculada de la relación LPHaF entre frecuencia baja y alta con un segundo valor TH2 de umbral, por ejemplo, 280.
Si la medición calculada de la relación LPHaF entre frecuencias bajas y altas es mayor que el segundo valor TH2 de umbral, se activa el indicador MODALIDAD TCX. En caso contrario, se calcula una inversa del valor stdplarga de desviación estándar, decrementado en el primer valor TH1 de umbral, y se suma una primera constante C1, por ejemplo 5, al valor inverso calculado. La suma se compara con la medición calculada de la relación LPHaF entre frecuencias baja y alta:
(1)C1 + (1 / (stdplarga - TH1)) > LPHaF
Si el resultado de la comparación es cierto, se activa el indicador MODALIDAD TCX. Si el resultado de la comparación no es cierto, el valor stdplargo de desviación estándar se multiplica por un primer multiplicando M1 (p. ej., -90) y se añade una segunda constante C2 (p. ej., 120) al resultado de la multiplicación. La suma se compara con la medición calculada de la relación LPHaF de frecuencias baja y alta:
(2)M1 * stdplarga + C2 < LPHaF
Si la suma es más pequeña que la medición calculada de la relación LPHaF de frecuencias baja y alta, se activa un indicador de MODALIDAD ACELP. En caso contrario, se activa un indicador de MODALIDAD INCIERTA, que indica que el procedimiento de excitación no pudo seleccionarse aún para la trama actual.
Se efectúa un examen adicional después de las etapas anteriormente descritas, antes de que se seleccione el procedimiento de excitación para la trama actual. En primer lugar, se examina si está activado el indicador de MODALIDAD ACELP o bien el de MODALIDAD INCIERTA, y si el nivel AVL promedio calculado de los bancos 301 de filtrado para la trama actual es mayor que un tercer valor TH3 de umbral (p. ej., 2000), se activa allí el indicador MODALIDAD TCX, y se desactivan los indicadores de MODALIDAD ACELP y de MODALIDAD INCIERTA.
A continuación, si el indicador de MODALIDAD INCIERTA está activado, se realizan evaluaciones similares, para el valor stdpcorta de desviación estándar promedio para la ventana corta, a las realizadas anteriormente para el valor stdplarga de la desviación estándar promedio para la ventana larga, pero utilizando valores levemente distintos para las constantes y umbrales en las comparaciones. Si el valor stdpcorta de desviación estándar promedio para la ventana corta es menor que un cuarto valor TH4 de umbral (p. ej., 0,2), se activa el indicador MODALIDAD TCX. En caso contrario, se calcula una inversa del valor stdpcorta de desviación estándar para la ventana corta, decrementada en el cuarto valor TH4 de umbral, y se suma una tercera constante C3 (p. ej., 2,5) al valor inverso calculado. La suma se compara con la medición calculada de la relación LPHaF de frecuencias baja y alta:
(3)C3 + (1 / (stdpcorta - TH4)) > LPHaF
Si el resultado de la comparación es cierto, se activa el indicador MODALIDAD TCX. Si el resultado de la comparación no es cierto, el valor stdpcorta de desviación estándar se multiplica por un segundo multiplicando M2 (p. ej., -90), y se añade una cuarta constante C4 (p. ej., 140) al resultado de la multiplicación. La suma se compara con la medición calculada de la relación LPHaF de frecuencias baja y alta:
(4)M2 * stdpcorta + C4 < LPHaF
Si la suma es más pequeña que la medición calculada de la relación LPHaF de frecuencias baja y alta, se activa el indicador MODALIDAD ACELP. En caso contrario, se activa el indicador MODALIDAD INCIERTA, que indica que el procedimiento de excitación no pudo seleccionarse aún para la trama actual.
En la próxima etapa se examinan los niveles de energía de la trama actual y de la trama anterior. Si la razón entre la energía total de la trama actual, TotE0, y la energía total de la trama anterior, TotE-1, es mayor que un quinto valor TH5 de umbral (p. ej., 25), se activa el indicador MODALIDAD ACELP, y se desactivan los indicadores MODALIDAD TCX y MODALIDAD INCIERTA.
Finalmente, si el indicador MODALIDAD TCX o el indicador MODALIDAD INCIERTA está activado, y si el nivel AVL medio calculado de los bancos 301 de filtrado para la trama actual es mayor que el tercer valor TH3 de umbral, y la energía total de la trama actual, TotE0, es menor que un sexto valor TH6 de umbral (p. ej., 60), se activa el indicador MODALIDAD ACELP.
Cuando se lleva a cabo el procedimiento de evaluación anteriormente descrito, se seleccionan el primer procedimiento de excitación y el primer bloque 206 de excitación si el indicador MODALIDAD TCX está activado, o bien se seleccionan el segundo procedimiento de excitación y el segundo bloque 207 de excitación si el indicador MODALIDAD ACELP está activado. Sin embargo, si el indicador MODALIDAD INCIERTA está activado, el procedimiento de evaluación no pudo llevar a cabo la selección. En ese caso se selecciona bien ACELP o TCX, o bien ha de realizarse algún análisis adicional para efectuar la diferenciación.
\newpage
El procedimiento también puede ilustrarse como el siguiente seudo-código:
\vskip1.000000\baselineskip
1
\vskip1.000000\baselineskip
La idea básica detrás de la clasificación se ilustra en las Figuras 4, 5 y 6. La Fig. 4 muestra un ejemplo de un gráfico de la desviación estándar de los niveles de energía en bancos de filtrado de VAD como función de la relación entre los componentes de baja y alta energía en una señal de música. Cada punto corresponde a una trama de 20 ms tomada de la señal musical larga que contiene distintas variaciones de música. La línea A está ajustada para corresponder aproximadamente al límite superior del área de la señal musical, es decir, los puntos al lado derecho de la línea no se consideran como señales musicales en el procedimiento según la presente invención.
Respectivamente, la Fig. 5 muestra un ejemplo de un gráfico de la desviación estándar de niveles de energía en bancos de filtrado de VAD como función de la relación entre los componentes de baja y alta energía en una señal de voz.
\newpage
Cada punto corresponde a una trama de 20 ms tomada de la señal vocal larga que contiene distintas variaciones de habla y distintos hablantes. La curva B está ajustada para indicar aproximadamente el límite inferior del área de señales de voz, es decir, los puntos al lado izquierdo de la curva B no se consideran como de habla en el procedimiento según la presente invención.
Como puede verse en la figura 4, la mayor parte de la señal musical tiene una desviación estándar bastante pequeña y una distribución de frecuencia relativamente pareja sobre las frecuencias analizadas. Para la señal de voz graficada en la figura 5, la tendencia es la contraria, mayores desviaciones estándar y más componentes de baja frecuencia. Poniendo ambas señales en el mismo gráfico en la figura 6, y ajustando las curvas A y B para que coincidan con las fronteras de las regiones para señales tanto de música como de voz, es bastante fácil dividir la mayoría de las señales musicales y la mayoría de las señales de voz en distintas categorías. Las curvas ajustadas A y B en las figuras son las mismas que las presentadas también en el seudo-código adjunto anteriormente. Las imágenes demuestran sólo una única desviación estándar y valores de frecuencia bajos por altos, calculados con ventanas largas. El seudo-código contiene un algoritmo que utiliza dos esquemas distintos de ventanas, utilizando así dos versiones distintas del algoritmo de correspondencia presentado en las Figuras 4, 5 y 6.
El área C limitada por las curvas A y B en la Figura 6 indica el área solapada donde normalmente pueden necesitarse medios adicionales para clasificar señales musicales y vocales. El área C puede hacerse más pequeña utilizando distintas longitudes de las ventanas de análisis para la variación de señales, y combinando estas distintas mediciones como se hace en nuestro ejemplo de seudo-código. Puede permitirse algo de solapamiento, porque algunas de las señales musicales pueden codificarse eficientemente con la compresión optimizada para el habla, y algunas señales vocales pueden codificarse eficientemente con la compresión optimizada para la música.
En el ejemplo presentado anteriormente, se selecciona la mejor excitación ACELP, utilizando el análisis-por-síntesis, y la selección entre la mejor excitación ACELP y la excitación TCX se hace por preseleccion.
Aunque la invención fue presentada anteriormente utilizando dos procedimientos distintos de excitación, es posible utilizar más de dos procedimientos distintos de excitación, y hacer la selección entre ellos para comprimir señales de audio. También es obvio que el filtro 300 puede dividir la señal de entrada en bandas de frecuencia distintas a las presentadas anteriormente, y también el número de bandas de frecuencia puede ser distinto a 12.
La Figura 7 ilustra un ejemplo de un sistema en el cual puede aplicarse la presente invención. El sistema comprende una o más fuentes 701 de audio que producen señales de voz y/o de audio no vocal. Las señales de audio son convertidas en señales digitales por un convertidor A/D 702 cuando es necesario. Las señales digitalizadas se ingresan a un codificador 200 de un dispositivo transmisor 700, en el cual se realiza la compresión según la presente invención. Las señales comprimidas también se cuantizan y se codifican para su transmisión en el codificador 200 cuando es necesario. Un transmisor 703, por ejemplo, un transmisor de un dispositivo 700 de comunicaciones móviles, transmite las señales comprimidas y codificadas a una red 704 de comunicación. Las señales son recibidas, desde la red 704 de comunicación, por un receptor 705 de un dispositivo receptor 706. Las señales recibidas se transfieren desde el receptor 705 a un descodificador 707 para su descodificación, descuantizacion y descompresión. El descodificador 707 comprende el medio 708 de detección para determinar el procedimiento de compresión utilizado en el codificador 200 para una trama actual. El descodificador 707 selecciona, sobre la base de la determinación, un primer medio 709 de descompresión, o un segundo medio 710 de descompresión, para descomprimir la trama actual. Las señales descomprimidas se conectan desde el medio 709, 710 de descompresión con un filtro 711 y un convertidor D/A 712, para convertir la señal digital en una señal analógica. La señal analógica puede transformarse luego en audio, por ejemplo, en un altavoz 713.
La presente invención puede implementarse en distintas clases de sistemas, especialmente en la transmisión a baja velocidad, para lograr una compresión más eficiente que en los sistemas de la tecnología anterior. El codificador 200 según la presente invención puede implementarse en distintas partes de sistemas de comunicaciones. Por ejemplo, el codificador 200 puede implementarse en un dispositivo de comunicación móvil con capacidades limitadas de procesamiento.
Es obvio que la presente invención no está únicamente limitada a las realizaciones anteriormente descritas, sino que puede modificarse dentro del alcance de las reivindicaciones adjuntas.

Claims (50)

  1. \global\parskip0.930000\baselineskip
    1. Un codificador (200) que comprende una entrada (201) para el ingreso de tramas de una señal de audio en una banda de frecuencia, al menos un primer bloque (206) de excitación para llevar a cabo una primera excitación para una señal de audio similar al habla, y un segundo bloque (207) de excitación para llevar a cabo una segunda excitación para una señal de audio similar a la música, caracterizado porque el codificador (200) comprende adicionalmente un filtro (300) para dividir la banda de frecuencia en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y un bloque (203) de selección de excitación para seleccionar un bloque de excitación entre al menos dicho primer bloque (206) de excitación y dicho segundo bloque (207) de excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas.
  2. 2. El codificador (200) según la reivindicación 1, caracterizado porque dicho filtro (300) comprende un bloque (301) de filtrado para producir información que indica las energías (E(n)) de señal de una trama actual de la señal de audio al menos en una subbanda, y porque dicho bloque (203) de selección de excitación comprende medios de determinación de energía para determinar la información de energía de la señal de al menos una subbanda.
  3. 3. El codificador (200) según la reivindicación 2, caracterizado porque están definidos al menos un primero y un segundo grupo de subbandas, conteniendo dicho segundo grupo subbandas de frecuencias mayores que dicho primer grupo, porque está definida una relación (LPH) entre la energía de señal normalizada (LevL) de dicho primer grupo de subbandas y la energía de señal normalizada (LevH) de dicho segundo grupo de subbandas, para las tramas de la señal de audio, y porque dicha relación (LPH) está dispuesta para ser empleada en la selección del bloque (206, 207) de excitación.
  4. 4. El codificador (200) según la reivindicación 3, caracterizado porque una o más subbandas de las subbandas disponibles se dejan fuera de dichos grupos primero y segundo de subbandas.
  5. 5. El codificador (200) según la reivindicación 4, caracterizado porque la subbanda de las menores frecuencias se deja fuera de dichos grupos primero y segundo de subbandas.
  6. 6. El codificador (200) según la reivindicación 3, 4 o 5, caracterizado porque se definen un primer número de tramas y un segundo número de tramas, siendo dicho segundo número mayor que dicho primer número, porque dicho bloque (203) de selección de excitación comprende medios de cálculo para calcular un primer valor (stdpcorta) de desviación estándar promedio utilizando las energías de señal del primer número de tramas, incluyendo la trama actual en cada subbanda, y para calcular un segundo valor (stdplarga) de desviación estándar promedio utilizando las energías de señal del segundo número de tramas, incluyendo la trama actual en cada subbanda.
  7. 7. El codificador (200) según cualquiera de las reivindicaciones 1 a 6, caracterizado porque dicho filtro (300) es un banco de filtrado de un detector (202) de actividad vocal.
  8. 8. El codificador (200) según cualquiera de las reivindicaciones 1 a 7, caracterizado porque dicho codificador (200) es un códec de banda ancha adaptable de múltiples velocidades (AMR-WB).
  9. 9. El codificador (200) según cualquiera de las reivindicaciones 1 a 8, caracterizado porque dicha primera excitación es una excitación de Predicción Lineal Excitada de Código Algebraico (ACELP) y dicha segunda excitación es una excitación codificada de transformación (TCX).
  10. 10. Un dispositivo (700) que comprende un codificador (200) que comprende una entrada (201) para el ingreso de tramas de una señal de audio en una banda de frecuencia, al menos un primer bloque (206) de excitación para llevar a cabo una primera excitación para una señal de audio similar al habla, y un segundo bloque (207) de excitación para llevar a cabo una segunda excitación para una señal de audio similar a la música, caracterizado porque dicho codificador (200) comprende un filtro (300) para dividir la banda de frecuencia en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, porque el dispositivo (700) también comprende un bloque (203) de selección de excitación para seleccionar un bloque de excitación entre al menos dicho primer bloque (206) de excitación y dicho segundo bloque (207) de excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas.
  11. 11. El dispositivo (700) según la reivindicación 10, caracterizado porque dicho filtro (300) comprende un bloque (301) de filtrado para producir información que indica las energías (E(n)) de señal de una trama actual de la señal de audio de al menos una subbanda, y porque dicho bloque (203) de selección de excitación comprende medios de determinación de energía para determinar la información de energía de señal de al menos una subbanda.
  12. 12. El dispositivo (700) según la reivindicación 11, caracterizado porque están definidos al menos un primer y un segundo grupo de subbandas, conteniendo dicho segundo grupo subbandas de mayores frecuencias que dicho primer grupo, porque se define una relación (LPH) entre la energía de señal normalizada (LevL) de dicho primer grupo de subbandas y la energía de señal normalizada (LevH) de dicho segundo grupo de subbandas, para las tramas de la señal de audio, y porque dicha relación (LPH) está dispuesta para ser empleada en la selección del bloque (206, 207) de excitación.
    \global\parskip1.000000\baselineskip
  13. 13. El dispositivo (700) según la reivindicación 12, caracterizado porque una o más subbandas de las subbandas disponibles se dejan fuera de dichos grupos primero y segundo de subbandas.
  14. 14. El dispositivo (700) según la reivindicación 13, caracterizado porque la subbanda de las frecuencias más bajas se deja fuera de dichos grupos primero y segundo de subbandas.
  15. 15. El dispositivo (700) según las reivindicaciones 12, 13 o 14, caracterizado porque se definen un primer número de tramas y un segundo número de tramas, siendo dicho segundo número mayor que dicho primer número, porque dicho bloque (203) de selección de excitación comprende medios de cálculo para calcular un primer valor (stdpcorta) de desviación estándar promedio utilizando energías de señal del primer número de tramas, incluyendo la trama actual en cada subbanda, y para calcular un segundo valor (stdplarga) de desviación estándar promedio utilizando energías de señal del segundo número de tramas, incluyendo la trama actual en cada subbanda.
  16. 16. El dispositivo (700) según cualquiera de las reivindicaciones 10 a 15, caracterizado porque dicho filtro (300) es un banco de filtrado de un detector (202) de actividad vocal.
  17. 17. El dispositivo (700) según cualquiera de las reivindicaciones 10 a 16, caracterizado porque dicho codificador (200) es un códec de banda ancha adaptable de múltiples velocidades (AMR-WB).
  18. 18. El dispositivo (700) según cualquiera de las reivindicaciones 10 a 17, caracterizado porque dicha primera excitación es una excitación de Predicción Lineal Excitada de Código Algebraico (ACELP) y porque dicha segunda excitación es la excitación codificada de transformación (TCX).
  19. 19. El dispositivo (700) según cualquiera de las reivindicaciones 10 a 18, caracterizado porque es un dispositivo de comunicación móvil.
  20. 20. El dispositivo (700) según cualquiera de las reivindicaciones 10 a 19, caracterizado porque comprende un transmisor para transmitir tramas que incluyen parámetros producidos por el bloque (206, 207) de excitación seleccionado, por un canal de baja velocidad de bits.
  21. 21. Un sistema que comprende un codificador (200) que comprende una entrada (201) para el ingreso de tramas de una señal de audio en una banda de frecuencia, al menos un primer bloque (206) de excitación para llevar a cabo una primera excitación para una señal de audio similar al habla, y un segundo bloque (207) de excitación para llevar a cabo una segunda excitación para una señal de audio similar a la música, caracterizado porque dicho codificador (200) comprende adicionalmente un filtro (300) para dividir la banda de frecuencias en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, porque el sistema también comprende un bloque (203) de selección de excitación para seleccionar un bloque de excitación entre al menos dicho primer bloque (206) de excitación y dicho segundo bloque (207) de excitación, para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas.
  22. 22. El sistema según la reivindicación 21, caracterizado porque dicho filtro (300) comprende un bloque (301) de filtrado para producir información que indica las energías (E(n)) de señal de una trama actual de la señal de audio de al menos una subbanda, y porque dicho bloque (203) de selección de excitación comprende medios de determinación de energía para determinar la información de energía de señal de al menos una subbanda.
  23. 23. El sistema según la reivindicación 22, caracterizado porque se definen al menos un primer y un segundo grupo de subbandas, conteniendo dicho segundo grupo subbandas de frecuencias mayores que dicho primer grupo, porque se define una relación (LPH) entre la energía de señal normalizada (LevL) de dicho primer grupo de subbandas y la energía de señal normalizada (LevH) de dicho segundo grupo de subbandas para las tramas de la señal de audio, y porque dicha relación (LPH) está dispuesta para ser utilizada en la selección del bloque (206, 207) de excita-
    ción.
  24. 24. El sistema según la reivindicación 23, caracterizado porque una o más subbandas de las subbandas disponibles se dejan fuera de dichos grupos primero y segundo de subbandas.
  25. 25. El sistema según la reivindicación 24, caracterizado porque la subbanda de las frecuencias inferiores se deja fuera de dichos grupos primero y segundo de subbandas.
  26. 26. El sistema según las reivindicaciones 23, 24 o 25, caracterizado porque se definen un primer número de tramas y un segundo número de tramas, siendo dicho segundo número mayor que dicho primer número, porque dicho bloque (203) de selección de excitación comprende medios de cálculo para calcular un primer valor (stdpcorta) de desviación estándar promedio, utilizando energías de señal del primer número de tramas, incluyendo la trama actual de cada subbanda, y para calcular un segundo valor (stdplarga) de desviación estándar promedio, utilizando energías de señal del segundo número de tramas, incluyendo la trama actual en cada subbanda.
  27. 27. El sistema según cualquiera de las reivindicaciones 21 a 26, caracterizado porque dicho filtro (300) es un banco de filtrado de un detector (202) de actividad vocal.
  28. 28. El sistema según cualquiera de las reivindicaciones 21 a 27, caracterizado porque dicho codificador (200) es un códec de banda ancha adaptable de múltiples velocidades (AMR-WB).
  29. 29. El sistema según cualquiera de las reivindicaciones 21 a 28, caracterizado porque dicha primera excitación es una excitación de Predicción Lineal Excitada de Código Algebraico (ACELP) y dicha segunda excitación es una excitación codificada de transformación (TCX).
  30. 30. El sistema según cualquiera de las reivindicaciones 21 a 29, caracterizado porque es un dispositivo de comunicación móvil.
  31. 31. El sistema según cualquiera de las reivindicaciones 21 a 30, caracterizado porque comprende un transmisor para transmitir tramas que incluyen parámetros producidos por el bloque (206, 207) de excitación seleccionado, por un canal de baja velocidad de bits.
  32. 32. Un procedimiento para comprimir señales de audio en una banda de frecuencia, en el cual se utiliza una primera excitación para una señal de audio similar al habla, y se utiliza una segunda excitación para una señal de audio similar a la música, caracterizado porque la banda de frecuencia se divide en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y porque se selecciona una excitación entre al menos dicha primera excitación y dicha segunda excitación para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas.
  33. 33. El procedimiento según la reivindicación 32, caracterizado porque dicho filtro (300) comprende un bloque (301) de filtrado para producir información que indica las energías (E(n)) de señal de una trama actual de la señal de audio de al menos una subbanda, y porque dicho bloque (203) de selección de excitación comprende medios de determinación de energía para determinar la información de energía de señal de al menos una subbanda.
  34. 34. El procedimiento según la reivindicación 33, caracterizado porque se definen al menos un primer y un segundo grupo de subbandas, conteniendo dicho segundo grupo subbandas de frecuencias mayores que dicho primer grupo, porque se define una relación (LPH) entre la energía de señal normalizada (LevL) de dicho primer grupo de subbandas y la energía de señal normalizada (LevH) de dicho segundo grupo de subbandas, para las tramas de la señal de audio, y porque dicha relación (LPH) está dispuesta para ser utilizada en la selección del bloque (206, 207) de excita-
    ción.
  35. 35. El procedimiento según la reivindicación 34, caracterizado porque una o más subbandas de las subbandas disponibles se dejan fuera de dichos grupos primero y segundo de subbandas.
  36. 36. El procedimiento según la reivindicación 35, caracterizado porque la subbanda de frecuencias más bajas se deja fuera de dichos grupos primero y segundo de subbandas.
  37. 37. El procedimiento según las reivindicaciones 34, 35 o 36, caracterizado porque se definen un primer número de tramas y un segundo número de tramas, siendo dicho segundo número mayor que dicho primer número, porque dicho bloque (203) de selección de excitación comprende medios de cálculo para calcular un primer valor (stdpcorta) de desviación estándar promedio, utilizando energías de señal del primer número de tramas, incluyendo la trama actual en cada subbanda, y para calcular un segundo valor (stdplarga) de desviación estándar promedio, utilizando energías de señal del segundo número de tramas, incluyendo la trama actual en cada subbanda.
  38. 38. El procedimiento según cualquiera de las reivindicaciones 32 a 37, caracterizado porque dicho filtro (300) es un banco de filtrado de un detector (202) de actividad vocal.
  39. 39. El procedimiento según cualquiera de las reivindicaciones 32 a 38, caracterizado porque dicho codificador (200) es un códec de banda ancha adaptable de múltiples velocidades (AMR-WB).
  40. 40. El procedimiento según cualquiera de las reivindicaciones 32 a 39, caracterizado porque dicha primera excitación es una excitación de Predicción Lineal Excitada de Código Algebraico (ACELP) y dicha segunda excitación es una excitación codificada de transformación (TCX).
  41. 41. El procedimiento según cualquiera de las reivindicaciones 32 a 40, caracterizado porque las tramas que incluyen parámetros producidos por la excitación seleccionada se transmiten por un canal de baja velocidad de bits.
  42. 42. Un módulo para clasificar tramas de una señal de audio en una banda de frecuencia, para la selección de una excitación entre el menos una primera excitación para una señal de audio similar al habla, y una segunda excitación para una señal de audio similar a la música, caracterizado porque el módulo comprende adicionalmente una entrada para ingresar información que indica la banda de frecuencia, dividida en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y un bloque (203) de selección de excitación para seleccionar un bloque de excitación entre al menos dicho primer bloque (206) de excitación y dicho segundo bloque (207) de excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas.
  43. 43. El módulo según la reivindicación 42, caracterizado porque se definen al menos un primer y un segundo grupo de subbandas, conteniendo dicho segundo grupo subbandas de mayores frecuencias que dicho primer grupo, porque se define una relación (LPH) entre la energía de señal normalizada (LevL) de dicho primer grupo de subbandas y la energía de señal normalizada (LevH) de dicho segundo grupo de subbandas, para las tramas de la señal de audio, y porque dicha relación (LPH) está dispuesta para ser utilizada en la selección del bloque (206, 207) de excitación.
  44. 44. El módulo según la reivindicación 43, caracterizado porque una o más subbandas de las subbandas disponibles se dejan fuera de dichos grupos primero y segundo de subbandas.
  45. 45. El módulo según la reivindicación 44, caracterizado porque la subbanda de frecuencias inferiores se deja fuera de dichos grupos primero y segundo de subbandas.
  46. 46. El módulo según las reivindicaciones 43, 44 o 45, caracterizado porque se definen un primer número de tramas y un segundo número de tramas, siendo dicho segundo número mayor que dicho primer número, porque dicho bloque (203) de selección de excitación comprende medios de cálculo para calcular un primer valor (stdpcorta) de desviación estándar promedio, utilizando energías de señal del primer número de tramas, incluyendo la trama actual en cada subbanda, y para calcular un segundo valor (stdplarga) de desviación estándar promedio, utilizando energías de señal del segundo número de tramas, incluyendo la trama actual de cada subbanda.
  47. 47. Un producto de programa de ordenador que comprende etapas ejecutables por máquina, para comprimir señales de audio en una banda de frecuencia, en el cual se utiliza una primera excitación para una señal de audio similar al habla, y se utiliza una segunda excitación para una señal de audio similar a la música, caracterizado porque el producto de programa de ordenador comprende adicionalmente etapas ejecutables por máquina para dividir la banda de frecuencia en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y etapas ejecutables por máquina para seleccionar una excitación entre al menos dicha primera excitación y dicha segunda excitación, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas, para llevar a cabo la excitación para una trama de la señal de audio.
  48. 48. El producto de programa de ordenador según la reivindicación 47, caracterizado porque comprende adicionalmente etapas ejecutables por máquina para producir información que indica las energías (E(n)) de señal de una trama actual de la señal de audio de al menos una subbanda, y etapas ejecutables por máquina para determinar la información de energía de señal de al menos una subbanda.
  49. 49. El producto de programa de ordenador según la reivindicación 48, caracterizado porque se definen un primer número de tramas y un segundo número de tramas, siendo dicho segundo número de tramas mayor que dicho primer número, porque el producto de programa de ordenador comprende adicionalmente etapas ejecutables por máquina de un medio de cálculo para calcular un primer valor (stdpcorta) de desviación estándar promedio, utilizando energías de señal del primer número de tramas, incluyendo la trama actual en cada subbanda, y para calcular un segundo valor (stdplarga) de desviación estándar promedio, utilizando energías de señal del segundo número de tramas, incluyendo la trama actual en cada subbanda.
  50. 50. El producto de programa de ordenador según cualquiera de las reivindicaciones 47 a 49, caracterizado porque comprende adicionalmente etapas ejecutables por máquina para llevar a cabo la excitación de Predicción Lineal Excitada de Código Algebraico (ACELP) como dicha primera excitación, y etapas ejecutables por máquina para llevar a cabo la excitación codificada de transformación (TCX) como dicha segunda excitación.
ES05708203T 2004-02-23 2005-02-16 Clasificacion de señales audio. Active ES2337270T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20045051 2004-02-23
FI20045051A FI118834B (fi) 2004-02-23 2004-02-23 Audiosignaalien luokittelu

Publications (1)

Publication Number Publication Date
ES2337270T3 true ES2337270T3 (es) 2010-04-22

Family

ID=31725817

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05708203T Active ES2337270T3 (es) 2004-02-23 2005-02-16 Clasificacion de señales audio.

Country Status (16)

Country Link
US (1) US8438019B2 (es)
EP (1) EP1719119B1 (es)
JP (1) JP2007523372A (es)
KR (2) KR20080093074A (es)
CN (2) CN103177726B (es)
AT (1) ATE456847T1 (es)
AU (1) AU2005215744A1 (es)
BR (1) BRPI0508328A (es)
CA (1) CA2555352A1 (es)
DE (1) DE602005019138D1 (es)
ES (1) ES2337270T3 (es)
FI (1) FI118834B (es)
RU (1) RU2006129870A (es)
TW (1) TWI280560B (es)
WO (1) WO2005081230A1 (es)
ZA (1) ZA200606713B (es)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
JP2009524101A (ja) * 2006-01-18 2009-06-25 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
US20080033583A1 (en) * 2006-08-03 2008-02-07 Broadcom Corporation Robust Speech/Music Classification for Audio Signals
US7877253B2 (en) 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
KR101379263B1 (ko) 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
WO2008090564A2 (en) * 2007-01-24 2008-07-31 P.E.S Institute Of Technology Speech activity detection
BRPI0807703B1 (pt) 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
US8982744B2 (en) * 2007-06-06 2015-03-17 Broadcom Corporation Method and system for a subband acoustic echo canceller with integrated voice activity detection
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US20090043577A1 (en) * 2007-08-10 2009-02-12 Ditech Networks, Inc. Signal presence detection using bi-directional communication data
WO2009027980A1 (en) * 2007-08-28 2009-03-05 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method, device and system for speech recognition
JP2011504250A (ja) * 2007-11-21 2011-02-03 エルジー エレクトロニクス インコーポレイティド 信号処理方法及び装置
DE102008022125A1 (de) * 2008-05-05 2009-11-19 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
KR101615262B1 (ko) 2009-08-12 2016-04-26 삼성전자주식회사 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
JP5395649B2 (ja) * 2009-12-24 2014-01-22 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置及びプログラム
CA3093517C (en) 2010-07-02 2021-08-24 Dolby International Ab Audio decoding with selective post filtering
ES2968927T3 (es) * 2010-07-08 2024-05-14 Fraunhofer Ges Forschung Decodificador que utiliza cancelación del efecto de solapamiento hacia delante
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
ES2535609T3 (es) 2011-02-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio con estimación de ruido de fondo durante fases activas
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
AR085895A1 (es) * 2011-02-14 2013-11-06 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio
CN102982804B (zh) * 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
CN104321815B (zh) * 2012-03-21 2018-10-16 三星电子株式会社 用于带宽扩展的高频编码/高频解码方法和设备
KR102561265B1 (ko) 2012-11-13 2023-07-28 삼성전자주식회사 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치
CN107424621B (zh) 2014-06-24 2021-10-26 华为技术有限公司 音频编码方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2746039B2 (ja) * 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
EP0932141B1 (en) * 1998-01-22 2005-08-24 Deutsche Telekom AG Method for signal controlled switching between different audio coding schemes
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
KR100367700B1 (ko) * 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals

Also Published As

Publication number Publication date
EP1719119B1 (en) 2010-01-27
KR20080093074A (ko) 2008-10-17
CN103177726B (zh) 2016-11-02
CA2555352A1 (en) 2005-09-01
BRPI0508328A (pt) 2007-08-07
RU2006129870A (ru) 2008-03-27
EP1719119A1 (en) 2006-11-08
FI20045051A0 (fi) 2004-02-23
TWI280560B (en) 2007-05-01
ZA200606713B (en) 2007-11-28
KR20070088276A (ko) 2007-08-29
TW200532646A (en) 2005-10-01
CN103177726A (zh) 2013-06-26
ATE456847T1 (de) 2010-02-15
US8438019B2 (en) 2013-05-07
WO2005081230A1 (en) 2005-09-01
KR100962681B1 (ko) 2010-06-11
CN1922658A (zh) 2007-02-28
FI118834B (fi) 2008-03-31
DE602005019138D1 (de) 2010-03-18
AU2005215744A1 (en) 2005-09-01
FI20045051A (fi) 2005-08-24
US20050192798A1 (en) 2005-09-01
JP2007523372A (ja) 2007-08-16

Similar Documents

Publication Publication Date Title
ES2337270T3 (es) Clasificacion de señales audio.
ES2349554T3 (es) Codificación de señales.
EP1719120B1 (en) Coding model selection
ES2338117T3 (es) Codificacion de audio con diferentes longitudes de trama de codificacion.
RU2351907C2 (ru) Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком)
ES2380307T3 (es) Esquema de codificación/decodificación de audio de tasa de transmisión de bits baja con preprocesamiento común.
ES2625895T3 (es) Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal
ES2380962T3 (es) Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento
US20020161576A1 (en) Speech coding system with a music classifier
ES2238860T3 (es) Codificacion a baja velocidad de bit de segmentos de voz sordos.
ES2687249T3 (es) Decisión no sonora/sonora para el procesamiento de la voz
JP2008503783A (ja) オーディオ信号のエンコーディングにおけるコーディング・モデルの選択
MXPA06009369A (es) Clasificacion de señales de audio
MXPA06009370A (es) Seleccion de modelos de codificacion