ES2337270T3 - Clasificacion de señales audio. - Google Patents
Clasificacion de señales audio. Download PDFInfo
- Publication number
- ES2337270T3 ES2337270T3 ES05708203T ES05708203T ES2337270T3 ES 2337270 T3 ES2337270 T3 ES 2337270T3 ES 05708203 T ES05708203 T ES 05708203T ES 05708203 T ES05708203 T ES 05708203T ES 2337270 T3 ES2337270 T3 ES 2337270T3
- Authority
- ES
- Spain
- Prior art keywords
- excitation
- subbands
- block
- signal
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005284 excitation Effects 0.000 claims abstract description 200
- 230000005236 sound signal Effects 0.000 claims abstract description 86
- 238000000034 method Methods 0.000 claims description 57
- 230000001755 vocal effect Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000010295 mobile communication Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 description 19
- 238000007906 compression Methods 0.000 description 19
- 238000005259 measurement Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000006837 decompression Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereo-Broadcasting Methods (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Stereophonic System (AREA)
Abstract
Un codificador (200) que comprende una entrada (201) para el ingreso de tramas de una señal de audio en una banda de frecuencia, al menos un primer bloque (206) de excitación para llevar a cabo una primera excitación para una señal de audio similar al habla, y un segundo bloque (207) de excitación para llevar a cabo una segunda excitación para una señal de audio similar a la música, caracterizado porque el codificador (200) comprende adicionalmente un filtro (300) para dividir la banda de frecuencia en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y un bloque (203) de selección de excitación para seleccionar un bloque de excitación entre al menos dicho primer bloque (206) de excitación y dicho segundo bloque (207) de excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas.
Description
Clasificación de señales de audio.
La invención se refiere a la codificación de
habla y audio, en la cual la modalidad de codificación cambia según
que la señal de entrada sea una señal similar al habla o la música.
La presente invención se refiere a un codificador que comprende una
entrada para ingresar tramas de una señal de audio en una banda de
frecuencia, al menos un primer bloque de excitación, para llevar a
cabo una primera excitación para una señal de audio similar a la
del habla, y un segundo bloque de excitación para llevar a cabo una
segunda excitación, para una señal de audio, no de habla. La
invención también se refiere a un dispositivo que comprende un
codificador, que comprende una entrada para ingresar tramas de una
señal de audio en una banda de frecuencia, al menos un primer
bloque de excitación para llevar a cabo una primera excitación, para
una señal de audio similar al habla, y un segundo bloque de
excitación para llevar a cabo una segunda excitación para una señal
de audio no de habla. La invención también se refiere a un sistema
que comprende un codificador, que comprende una entrada para
ingresar tramas de una señal de audio en una banda de frecuencia, al
menos un primer bloque de excitación para llevar a cabo una primera
excitación para una señal de audio similar al habla, y un segundo
bloque de excitación para llevar a cabo una segunda excitación, para
una señal de audio no de habla. La invención se refiere
adicionalmente a un procedimiento para comprimir señales de audio en
una banda de frecuencia, en la cual se utiliza una primera
excitación para una señal de audio similar al habla, y una segunda
excitación se utiliza para una señal de audio no de habla. La
invención se refiere a un módulo para clasificar tramas de una
señal de audio en una banda de frecuencia, para la selección de una
excitación entre al menos una primera excitación para una señal de
audio similar al habla, y una segunda excitación para una señal de
audio no de habla. La invención se refiere a un producto de
programa de ordenador que comprende etapas ejecutables en una
máquina, para comprimir señales de audio en una banda de frecuencia,
en el cual se utiliza una primera excitación para una señal de
audio similar al habla, y se utiliza una segunda excitación para una
señal de audio no de habla.
En muchas aplicaciones de procesamiento de
audio, las señales de audio se comprimen para reducir los requisitos
de potencia de procesamiento al procesar la señal de audio. Por
ejemplo, en sistemas de comunicación digital, la señal de audio se
captura, habitualmente, como una señal analógica, se digitaliza en
un convertidor de analógico a digital (A/D), y se codifica luego
antes de la transmisión por una interfaz aérea inalámbrica entre un
equipo de usuario, tal como una estación móvil, y una estación base.
El propósito de la codificación es comprimir la señal digitalizada
y transmitirla por la interfaz aérea, con la cantidad mínima de
datos, manteniendo a la vez un nivel aceptable de calidad de señal.
Esto es especialmente importante, ya que la capacidad del canal de
radio, por la interfaz aérea inalámbrica, está limitada en una red
de comunicación celular. También hay aplicaciones en las cuales la
señal de audio digitalizada se almacena en un medio de
almacenamiento para la reproducción posterior de la señal de
audio.
La compresión puede ser con pérdida o sin
pérdida. En la compresión con pérdida se pierde alguna información
durante la compresión, en donde no es posible reconstruir totalmente
la señal original a partir de la señal comprimida. En la compresión
sin pérdida, normalmente, no se pierde ninguna información. Por
ello, la señal original puede usualmente reconstruirse
completamente a partir de la señal comprimida.
La señal terminal de audio se concibe
normalmente como una señal que contiene habla, música (no habla), o
ambas. La distinta naturaleza del habla y de la música dificulta en
cierto grado diseñar un algoritmo de compresión que funcione lo
bastante bien tanto para el habla como la música, p. ej., el
documento de E. Paksoy et al., "Variable Rate Speech
Coding With Phonetic Segmentation" ["Codificación del Habla de
Velocidad Variable Con Segmentación Fonética"], Proc. of ICASSP,
New York, EE UU, 1993, revela una clasificación de habla/no habla
de un códec de habla de velocidad variable. Por lo tanto, el
problema se resuelve a menudo diseñando distintos algoritmos tanto
para la música como para el habla, y utilizando alguna clase de
procedimiento de reconocimiento, para reconocer si la señal de
audio es similar al habla o similar a la música, y seleccionar el
algoritmo adecuado según el reconocimiento.
En general, distinguir simplemente entre señales
de habla, y de música, y no vocales, es una tarea difícil. La
precisión requerida depende en gran medida de la aplicación. En
algunas aplicaciones la precisión es más crítica, como en el
reconocimiento de voz, o en el archivo exacto con fines de
almacenamiento y recuperación. Sin embargo, la situación es un poco
distinta si la clasificación se emplea para seleccionar el
procedimiento óptimo de compresión para la señal de entrada. En
este caso, puede ocurrir que no exista un procedimiento de
compresión que sea siempre óptimo para el habla y otro procedimiento
que sea siempre óptimo para la música y las señales no vocales. En
la práctica, puede ser que un procedimiento de compresión para
entidades transitorias del habla sea también muy eficiente para
entidades transitorias de la música. También es posible que una
compresión musical para componentes tonales fuertes pueda ser buena
para segmentos de habla vocalizados. Así, en estos casos, los
procedimientos para clasificar simplemente entre habla y música no
crean el algoritmo más óptimo para seleccionar el mejor
procedimiento de compresión.
A menudo el habla puede considerarse como
limitada a una banda entre, aproximadamente, 200 Hz y 3400 Hz. La
tasa típica de muestreo utilizada por un convertidor A/D (analógico
a digital), para convertir una señal analógica de habla en una
señal digital es bien de 8 kHz o bien de 16 kHz. La música o las
señales no vocales pueden contener componentes de frecuencia bien
por encima del ancho de banda del habla normal. En algunas
aplicaciones, el sistema de audio debería poder asimilar una banda
de frecuencias entre alrededor de 20 Hz y 20.000 kHz. La velocidad
de muestreo para esa clase de señales debería ser de al menos 40.000
kHz, para evitar la generación de alias. Debería observarse aquí
que los valores anteriormente mencionados son sólo ejemplos no
limitadores. Por ejemplo, en algunos sistemas el límite superior
para señales de música puede ser de alrededor de 10.000 kHz, o
incluso menos de eso.
La señal digital muestreada se codifica luego,
usualmente trama a trama, dando como resultado un flujo de datos
digitales con una tasa de bits que está determinada por un códec
utilizado para la codificación. Cuanto mayor sea la tasa de bits,
más datos se codifican, lo que da como resultado una representación
más precisa de la trama de entrada. La señal de audio codificada
puede descodificarse luego, y pasar a través de un convertidor de
digital a analógico (D/A) para reconstruir una señal que esté tan
cerca de la señal original como sea posible.
Un códec ideal codificará la señal de audio con
tan pocos bits como sea posible, optimizando por ello la capacidad
del canal, produciendo a la vez una señal de audio descodificada que
suene tan similar a la señal de audio original como sea posible. En
la práctica, hay habitualmente una compensación entre la tasa de
bits del códec y la calidad del audio descodificado.
Actualmente hay numerosos códecs distintos,
tales como el códec adaptable de velocidades múltiples (AMR) y el
códec adaptable de velocidades múltiples y banda ancha
(AMR-WB), que están desarrollados para comprimir y
codificar señales de audio. El códec AMR fue desarrollado por el
Proyecto de Asociación de 3ª Generación (3GPP) para las redes de
comunicación GSM/EDGE y WCDMA. Además, también se ha vislumbrado que
el códec AMR se utilizará en redes conmutadas por paquetes. El
códec AMR se basa en la codificación de Predicción Lineal Excitada
de Código Algebraico (ACELP). Los códecs de AMR y AMR WB consisten
en 8 y 9 tasas activas de bits, respectivamente, y también incluyen
funcionalidad de detección de actividad vocal (VAD) y de
transmisión discontinua (DTX). De momento, la tasa de muestreo en el
códec AMR es de 8 kHz, y en el códec AMR WB la tasa de muestreo es
de 16 kHz. Es obvio que los códecs y las tasas de muestreo
anteriormente mencionadas son sólo ejemplos no limitadores.
La codificación ACELP funciona utilizando un
modelo de cómo se genera la fuente de la señal, y extrae de la
señal los parámetros del modelo. Más específicamente, la
codificación ACELP se basa en un modelo del sistema vocal humano,
donde la garganta y la boca se modelizan como un filtro lineal, y el
habla se genera por una vibración periódica del aire que excita el
filtro. El habla es analizada trama a trama por el codificador y,
para cada trama, un conjunto de parámetros que representa el habla
modelizada es generado y emitido por el codificador. El conjunto de
parámetros puede incluir parámetros de excitación y los coeficientes
para el filtro, así como otros parámetros. La salida de un
codificador del habla se denomina con frecuencia una representación
paramétrica de la señal vocálica de entrada. El conjunto de
parámetros es utilizado luego por un descodificador debidamente
configurado para regenerar la señal de voz de entrada.
Para algunas señales de entrada, la excitación
ACELP, similar a un pulso, genera una mayor calidad y, para algunas
señales de entrada, la excitación codificada por transformación
(TCX) es mejor. Se supone aquí que la excitación ACELP se emplea
mayormente para el típico contenido vocal como una señal de entrada,
y la excitación TCX se emplea mayormente para música típica como
una señal de entrada. Sin embargo, no siempre es este el caso, es
decir, algunas veces la señal del habla tiene partes que son
similares a la música, y la señal de música tiene partes que son
similares al habla. La definición de una señal similar al habla, en
esta aplicación, es que la mayor parte del habla pertenece a esta
categoría, y algo de la música también puede pertenecer a esta
categoría. Para las señales similares a la música, la definición es
la contraria. Además, hay algunas partes de señales de habla y
partes de señales de música que son neutrales, en el sentido de que
pueden pertenecer a ambas clases.
La selección de la excitación puede hacerse de
varias maneras: el procedimiento más complejo, y uno bastante
bueno, es codificar tanto la excitación ACELP como la TCX, y
seleccionar luego la mejor excitación sobre la base de la señal de
habla sintetizada. Este tipo de procedimiento, de análisis por
síntesis, brindará buenos resultados pero, en algunas aplicaciones,
no es práctico, debido a su alta complejidad. En este procedimiento,
por ejemplo, puede emplearse al tipo SNR de algoritmo para medir la
calidad producida por ambas excitaciones. Este procedimiento puede
llamarse un procedimiento de "fuerza bruta", porque prueba
todas las combinaciones de distintas excitaciones y selecciona
después la mejor. El procedimiento menos complejo llevaría a cabo la
síntesis sólo una vez, analizando las propiedades de la señal de
antemano y seleccionando luego la mejor excitación. El
procedimiento también puede ser una combinación de selección previa
y "fuerza bruta", para llegar a un compromiso entre la calidad
y la complejidad.
La Figura 1 presenta un codificador simplificado
100, con clasificación de alta complejidad de la tecnología
anterior. Una señal de audio ingresa al bloque 101 de señales de
entrada, en el cual la señal es digitalizada y filtrada. El bloque
101 de señales de entrada también forma tramas a partir de la señal
digitalizada y filtrada. Las tramas ingresan a un bloque 102 de
análisis de codificación de predicción lineal (LPC). Efectúa un
análisis de LPC sobre la señal de entrada digitalizada, trama a
trama, para hallar el conjunto de parámetros que se corresponda
mejor con la señal de entrada. Los parámetros determinados
(parámetros LPC) se cuantizan y se emiten 109 desde el codificador
100. El codificador 100 también genera dos señales de salida con los
bloques 103, 104 de síntesis LPC. El primer bloque 103 de síntesis
LPC utiliza una señal generada por el bloque 105 de excitación TCX
para sintetizar la señal de audio a fin de hallar el vector de
códigos que genera el mejor resultado para la excitación TCX. El
segundo bloque 104 de síntesis LPC utiliza una señal generada por el
bloque 106 de excitación ACELP para sintetizar la señal de audio, a
fin de hallar el vector de códigos que genera el mejor resultado
para la excitación ACELP. En el bloque 107 de selección de
excitación, las señales generadas por los bloques 103, 104 de
síntesis LPC se comparan para determinar cuál de los procedimientos
de excitación brindan la mejor (óptima) excitación. La información
acerca del procedimiento de excitación seleccionado y los
parámetros de la señal de excitación seleccionada, por ejemplo, se
cuantizan y se codifican 108 por canal antes de emitir 109 las
señales desde el codificador 100 para su transmisión.
Un objetivo de la presente invención es
proporcionar un procedimiento mejorado para clasificar las señales
similares al habla y similares a la música, utilizando información
de frecuencia de la señal. Hay segmentos de señal de habla
similares a la música, y viceversa, y hay segmentos de señal en el
habla y en la música que pueden pertenecer a cualquiera de las
clases. En otras palabras, la invención no distingue nítidamente
entre habla y música. Sin embargo, define medios para categorizar la
señal de entrada en componentes similares a la música y similares
al habla, según algunos criterios. La información de clasificación
puede utilizarse, p. ej., en un codificador multimodal para
seleccionar una modalidad de codificación.
La invención, según lo definido por las
reivindicaciones, se basa en la idea de que la señal de entrada se
divide en varias bandas de frecuencia, y las relaciones entre las
bandas de frecuencia inferiores y superiores se analizan junto con
las variaciones del nivel de energía en esas bandas, y la señal se
clasifica como similar a la música o similar al habla, sobre la
base tanto de las mediciones calculadas, o de diversas combinaciones
distintas de esas mediciones, utilizando distintas ventanas de
análisis, como de valores de umbral de decisión. Esta información
puede utilizarse luego, por ejemplo, en la selección del
procedimiento de compresión para la señal analizada.
El codificador según la presente invención se
caracteriza principalmente porque el codificador comprende
adicionalmente un filtro para dividir la banda de frecuencia en una
pluralidad de subbandas, teniendo cada una un ancho de banda más
estrecho que dicha banda de frecuencia, y un bloque de selección de
excitación para seleccionar un bloque de excitación entre al menos
dicho primer bloque de excitación y dicho segundo bloque de
excitación, para llevar a cabo la excitación para una trama de la
señal de audio, sobre la base de las propiedades de la señal de
audio, al menos en una dichas subbandas.
El dispositivo según la presente invención se
caracteriza principalmente porque dicho codificador comprende un
filtro para dividir la banda de frecuencia en una pluralidad de
subbandas, teniendo cada una un ancho de banda más estrecho que
dicha banda de frecuencia, y porque el dispositivo también comprende
un bloque de selección de excitación para seleccionar un bloque de
excitación al menos entre dicho primer bloque de excitación y dicho
segundo bloque de excitación, para llevar a cabo la excitación para
una trama de la señal de audio, sobre la base de las propiedades de
la señal de audio en al menos una de dichas subbandas.
El sistema según la presente invención se
caracteriza principalmente porque dicho codificador comprende
adicionalmente un filtro para dividir la banda de frecuencia en una
pluralidad de subbandas, teniendo cada una de ellas un ancho de
banda más estrecho que dicha banda de frecuencia, y porque el
sistema también comprende un bloque de selección de excitación para
seleccionar un bloque de excitación al menos entre dicho primer
bloque de excitación y dicho segundo bloque de excitación, para
llevar a cabo la excitación para una trama de la señal de audio,
sobre la base de las propiedades de la señal de audio en al menos
una de dichas subbandas.
El procedimiento según la presente invención se
caracteriza principalmente porque la banda de frecuencia se divide
en una pluralidad de subbandas, teniendo cada una de ellas un ancho
de banda más estrecho que dicha banda de frecuencia, y porque se
selecciona una excitación entre al menos dicha primera excitación y
dicha segunda excitación, para llevar a cabo la excitación para una
trama de la señal de audio, sobre la base de las propiedades de la
señal de audio en al menos una de dichas subbandas.
El módulo según la presente invención se
caracteriza principalmente porque el módulo comprende adicionalmente
una entrada para ingresar información indicadora de la banda de
frecuencia, dividida en una pluralidad de subbandas, teniendo cada
una un ancho de banda más estrecho que dicha banda de frecuencia, y
un bloque de selección de excitación para seleccionar un bloque de
excitación entre al menos dicho primer bloque de excitación y dicho
segundo bloque de excitación, para llevar a cabo la excitación para
una trama de la señal de audio, sobre la base de las propiedades de
la señal de audio en al menos una de dichas subbandas.
El producto de programa de ordenador según la
presente invención se caracteriza principalmente porque el producto
de programa de ordenador comprende adicionalmente etapas ejecutables
por una máquina para dividir la banda de frecuencia en una
pluralidad de subbandas, teniendo cada una un ancho de banda más
estrecho que dicha banda de frecuencia, etapas ejecutables por una
máquina para seleccionar una excitación entre al menos dicha primera
excitación y dicha segunda excitación, sobre la base de las
propiedades de la señal de audio para al menos una de dichas
subbandas, para llevar a cabo la excitación para una trama de la
señal de audio.
En esta aplicación, los términos "similar al
habla" y "similar a la música" se definen para separar la
invención de las típicas clasificaciones de habla y música. Incluso
si alrededor del 90% del habla se categorizara como similar al
habla en un sistema según la presente invención, el resto de la
señal de habla puede definirse como una señal similar a la música,
lo que puede mejorar la calidad del audio si la selección del
algoritmo de compresión se basa en esta clasificación. Además, las
típicas señales musicales pueden coincidir, en el
80-90% de los casos, con señales similares a la
música, pero la clasificación de parte de la señal musical en la
categoría similar al habla mejorará la calidad de la señal sonora
para el sistema de compresión. Por lo tanto, la presente invención
proporciona ventajas cuando se compara con procedimientos y sistemas
de la tecnología anterior. Utilizando el procedimiento de
clasificación según la presente invención, es posible mejorar la
calidad del sonido reproducido sin afectar en gran medida la
eficiencia de la compresión.
En comparación con el enfoque de fuerza bruta
anteriormente presentado, la invención proporciona un enfoque mucho
menos complejo del tipo de preselección, para realizar la selección
entre dos tipos de excitación. La invención divide la señal de
entrada en bandas de frecuencia y analiza las relaciones entre las
bandas de frecuencias inferiores y superiores entre sí, y también
puede utilizar, por ejemplo, las variaciones del nivel de energía
en dichas bandas, y clasifica la señal en señales similares a la
música y señales similares al habla.
La Fig. 1 presenta un codificador simplificado
con clasificación de alta complejidad de la tecnología anterior,
La Fig. 2 presenta una realización ejemplar de
un codificador con una clasificación según la invención,
La Fig. 3 ilustra un ejemplo de una estructura
de banco filtrador de VAD en el algoritmo de VAD del AMR - WB,
La Fig. 4 muestra un ejemplo de la graficación
de una desviación estándar de niveles de energía en bancos
filtradores de VAD, como una función de la relación entre
componentes de baja y alta energía en una señal musical,
La Fig. 5 muestra un ejemplo de una graficación
de la desviación estándar de los niveles de energía en bancos de
filtrado de VAD como una función de la relación entre los
componentes de baja y alta energía en una señal de habla,
La Fig. 6 muestra un ejemplo de una graficación
combinada para señales tanto de música como de habla, y
La Fig. 7 muestra un ejemplo de un sistema según
la presente invención.
En lo siguiente se describirá en más detalle un
codificador 200 según una realización ejemplar de la presente
invención, con referencia a la Fig. 2. El codificador 200 comprende
un bloque 201 de entrada para digitalizar, filtrar y entramar la
señal de entrada cuando sea necesario. Aquí debería observarse que
la señal de entrada ya puede estar en una forma adecuada para el
proceso de codificación. Por ejemplo, la señal de entrada puede
haber sido digitalizada en una etapa anterior, y almacenada en un
medio de memoria (no mostrado). Las tramas de señales de entrada se
ingresan a un bloque 202 de detección de actividad vocal. El bloque
202 de detección de actividad vocal emite una multiplicidad de
señales de banda más estrecha, que se ingresan a un bloque 203 de
selección de excitación. El bloque 203 de selección de excitación
analiza las señales para determinar qué procedimiento de excitación
es el más adecuado para codificar la señal de entrada. El bloque 203
de selección de excitación produce una señal 204 de control para
controlar un medio 205 de selección, según la determinación del
procedimiento de excitación. Si se determinó que el mejor
procedimiento de excitación para codificar la trama actual de la
señal de entrada es un primer procedimiento de excitación, los
medios 205 de selección se controlan para seleccionar la señal de
un primer bloque 206 de excitación. Si se determinó que el mejor
procedimiento de excitación para codificar la trama actual de la
señal de entrada es un segundo procedimiento de excitación, los
medios 205 de selección se controlan para seleccionar la señal de un
segundo bloque 207 de excitación. Aunque el codificador de la Fig.
2 sólo tiene el primer bloque 206 y el segundo bloque 207 de
excitación para el proceso de codificación, es obvio que también
puede haber más de dos bloques distintos de excitación para
distintos procedimientos de excitación disponibles en el codificador
200, para ser utilizados en la codificación de la señal de
entrada.
El primer bloque 206 de excitación produce, por
ejemplo, una señal de excitación TCX, y el segundo bloque 207 de
excitación produce, por ejemplo, una señal de excitación ACELP.
El bloque 208 de análisis LPC realiza un
análisis LPC sobre la señal de entrada digitalizada, trama a trama,
para hallar aquel conjunto de parámetros que mejor coincida con la
señal de entrada.
Los parámetros LPC 210 y los parámetros 211 de
excitación, por ejemplo, se cuantizan y codifican en un bloque 212
de cuantización y codificación antes de la transmisión, p. ej., a
una red 704 de comunicación (Fig. 7). Sin embargo, no es necesario
transmitir los parámetros, sino que, por ejemplo, pueden almacenarse
en un medio de almacenamiento y recuperarse en una etapa posterior
para su transmisión y/o descodificación.
La Fig. 3 ilustra un ejemplo de un filtro 300
que puede utilizarse en el codificador 200 para el análisis de
señales. El filtro 300 es, por ejemplo, un banco de filtrado del
bloque de detección de actividad vocal del códec
AMR-WB, en el cual no se necesita un filtro por
separado, pero también es posible utilizar otros filtros con este
fin. El filtro 300 comprende dos o más bloques 301 de filtrado, para
dividir la señal de entrada en dos o más señales de subbanda en
distintas frecuencias. En otras palabras, cada señal de salida del
filtro 300 representa una cierta banda de frecuencia de la señal de
entrada. Las señales de salida del filtro 300 pueden utilizarse en
el bloque 203 de selección de excitación para determinar el
contenido de frecuencia de la señal de entrada.
El bloque 203 de selección de excitación evalúa
los niveles de energía de cada salida del banco 300 de filtrado y
analiza las relaciones entre las subbandas de frecuencia inferior y
superior, junto con las variaciones del nivel de energía en esas
subbandas, y clasifica la señal en musical o vocal.
La invención se basa en examinar el contenido de
frecuencia de la señal de entrada para seleccionar el procedimiento
de excitación para las tramas de la señal de entrada. En lo que
sigue, se emplea la extensión de AMR-WB
(AMR-WB+) como un ejemplo práctico, utilizado para
clasificar la señal de entrada en señales vocales o musicales, y
para seleccionar, respectivamente, bien la excitación ACELP o bien
la TCX para esas señales. Sin embargo, la invención no se limita a
los códecs AMR-WB o a los procedimientos de
excitación ACELP y TCX.
En el códec AMR-WB extendido
(AMR-WB+), hay dos tipos de excitación para la
síntesis LP: excitación ACELP por pulsos y excitación codificada
transformada (TCX). La excitación ACELP es la misma que la utilizada
ya en el estándar AMR-WB original del 3GPP (3GPP TS
26.190) y TCX es una mejora implementada en el
AMR-WB extendido.
El ejemplo de extensión del
AMR-WB se basa en los bancos de filtrado de VAD del
AMR-WB, que, para cada trama de entrada de 20 ms,
produce energía E(n) de señal en las 12 subbandas sobre la
gama de frecuencias entre 0 y 6400 Hz, según se muestra en la Fig.
3. Los anchos de banda de los bancos de filtrado, normalmente, no
son iguales, pero pueden variar sobre bandas distintas, como puede
verse en la Fig. 3. También el número de subbandas puede variar, y
las subbandas pueden estar solapándose parcialmente. Luego, los
niveles de energía de cada subbanda se normalizan dividiendo el
nivel (E(n) de energía de cada subbanda entre el ancho de esa
subbanda (en Hz), produciendo niveles normalizados de energía
EN(n) de cada banda, donde n es el número de banda entre 0 y
11. El índice 0 se refiere a la menor subbanda mostrada en la Fig.
3.
En el bloque 203 de selección de excitación, se
calcula la desviación estándar de los niveles de energía para cada
una de las 12 subbandas, utilizando, p. ej., dos ventanas: una
ventana corta stdcorta(n) y una ventana larga
stdlarga(n). Para el caso AMR-WB+, la
longitud de la ventana corta es de 4 tramas y la ventana larga
tiene 16 tramas. En estos cálculos, se utilizan los 12 niveles de
energía de la trama actual junto con las 3 o 15 tramas anteriores,
para deducir estos dos valores de desviación estándar. La
característica especial de este cálculo es que sólo se lleva a cabo
cuando el bloque 202 de detección de actividad vocal indica 213
habla activa. Esto hará que el algoritmo reaccione más rápidamente,
especialmente después de largas pausas de voz.
Luego, para cada trama, se toma la desviación
estándar promedio sobre todos los 12 bancos de filtrado, tanto para
la ventana larga como para la corta, y se crean los valores de
desviación estándar promedio stdpcorta y stdplarga.
Para tramas de la señal de audio, también se
calcula una relación entre las bandas de frecuencia inferior y las
bandas de frecuencia superior. En el AMR-WB+ se toma
la energía de las subbandas de frecuencia inferior LevL entre 1 y
7, y se normaliza dividiéndola entre la longitud (ancho de banda) de
estas subbandas (en Hz). Para bandas de frecuencia mayor, entre 8 y
11, su energía se toma y se normaliza, respectivamente, para crear
LevH. Obsérvese que en esta realización ejemplar la subbanda
inferior 0 no se emplea en estos cálculos, porque usualmente
contiene tanta energía que distorsionará los cálculos, y hará que
las contribuciones de otras subbandas sean demasiado pequeñas. A
partir de estas mediciones se define la relación LPH = LevL/LevH.
Además, para cada trama se calcula un promedio móvil LPHa,
utilizando los valores de LPH actual y los 3 anteriores. Después de
estos cálculos se calcula una medición de la relación LPHaF entre la
baja y la alta frecuencia para la trama actual, utilizando la suma
ponderada de los valores actuales y los 7 más allá del promedio
móvil LPHa, fijando una ponderación levemente mayor para los
valores más recientes.
También es posible implementar la presente
invención de forma tal que sólo se analicen una, o unas pocas, de
las subbandas disponibles.
También se calcula el nivel promedio AVL de los
bloques 301 de filtrado para la trama actual, restando el nivel
estimado del ruido de fondo a cada salida de bloque de filtrado, y
sumando estos niveles, multiplicados por la mayor frecuencia del
correspondiente bloque 301 de filtrado, para equilibrar las
subbandas de alta frecuencia que contengan relativamente menos
energía que las subbandas de menor frecuencia.
También se calcula la energía total de la trama
actual, TotE0, de todos los bloques 301 de filtrado, decrementada
en la estimación del ruido de fondo de cada banco 301 de
filtrado.
Después de calcular estas mediciones, se escoge
entre la excitación ACELP y la TCX, utilizando, por ejemplo, el
siguiente procedimiento. En lo que sigue se supone que cuando se
activa un indicador, se desactivan otros indicadores, para impedir
conflictos. En primer lugar, se compara el valor de la desviación
estándar promedio para la ventana larga, stdplarga, con un primer
valor TH1 de umbral, por ejemplo, 0,4. Si el valor stdplarga de
desviación estándar es menor que el primer valor TH1 de umbral, se
activa un indicador de MODALIDAD TCX. En caso contrario, se compara
la medición calculada de la relación LPHaF entre frecuencia baja y
alta con un segundo valor TH2 de umbral, por ejemplo, 280.
Si la medición calculada de la relación LPHaF
entre frecuencias bajas y altas es mayor que el segundo valor TH2
de umbral, se activa el indicador MODALIDAD TCX. En caso contrario,
se calcula una inversa del valor stdplarga de desviación estándar,
decrementado en el primer valor TH1 de umbral, y se suma una primera
constante C1, por ejemplo 5, al valor inverso calculado. La suma se
compara con la medición calculada de la relación LPHaF entre
frecuencias baja y alta:
(1)C1 + (1 /
(stdplarga - TH1)) >
LPHaF
Si el resultado de la comparación es cierto, se
activa el indicador MODALIDAD TCX. Si el resultado de la comparación
no es cierto, el valor stdplargo de desviación estándar se
multiplica por un primer multiplicando M1 (p. ej., -90) y se añade
una segunda constante C2 (p. ej., 120) al resultado de la
multiplicación. La suma se compara con la medición calculada de la
relación LPHaF de frecuencias baja y alta:
(2)M1 *
stdplarga + C2 <
LPHaF
Si la suma es más pequeña que la medición
calculada de la relación LPHaF de frecuencias baja y alta, se activa
un indicador de MODALIDAD ACELP. En caso contrario, se activa un
indicador de MODALIDAD INCIERTA, que indica que el procedimiento de
excitación no pudo seleccionarse aún para la trama actual.
Se efectúa un examen adicional después de las
etapas anteriormente descritas, antes de que se seleccione el
procedimiento de excitación para la trama actual. En primer lugar,
se examina si está activado el indicador de MODALIDAD ACELP o bien
el de MODALIDAD INCIERTA, y si el nivel AVL promedio calculado de
los bancos 301 de filtrado para la trama actual es mayor que un
tercer valor TH3 de umbral (p. ej., 2000), se activa allí el
indicador MODALIDAD TCX, y se desactivan los indicadores de
MODALIDAD ACELP y de MODALIDAD INCIERTA.
A continuación, si el indicador de MODALIDAD
INCIERTA está activado, se realizan evaluaciones similares, para el
valor stdpcorta de desviación estándar promedio para la ventana
corta, a las realizadas anteriormente para el valor stdplarga de la
desviación estándar promedio para la ventana larga, pero utilizando
valores levemente distintos para las constantes y umbrales en las
comparaciones. Si el valor stdpcorta de desviación estándar
promedio para la ventana corta es menor que un cuarto valor TH4 de
umbral (p. ej., 0,2), se activa el indicador MODALIDAD TCX. En caso
contrario, se calcula una inversa del valor stdpcorta de desviación
estándar para la ventana corta, decrementada en el cuarto valor TH4
de umbral, y se suma una tercera constante C3 (p. ej., 2,5) al
valor inverso calculado. La suma se compara con la medición
calculada de la relación LPHaF de frecuencias baja y alta:
(3)C3 + (1 /
(stdpcorta - TH4)) >
LPHaF
Si el resultado de la comparación es cierto, se
activa el indicador MODALIDAD TCX. Si el resultado de la comparación
no es cierto, el valor stdpcorta de desviación estándar se
multiplica por un segundo multiplicando M2 (p. ej., -90), y se
añade una cuarta constante C4 (p. ej., 140) al resultado de la
multiplicación. La suma se compara con la medición calculada de la
relación LPHaF de frecuencias baja y alta:
(4)M2 *
stdpcorta + C4 <
LPHaF
Si la suma es más pequeña que la medición
calculada de la relación LPHaF de frecuencias baja y alta, se activa
el indicador MODALIDAD ACELP. En caso contrario, se activa el
indicador MODALIDAD INCIERTA, que indica que el procedimiento de
excitación no pudo seleccionarse aún para la trama actual.
En la próxima etapa se examinan los niveles de
energía de la trama actual y de la trama anterior. Si la razón
entre la energía total de la trama actual, TotE0, y la energía total
de la trama anterior, TotE-1, es mayor que un
quinto valor TH5 de umbral (p. ej., 25), se activa el indicador
MODALIDAD ACELP, y se desactivan los indicadores MODALIDAD TCX y
MODALIDAD INCIERTA.
Finalmente, si el indicador MODALIDAD TCX o el
indicador MODALIDAD INCIERTA está activado, y si el nivel AVL medio
calculado de los bancos 301 de filtrado para la trama actual es
mayor que el tercer valor TH3 de umbral, y la energía total de la
trama actual, TotE0, es menor que un sexto valor TH6 de umbral (p.
ej., 60), se activa el indicador MODALIDAD ACELP.
Cuando se lleva a cabo el procedimiento de
evaluación anteriormente descrito, se seleccionan el primer
procedimiento de excitación y el primer bloque 206 de excitación si
el indicador MODALIDAD TCX está activado, o bien se seleccionan el
segundo procedimiento de excitación y el segundo bloque 207 de
excitación si el indicador MODALIDAD ACELP está activado. Sin
embargo, si el indicador MODALIDAD INCIERTA está activado, el
procedimiento de evaluación no pudo llevar a cabo la selección. En
ese caso se selecciona bien ACELP o TCX, o bien ha de realizarse
algún análisis adicional para efectuar la diferenciación.
\newpage
El procedimiento también puede ilustrarse como
el siguiente seudo-código:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
La idea básica detrás de la clasificación se
ilustra en las Figuras 4, 5 y 6. La Fig. 4 muestra un ejemplo de un
gráfico de la desviación estándar de los niveles de energía en
bancos de filtrado de VAD como función de la relación entre los
componentes de baja y alta energía en una señal de música. Cada
punto corresponde a una trama de 20 ms tomada de la señal musical
larga que contiene distintas variaciones de música. La línea A está
ajustada para corresponder aproximadamente al límite superior del
área de la señal musical, es decir, los puntos al lado derecho de
la línea no se consideran como señales musicales en el procedimiento
según la presente invención.
Respectivamente, la Fig. 5 muestra un ejemplo de
un gráfico de la desviación estándar de niveles de energía en
bancos de filtrado de VAD como función de la relación entre los
componentes de baja y alta energía en una señal de voz.
\newpage
Cada punto corresponde a una trama de 20 ms
tomada de la señal vocal larga que contiene distintas variaciones de
habla y distintos hablantes. La curva B está ajustada para indicar
aproximadamente el límite inferior del área de señales de voz, es
decir, los puntos al lado izquierdo de la curva B no se consideran
como de habla en el procedimiento según la presente invención.
Como puede verse en la figura 4, la mayor parte
de la señal musical tiene una desviación estándar bastante pequeña
y una distribución de frecuencia relativamente pareja sobre las
frecuencias analizadas. Para la señal de voz graficada en la figura
5, la tendencia es la contraria, mayores desviaciones estándar y más
componentes de baja frecuencia. Poniendo ambas señales en el mismo
gráfico en la figura 6, y ajustando las curvas A y B para que
coincidan con las fronteras de las regiones para señales tanto de
música como de voz, es bastante fácil dividir la mayoría de las
señales musicales y la mayoría de las señales de voz en distintas
categorías. Las curvas ajustadas A y B en las figuras son las
mismas que las presentadas también en el
seudo-código adjunto anteriormente. Las imágenes
demuestran sólo una única desviación estándar y valores de
frecuencia bajos por altos, calculados con ventanas largas. El
seudo-código contiene un algoritmo que utiliza dos
esquemas distintos de ventanas, utilizando así dos versiones
distintas del algoritmo de correspondencia presentado en las Figuras
4, 5 y 6.
El área C limitada por las curvas A y B en la
Figura 6 indica el área solapada donde normalmente pueden
necesitarse medios adicionales para clasificar señales musicales y
vocales. El área C puede hacerse más pequeña utilizando distintas
longitudes de las ventanas de análisis para la variación de señales,
y combinando estas distintas mediciones como se hace en nuestro
ejemplo de seudo-código. Puede permitirse algo de
solapamiento, porque algunas de las señales musicales pueden
codificarse eficientemente con la compresión optimizada para el
habla, y algunas señales vocales pueden codificarse eficientemente
con la compresión optimizada para la música.
En el ejemplo presentado anteriormente, se
selecciona la mejor excitación ACELP, utilizando el
análisis-por-síntesis, y la
selección entre la mejor excitación ACELP y la excitación TCX se
hace por preseleccion.
Aunque la invención fue presentada anteriormente
utilizando dos procedimientos distintos de excitación, es posible
utilizar más de dos procedimientos distintos de excitación, y hacer
la selección entre ellos para comprimir señales de audio. También
es obvio que el filtro 300 puede dividir la señal de entrada en
bandas de frecuencia distintas a las presentadas anteriormente, y
también el número de bandas de frecuencia puede ser distinto a
12.
La Figura 7 ilustra un ejemplo de un sistema en
el cual puede aplicarse la presente invención. El sistema comprende
una o más fuentes 701 de audio que producen señales de voz y/o de
audio no vocal. Las señales de audio son convertidas en señales
digitales por un convertidor A/D 702 cuando es necesario. Las
señales digitalizadas se ingresan a un codificador 200 de un
dispositivo transmisor 700, en el cual se realiza la compresión
según la presente invención. Las señales comprimidas también se
cuantizan y se codifican para su transmisión en el codificador 200
cuando es necesario. Un transmisor 703, por ejemplo, un transmisor
de un dispositivo 700 de comunicaciones móviles, transmite las
señales comprimidas y codificadas a una red 704 de comunicación.
Las señales son recibidas, desde la red 704 de comunicación, por un
receptor 705 de un dispositivo receptor 706. Las señales recibidas
se transfieren desde el receptor 705 a un descodificador 707 para su
descodificación, descuantizacion y descompresión. El descodificador
707 comprende el medio 708 de detección para determinar el
procedimiento de compresión utilizado en el codificador 200 para una
trama actual. El descodificador 707 selecciona, sobre la base de la
determinación, un primer medio 709 de descompresión, o un segundo
medio 710 de descompresión, para descomprimir la trama actual. Las
señales descomprimidas se conectan desde el medio 709, 710 de
descompresión con un filtro 711 y un convertidor D/A 712, para
convertir la señal digital en una señal analógica. La señal
analógica puede transformarse luego en audio, por ejemplo, en un
altavoz 713.
La presente invención puede implementarse en
distintas clases de sistemas, especialmente en la transmisión a
baja velocidad, para lograr una compresión más eficiente que en los
sistemas de la tecnología anterior. El codificador 200 según la
presente invención puede implementarse en distintas partes de
sistemas de comunicaciones. Por ejemplo, el codificador 200 puede
implementarse en un dispositivo de comunicación móvil con
capacidades limitadas de procesamiento.
Es obvio que la presente invención no está
únicamente limitada a las realizaciones anteriormente descritas,
sino que puede modificarse dentro del alcance de las
reivindicaciones adjuntas.
Claims (50)
-
\global\parskip0.930000\baselineskip
1. Un codificador (200) que comprende una entrada (201) para el ingreso de tramas de una señal de audio en una banda de frecuencia, al menos un primer bloque (206) de excitación para llevar a cabo una primera excitación para una señal de audio similar al habla, y un segundo bloque (207) de excitación para llevar a cabo una segunda excitación para una señal de audio similar a la música, caracterizado porque el codificador (200) comprende adicionalmente un filtro (300) para dividir la banda de frecuencia en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y un bloque (203) de selección de excitación para seleccionar un bloque de excitación entre al menos dicho primer bloque (206) de excitación y dicho segundo bloque (207) de excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas. - 2. El codificador (200) según la reivindicación 1, caracterizado porque dicho filtro (300) comprende un bloque (301) de filtrado para producir información que indica las energías (E(n)) de señal de una trama actual de la señal de audio al menos en una subbanda, y porque dicho bloque (203) de selección de excitación comprende medios de determinación de energía para determinar la información de energía de la señal de al menos una subbanda.
- 3. El codificador (200) según la reivindicación 2, caracterizado porque están definidos al menos un primero y un segundo grupo de subbandas, conteniendo dicho segundo grupo subbandas de frecuencias mayores que dicho primer grupo, porque está definida una relación (LPH) entre la energía de señal normalizada (LevL) de dicho primer grupo de subbandas y la energía de señal normalizada (LevH) de dicho segundo grupo de subbandas, para las tramas de la señal de audio, y porque dicha relación (LPH) está dispuesta para ser empleada en la selección del bloque (206, 207) de excitación.
- 4. El codificador (200) según la reivindicación 3, caracterizado porque una o más subbandas de las subbandas disponibles se dejan fuera de dichos grupos primero y segundo de subbandas.
- 5. El codificador (200) según la reivindicación 4, caracterizado porque la subbanda de las menores frecuencias se deja fuera de dichos grupos primero y segundo de subbandas.
- 6. El codificador (200) según la reivindicación 3, 4 o 5, caracterizado porque se definen un primer número de tramas y un segundo número de tramas, siendo dicho segundo número mayor que dicho primer número, porque dicho bloque (203) de selección de excitación comprende medios de cálculo para calcular un primer valor (stdpcorta) de desviación estándar promedio utilizando las energías de señal del primer número de tramas, incluyendo la trama actual en cada subbanda, y para calcular un segundo valor (stdplarga) de desviación estándar promedio utilizando las energías de señal del segundo número de tramas, incluyendo la trama actual en cada subbanda.
- 7. El codificador (200) según cualquiera de las reivindicaciones 1 a 6, caracterizado porque dicho filtro (300) es un banco de filtrado de un detector (202) de actividad vocal.
- 8. El codificador (200) según cualquiera de las reivindicaciones 1 a 7, caracterizado porque dicho codificador (200) es un códec de banda ancha adaptable de múltiples velocidades (AMR-WB).
- 9. El codificador (200) según cualquiera de las reivindicaciones 1 a 8, caracterizado porque dicha primera excitación es una excitación de Predicción Lineal Excitada de Código Algebraico (ACELP) y dicha segunda excitación es una excitación codificada de transformación (TCX).
- 10. Un dispositivo (700) que comprende un codificador (200) que comprende una entrada (201) para el ingreso de tramas de una señal de audio en una banda de frecuencia, al menos un primer bloque (206) de excitación para llevar a cabo una primera excitación para una señal de audio similar al habla, y un segundo bloque (207) de excitación para llevar a cabo una segunda excitación para una señal de audio similar a la música, caracterizado porque dicho codificador (200) comprende un filtro (300) para dividir la banda de frecuencia en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, porque el dispositivo (700) también comprende un bloque (203) de selección de excitación para seleccionar un bloque de excitación entre al menos dicho primer bloque (206) de excitación y dicho segundo bloque (207) de excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas.
- 11. El dispositivo (700) según la reivindicación 10, caracterizado porque dicho filtro (300) comprende un bloque (301) de filtrado para producir información que indica las energías (E(n)) de señal de una trama actual de la señal de audio de al menos una subbanda, y porque dicho bloque (203) de selección de excitación comprende medios de determinación de energía para determinar la información de energía de señal de al menos una subbanda.
- 12. El dispositivo (700) según la reivindicación 11, caracterizado porque están definidos al menos un primer y un segundo grupo de subbandas, conteniendo dicho segundo grupo subbandas de mayores frecuencias que dicho primer grupo, porque se define una relación (LPH) entre la energía de señal normalizada (LevL) de dicho primer grupo de subbandas y la energía de señal normalizada (LevH) de dicho segundo grupo de subbandas, para las tramas de la señal de audio, y porque dicha relación (LPH) está dispuesta para ser empleada en la selección del bloque (206, 207) de excitación.
\global\parskip1.000000\baselineskip
- 13. El dispositivo (700) según la reivindicación 12, caracterizado porque una o más subbandas de las subbandas disponibles se dejan fuera de dichos grupos primero y segundo de subbandas.
- 14. El dispositivo (700) según la reivindicación 13, caracterizado porque la subbanda de las frecuencias más bajas se deja fuera de dichos grupos primero y segundo de subbandas.
- 15. El dispositivo (700) según las reivindicaciones 12, 13 o 14, caracterizado porque se definen un primer número de tramas y un segundo número de tramas, siendo dicho segundo número mayor que dicho primer número, porque dicho bloque (203) de selección de excitación comprende medios de cálculo para calcular un primer valor (stdpcorta) de desviación estándar promedio utilizando energías de señal del primer número de tramas, incluyendo la trama actual en cada subbanda, y para calcular un segundo valor (stdplarga) de desviación estándar promedio utilizando energías de señal del segundo número de tramas, incluyendo la trama actual en cada subbanda.
- 16. El dispositivo (700) según cualquiera de las reivindicaciones 10 a 15, caracterizado porque dicho filtro (300) es un banco de filtrado de un detector (202) de actividad vocal.
- 17. El dispositivo (700) según cualquiera de las reivindicaciones 10 a 16, caracterizado porque dicho codificador (200) es un códec de banda ancha adaptable de múltiples velocidades (AMR-WB).
- 18. El dispositivo (700) según cualquiera de las reivindicaciones 10 a 17, caracterizado porque dicha primera excitación es una excitación de Predicción Lineal Excitada de Código Algebraico (ACELP) y porque dicha segunda excitación es la excitación codificada de transformación (TCX).
- 19. El dispositivo (700) según cualquiera de las reivindicaciones 10 a 18, caracterizado porque es un dispositivo de comunicación móvil.
- 20. El dispositivo (700) según cualquiera de las reivindicaciones 10 a 19, caracterizado porque comprende un transmisor para transmitir tramas que incluyen parámetros producidos por el bloque (206, 207) de excitación seleccionado, por un canal de baja velocidad de bits.
- 21. Un sistema que comprende un codificador (200) que comprende una entrada (201) para el ingreso de tramas de una señal de audio en una banda de frecuencia, al menos un primer bloque (206) de excitación para llevar a cabo una primera excitación para una señal de audio similar al habla, y un segundo bloque (207) de excitación para llevar a cabo una segunda excitación para una señal de audio similar a la música, caracterizado porque dicho codificador (200) comprende adicionalmente un filtro (300) para dividir la banda de frecuencias en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, porque el sistema también comprende un bloque (203) de selección de excitación para seleccionar un bloque de excitación entre al menos dicho primer bloque (206) de excitación y dicho segundo bloque (207) de excitación, para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas.
- 22. El sistema según la reivindicación 21, caracterizado porque dicho filtro (300) comprende un bloque (301) de filtrado para producir información que indica las energías (E(n)) de señal de una trama actual de la señal de audio de al menos una subbanda, y porque dicho bloque (203) de selección de excitación comprende medios de determinación de energía para determinar la información de energía de señal de al menos una subbanda.
- 23. El sistema según la reivindicación 22, caracterizado porque se definen al menos un primer y un segundo grupo de subbandas, conteniendo dicho segundo grupo subbandas de frecuencias mayores que dicho primer grupo, porque se define una relación (LPH) entre la energía de señal normalizada (LevL) de dicho primer grupo de subbandas y la energía de señal normalizada (LevH) de dicho segundo grupo de subbandas para las tramas de la señal de audio, y porque dicha relación (LPH) está dispuesta para ser utilizada en la selección del bloque (206, 207) de excita-
ción. - 24. El sistema según la reivindicación 23, caracterizado porque una o más subbandas de las subbandas disponibles se dejan fuera de dichos grupos primero y segundo de subbandas.
- 25. El sistema según la reivindicación 24, caracterizado porque la subbanda de las frecuencias inferiores se deja fuera de dichos grupos primero y segundo de subbandas.
- 26. El sistema según las reivindicaciones 23, 24 o 25, caracterizado porque se definen un primer número de tramas y un segundo número de tramas, siendo dicho segundo número mayor que dicho primer número, porque dicho bloque (203) de selección de excitación comprende medios de cálculo para calcular un primer valor (stdpcorta) de desviación estándar promedio, utilizando energías de señal del primer número de tramas, incluyendo la trama actual de cada subbanda, y para calcular un segundo valor (stdplarga) de desviación estándar promedio, utilizando energías de señal del segundo número de tramas, incluyendo la trama actual en cada subbanda.
- 27. El sistema según cualquiera de las reivindicaciones 21 a 26, caracterizado porque dicho filtro (300) es un banco de filtrado de un detector (202) de actividad vocal.
- 28. El sistema según cualquiera de las reivindicaciones 21 a 27, caracterizado porque dicho codificador (200) es un códec de banda ancha adaptable de múltiples velocidades (AMR-WB).
- 29. El sistema según cualquiera de las reivindicaciones 21 a 28, caracterizado porque dicha primera excitación es una excitación de Predicción Lineal Excitada de Código Algebraico (ACELP) y dicha segunda excitación es una excitación codificada de transformación (TCX).
- 30. El sistema según cualquiera de las reivindicaciones 21 a 29, caracterizado porque es un dispositivo de comunicación móvil.
- 31. El sistema según cualquiera de las reivindicaciones 21 a 30, caracterizado porque comprende un transmisor para transmitir tramas que incluyen parámetros producidos por el bloque (206, 207) de excitación seleccionado, por un canal de baja velocidad de bits.
- 32. Un procedimiento para comprimir señales de audio en una banda de frecuencia, en el cual se utiliza una primera excitación para una señal de audio similar al habla, y se utiliza una segunda excitación para una señal de audio similar a la música, caracterizado porque la banda de frecuencia se divide en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y porque se selecciona una excitación entre al menos dicha primera excitación y dicha segunda excitación para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas.
- 33. El procedimiento según la reivindicación 32, caracterizado porque dicho filtro (300) comprende un bloque (301) de filtrado para producir información que indica las energías (E(n)) de señal de una trama actual de la señal de audio de al menos una subbanda, y porque dicho bloque (203) de selección de excitación comprende medios de determinación de energía para determinar la información de energía de señal de al menos una subbanda.
- 34. El procedimiento según la reivindicación 33, caracterizado porque se definen al menos un primer y un segundo grupo de subbandas, conteniendo dicho segundo grupo subbandas de frecuencias mayores que dicho primer grupo, porque se define una relación (LPH) entre la energía de señal normalizada (LevL) de dicho primer grupo de subbandas y la energía de señal normalizada (LevH) de dicho segundo grupo de subbandas, para las tramas de la señal de audio, y porque dicha relación (LPH) está dispuesta para ser utilizada en la selección del bloque (206, 207) de excita-
ción. - 35. El procedimiento según la reivindicación 34, caracterizado porque una o más subbandas de las subbandas disponibles se dejan fuera de dichos grupos primero y segundo de subbandas.
- 36. El procedimiento según la reivindicación 35, caracterizado porque la subbanda de frecuencias más bajas se deja fuera de dichos grupos primero y segundo de subbandas.
- 37. El procedimiento según las reivindicaciones 34, 35 o 36, caracterizado porque se definen un primer número de tramas y un segundo número de tramas, siendo dicho segundo número mayor que dicho primer número, porque dicho bloque (203) de selección de excitación comprende medios de cálculo para calcular un primer valor (stdpcorta) de desviación estándar promedio, utilizando energías de señal del primer número de tramas, incluyendo la trama actual en cada subbanda, y para calcular un segundo valor (stdplarga) de desviación estándar promedio, utilizando energías de señal del segundo número de tramas, incluyendo la trama actual en cada subbanda.
- 38. El procedimiento según cualquiera de las reivindicaciones 32 a 37, caracterizado porque dicho filtro (300) es un banco de filtrado de un detector (202) de actividad vocal.
- 39. El procedimiento según cualquiera de las reivindicaciones 32 a 38, caracterizado porque dicho codificador (200) es un códec de banda ancha adaptable de múltiples velocidades (AMR-WB).
- 40. El procedimiento según cualquiera de las reivindicaciones 32 a 39, caracterizado porque dicha primera excitación es una excitación de Predicción Lineal Excitada de Código Algebraico (ACELP) y dicha segunda excitación es una excitación codificada de transformación (TCX).
- 41. El procedimiento según cualquiera de las reivindicaciones 32 a 40, caracterizado porque las tramas que incluyen parámetros producidos por la excitación seleccionada se transmiten por un canal de baja velocidad de bits.
- 42. Un módulo para clasificar tramas de una señal de audio en una banda de frecuencia, para la selección de una excitación entre el menos una primera excitación para una señal de audio similar al habla, y una segunda excitación para una señal de audio similar a la música, caracterizado porque el módulo comprende adicionalmente una entrada para ingresar información que indica la banda de frecuencia, dividida en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y un bloque (203) de selección de excitación para seleccionar un bloque de excitación entre al menos dicho primer bloque (206) de excitación y dicho segundo bloque (207) de excitación, para llevar a cabo la excitación para una trama de la señal de audio, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas.
- 43. El módulo según la reivindicación 42, caracterizado porque se definen al menos un primer y un segundo grupo de subbandas, conteniendo dicho segundo grupo subbandas de mayores frecuencias que dicho primer grupo, porque se define una relación (LPH) entre la energía de señal normalizada (LevL) de dicho primer grupo de subbandas y la energía de señal normalizada (LevH) de dicho segundo grupo de subbandas, para las tramas de la señal de audio, y porque dicha relación (LPH) está dispuesta para ser utilizada en la selección del bloque (206, 207) de excitación.
- 44. El módulo según la reivindicación 43, caracterizado porque una o más subbandas de las subbandas disponibles se dejan fuera de dichos grupos primero y segundo de subbandas.
- 45. El módulo según la reivindicación 44, caracterizado porque la subbanda de frecuencias inferiores se deja fuera de dichos grupos primero y segundo de subbandas.
- 46. El módulo según las reivindicaciones 43, 44 o 45, caracterizado porque se definen un primer número de tramas y un segundo número de tramas, siendo dicho segundo número mayor que dicho primer número, porque dicho bloque (203) de selección de excitación comprende medios de cálculo para calcular un primer valor (stdpcorta) de desviación estándar promedio, utilizando energías de señal del primer número de tramas, incluyendo la trama actual en cada subbanda, y para calcular un segundo valor (stdplarga) de desviación estándar promedio, utilizando energías de señal del segundo número de tramas, incluyendo la trama actual de cada subbanda.
- 47. Un producto de programa de ordenador que comprende etapas ejecutables por máquina, para comprimir señales de audio en una banda de frecuencia, en el cual se utiliza una primera excitación para una señal de audio similar al habla, y se utiliza una segunda excitación para una señal de audio similar a la música, caracterizado porque el producto de programa de ordenador comprende adicionalmente etapas ejecutables por máquina para dividir la banda de frecuencia en una pluralidad de subbandas, teniendo cada una un ancho de banda más estrecho que dicha banda de frecuencia, y etapas ejecutables por máquina para seleccionar una excitación entre al menos dicha primera excitación y dicha segunda excitación, sobre la base de las propiedades de la señal de audio de al menos una de dichas subbandas, para llevar a cabo la excitación para una trama de la señal de audio.
- 48. El producto de programa de ordenador según la reivindicación 47, caracterizado porque comprende adicionalmente etapas ejecutables por máquina para producir información que indica las energías (E(n)) de señal de una trama actual de la señal de audio de al menos una subbanda, y etapas ejecutables por máquina para determinar la información de energía de señal de al menos una subbanda.
- 49. El producto de programa de ordenador según la reivindicación 48, caracterizado porque se definen un primer número de tramas y un segundo número de tramas, siendo dicho segundo número de tramas mayor que dicho primer número, porque el producto de programa de ordenador comprende adicionalmente etapas ejecutables por máquina de un medio de cálculo para calcular un primer valor (stdpcorta) de desviación estándar promedio, utilizando energías de señal del primer número de tramas, incluyendo la trama actual en cada subbanda, y para calcular un segundo valor (stdplarga) de desviación estándar promedio, utilizando energías de señal del segundo número de tramas, incluyendo la trama actual en cada subbanda.
- 50. El producto de programa de ordenador según cualquiera de las reivindicaciones 47 a 49, caracterizado porque comprende adicionalmente etapas ejecutables por máquina para llevar a cabo la excitación de Predicción Lineal Excitada de Código Algebraico (ACELP) como dicha primera excitación, y etapas ejecutables por máquina para llevar a cabo la excitación codificada de transformación (TCX) como dicha segunda excitación.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20045051 | 2004-02-23 | ||
FI20045051A FI118834B (fi) | 2004-02-23 | 2004-02-23 | Audiosignaalien luokittelu |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2337270T3 true ES2337270T3 (es) | 2010-04-22 |
Family
ID=31725817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05708203T Active ES2337270T3 (es) | 2004-02-23 | 2005-02-16 | Clasificacion de señales audio. |
Country Status (16)
Country | Link |
---|---|
US (1) | US8438019B2 (es) |
EP (1) | EP1719119B1 (es) |
JP (1) | JP2007523372A (es) |
KR (2) | KR20080093074A (es) |
CN (2) | CN103177726B (es) |
AT (1) | ATE456847T1 (es) |
AU (1) | AU2005215744A1 (es) |
BR (1) | BRPI0508328A (es) |
CA (1) | CA2555352A1 (es) |
DE (1) | DE602005019138D1 (es) |
ES (1) | ES2337270T3 (es) |
FI (1) | FI118834B (es) |
RU (1) | RU2006129870A (es) |
TW (1) | TWI280560B (es) |
WO (1) | WO2005081230A1 (es) |
ZA (1) | ZA200606713B (es) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
JP2009524101A (ja) * | 2006-01-18 | 2009-06-25 | エルジー エレクトロニクス インコーポレイティド | 符号化/復号化装置及び方法 |
US8015000B2 (en) * | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US20080033583A1 (en) * | 2006-08-03 | 2008-02-07 | Broadcom Corporation | Robust Speech/Music Classification for Audio Signals |
US7877253B2 (en) | 2006-10-06 | 2011-01-25 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
KR101379263B1 (ko) | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
WO2008090564A2 (en) * | 2007-01-24 | 2008-07-31 | P.E.S Institute Of Technology | Speech activity detection |
BRPI0807703B1 (pt) | 2007-02-26 | 2020-09-24 | Dolby Laboratories Licensing Corporation | Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador |
US8982744B2 (en) * | 2007-06-06 | 2015-03-17 | Broadcom Corporation | Method and system for a subband acoustic echo canceller with integrated voice activity detection |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US20090043577A1 (en) * | 2007-08-10 | 2009-02-12 | Ditech Networks, Inc. | Signal presence detection using bi-directional communication data |
WO2009027980A1 (en) * | 2007-08-28 | 2009-03-05 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Method, device and system for speech recognition |
JP2011504250A (ja) * | 2007-11-21 | 2011-02-03 | エルジー エレクトロニクス インコーポレイティド | 信号処理方法及び装置 |
DE102008022125A1 (de) * | 2008-05-05 | 2009-11-19 | Siemens Aktiengesellschaft | Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
KR101649376B1 (ko) * | 2008-10-13 | 2016-08-31 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
US8340964B2 (en) * | 2009-07-02 | 2012-12-25 | Alon Konchitsky | Speech and music discriminator for multi-media application |
US8606569B2 (en) * | 2009-07-02 | 2013-12-10 | Alon Konchitsky | Automatic determination of multimedia and voice signals |
KR101615262B1 (ko) | 2009-08-12 | 2016-04-26 | 삼성전자주식회사 | 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치 |
JP5395649B2 (ja) * | 2009-12-24 | 2014-01-22 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置及びプログラム |
CA3093517C (en) | 2010-07-02 | 2021-08-24 | Dolby International Ab | Audio decoding with selective post filtering |
ES2968927T3 (es) * | 2010-07-08 | 2024-05-14 | Fraunhofer Ges Forschung | Decodificador que utiliza cancelación del efecto de solapamiento hacia delante |
AU2012217158B2 (en) | 2011-02-14 | 2014-02-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Information signal representation using lapped transform |
PL2676266T3 (pl) | 2011-02-14 | 2015-08-31 | Fraunhofer Ges Forschung | Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej |
BR112013020324B8 (pt) | 2011-02-14 | 2022-02-08 | Fraunhofer Ges Forschung | Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio |
ES2535609T3 (es) | 2011-02-14 | 2015-05-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de audio con estimación de ruido de fondo durante fases activas |
PL2676268T3 (pl) | 2011-02-14 | 2015-05-29 | Fraunhofer Ges Forschung | Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej |
CN103493129B (zh) | 2011-02-14 | 2016-08-10 | 弗劳恩霍夫应用研究促进协会 | 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法 |
PT2676267T (pt) | 2011-02-14 | 2017-09-26 | Fraunhofer Ges Forschung | Codificação e descodificação de posições de pulso de faixas de um sinal de áudio |
AR085895A1 (es) * | 2011-02-14 | 2013-11-06 | Fraunhofer Ges Forschung | Generacion de ruido en codecs de audio |
CN102982804B (zh) * | 2011-09-02 | 2017-05-03 | 杜比实验室特许公司 | 音频分类方法和系统 |
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
CN104321815B (zh) * | 2012-03-21 | 2018-10-16 | 三星电子株式会社 | 用于带宽扩展的高频编码/高频解码方法和设备 |
KR102561265B1 (ko) | 2012-11-13 | 2023-07-28 | 삼성전자주식회사 | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 |
CN107424621B (zh) | 2014-06-24 | 2021-10-26 | 华为技术有限公司 | 音频编码方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2746039B2 (ja) * | 1993-01-22 | 1998-04-28 | 日本電気株式会社 | 音声符号化方式 |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
EP0932141B1 (en) * | 1998-01-22 | 2005-08-24 | Deutsche Telekom AG | Method for signal controlled switching between different audio coding schemes |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
US6640208B1 (en) * | 2000-09-12 | 2003-10-28 | Motorola, Inc. | Voiced/unvoiced speech classifier |
US6615169B1 (en) * | 2000-10-18 | 2003-09-02 | Nokia Corporation | High frequency enhancement layer coding in wideband speech codec |
KR100367700B1 (ko) * | 2000-11-22 | 2003-01-10 | 엘지전자 주식회사 | 음성부호화기의 유/무성음정보 추정방법 |
US6658383B2 (en) | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
-
2004
- 2004-02-23 FI FI20045051A patent/FI118834B/fi active
-
2005
- 2005-02-16 BR BRPI0508328-1A patent/BRPI0508328A/pt not_active Application Discontinuation
- 2005-02-16 CA CA002555352A patent/CA2555352A1/en not_active Abandoned
- 2005-02-16 KR KR1020087023376A patent/KR20080093074A/ko not_active Application Discontinuation
- 2005-02-16 JP JP2006553606A patent/JP2007523372A/ja not_active Withdrawn
- 2005-02-16 EP EP05708203A patent/EP1719119B1/en active Active
- 2005-02-16 AU AU2005215744A patent/AU2005215744A1/en not_active Abandoned
- 2005-02-16 AT AT05708203T patent/ATE456847T1/de not_active IP Right Cessation
- 2005-02-16 KR KR1020067019490A patent/KR100962681B1/ko active IP Right Grant
- 2005-02-16 DE DE602005019138T patent/DE602005019138D1/de active Active
- 2005-02-16 WO PCT/FI2005/050035 patent/WO2005081230A1/en active Application Filing
- 2005-02-16 RU RU2006129870/09A patent/RU2006129870A/ru not_active Application Discontinuation
- 2005-02-16 CN CN201310059627.XA patent/CN103177726B/zh active Active
- 2005-02-16 ES ES05708203T patent/ES2337270T3/es active Active
- 2005-02-16 CN CNA2005800056082A patent/CN1922658A/zh active Pending
- 2005-02-21 TW TW094104984A patent/TWI280560B/zh not_active IP Right Cessation
- 2005-02-22 US US11/063,664 patent/US8438019B2/en active Active
-
2006
- 2006-08-14 ZA ZA200606713A patent/ZA200606713B/en unknown
Also Published As
Publication number | Publication date |
---|---|
EP1719119B1 (en) | 2010-01-27 |
KR20080093074A (ko) | 2008-10-17 |
CN103177726B (zh) | 2016-11-02 |
CA2555352A1 (en) | 2005-09-01 |
BRPI0508328A (pt) | 2007-08-07 |
RU2006129870A (ru) | 2008-03-27 |
EP1719119A1 (en) | 2006-11-08 |
FI20045051A0 (fi) | 2004-02-23 |
TWI280560B (en) | 2007-05-01 |
ZA200606713B (en) | 2007-11-28 |
KR20070088276A (ko) | 2007-08-29 |
TW200532646A (en) | 2005-10-01 |
CN103177726A (zh) | 2013-06-26 |
ATE456847T1 (de) | 2010-02-15 |
US8438019B2 (en) | 2013-05-07 |
WO2005081230A1 (en) | 2005-09-01 |
KR100962681B1 (ko) | 2010-06-11 |
CN1922658A (zh) | 2007-02-28 |
FI118834B (fi) | 2008-03-31 |
DE602005019138D1 (de) | 2010-03-18 |
AU2005215744A1 (en) | 2005-09-01 |
FI20045051A (fi) | 2005-08-24 |
US20050192798A1 (en) | 2005-09-01 |
JP2007523372A (ja) | 2007-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2337270T3 (es) | Clasificacion de señales audio. | |
ES2349554T3 (es) | Codificación de señales. | |
EP1719120B1 (en) | Coding model selection | |
ES2338117T3 (es) | Codificacion de audio con diferentes longitudes de trama de codificacion. | |
RU2351907C2 (ru) | Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком) | |
ES2380307T3 (es) | Esquema de codificación/decodificación de audio de tasa de transmisión de bits baja con preprocesamiento común. | |
ES2625895T3 (es) | Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal | |
ES2380962T3 (es) | Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento | |
US20020161576A1 (en) | Speech coding system with a music classifier | |
ES2238860T3 (es) | Codificacion a baja velocidad de bit de segmentos de voz sordos. | |
ES2687249T3 (es) | Decisión no sonora/sonora para el procesamiento de la voz | |
JP2008503783A (ja) | オーディオ信号のエンコーディングにおけるコーディング・モデルの選択 | |
MXPA06009369A (es) | Clasificacion de señales de audio | |
MXPA06009370A (es) | Seleccion de modelos de codificacion |