ES2839086T3 - Concepto para codificar una señal de audio y decodificar una señal de audio usando información determinista y con características de ruido - Google Patents

Concepto para codificar una señal de audio y decodificar una señal de audio usando información determinista y con características de ruido Download PDF

Info

Publication number
ES2839086T3
ES2839086T3 ES14786471T ES14786471T ES2839086T3 ES 2839086 T3 ES2839086 T3 ES 2839086T3 ES 14786471 T ES14786471 T ES 14786471T ES 14786471 T ES14786471 T ES 14786471T ES 2839086 T3 ES2839086 T3 ES 2839086T3
Authority
ES
Spain
Prior art keywords
signal
gain parameter
drive signal
information
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14786471T
Other languages
English (en)
Inventor
Guillaume Fuchs
Markus Multrus
Emmanuel Ravelli
Markus Schnell
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2839086T3 publication Critical patent/ES2839086T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Codificador para codificar una señal de audio, comprendiendo el codificador: un analizador (120; 320) configurado para derivar los coeficientes de predicción (122; 322) y una señal residual a partir de una trama no vocal de la señal de audio (102); una calculadora de parámetros de ganancia (550; 550') configurada para calcular una primera información de parámetros de ganancia (gc) para definir una primera señal de excitación (c(n)) relativa a un libro de códigos determinista y para calcular una segunda información de parámetros de ganancia (gn) para definir una segunda señal de excitación (n(n)) relativa a una señal con características de ruido para la trama no vocal; un formador de corrientes de bits (690) configurado para formar una señal de salida (692) basándose en una información de señal vocal (142), una información (182) relativa a los coeficientes de predicción (122; 322), la primera información de parámetros de ganancia (gc) y la segunda información de parámetros de ganancia (gn); y un determinador (130) configurado para determinar si la señal residual se determinó a partir de una trama de audio de señal no vocal; en el que el codificador comprende una memoria LTP (350n) y un generador de señales (850) para generar una señal de excitación adaptativa para la trama vocal; y en el que, cuando se compara con un esquema de codificación de CELP, el codificador se configura para no transmitir parámetros de LTP para la trama no vocal para guardar bits, en el que la señal de excitación adaptativa se ajusta a cero para la trama no vocal, y en el que el libro de códigos determinista se configura para codificar más pulsos para una misma tasa de bits usando los bits guardados; en el que el codificador comprende además un cuantificador (170-1, 170-2) configurado para cuantificar el primer parámetro de ganancia (gc) para obtener un primer parámetro de ganancia cuantificada en el que el controlador de parámetros de ganancia (550n) se configura para determinar el primer parámetro de ganancia (gc) basándose en: **(Ver fórmula)** en el que gc es el primer parámetro de ganancia, Lsf es el tamaño de la subtrama en muestras, cw(n) indica la primera señal de excitación conformada, xw(n) indica una señal codificadora de Predicción Lineal Excitada por Código, en el que el controlador de parámetros de ganancia (550n) o el cuantificador (170-1, 170-2) está configurado asimismo para normalizar el primer parámetro de ganancia (gc) para obtener un primer parámetro de ganancia normalizada basándose en: **(Ver fórmula)** en el que gnc indica el primer parámetro de ganancia normalizada y**(Ver fórmula)** es una medición para una energía promedio de la señal residual no vocal sobre toda la trama; y en el que el cuantificador (170-1, 170-2) se configura para cuantificar el primer parámetro de ganancia normalizada para obtener el primer parámetro de ganancia cuantificada **(Ver fórmula)** en el que el cuantificador (170-1, 170-2) está configurado para cuantificar el segundo parámetro de ganancia (gn) para obtener un segundo parámetro de ganancia cuantificada (gn) en el que el controlador de parámetros de ganancia (550; 550') está configurado para determinar el segundo parámetro de ganancia (gn) determinando un valor de error basándose en: **(Ver fórmula)** en el que k es un factor de atenuación variable en un intervalo entre 0,5 y 1 y depende de o se basa en los coeficientes de predicción, Lsf corresponde al tamaño de una subtrama de una trama de audio procesada, cw(n) indica la primera señal de excitación conformada (c(n)), xw(n) indica una señal codificadora de Predicción Lineal Excitada por Código, gn indica el segundo parámetro de ganancia y indica un primer parámetro de ganancia cuantificada; en el que el controlador de parámetros de ganancia (550; 550') está configurado para determinar el error para la subtrama actual y en el que el cuantificador (170-1, 170-2) está configurado para determinar la segunda ganancia cuantificada (gn) que minimiza el error y para obtener la segunda ganancia cuantificada (gn) basándose en: **(Ver fórmula)** donde Q(indexn) indica un valor escalar de un conjunto finito de valores posibles; en el que el cuantificador (170-2) se configura para determinar el valor de error basándose en un desajuste de energía entre la primera señal de excitación conformada (c(n)) y la segunda señal de excitación, en el que el cuantificador (170-1) se configura para determinar el primer parámetro de ganancia (gc) basándose en un error cuadrático medio o error de raíz cuadrada promedio.

Description

DESCRIPCIÓN
Concepto para codificar una señal de audio y decodificar una señal de audio usando información determinista y con características de ruido
La presente invención se refiere a codificadores para codificar una señal de audio, en particular una señal de audio relacionada con la voz. La presente invención se refiere, además, a sistemas y métodos para decodificar una señal de audio codificada. La presente invención se refiere asimismo a señales de audio codificadas y a una codificación no vocal de voz avanzada a tasas de bits bajas.
Con una tasa de bits baja, la codificación de la voz puede beneficiarse de una manipulación especial para las tramas no vocales a fin de mantener la calidad de la voz y reducir al mismo tiempo la tasa de bits. Las tramas no vocales pueden modelarse perceptualmente como una excitación aleatoria que se conforma tanto en el dominio de la frecuencia como del tiempo. Dado que la forma de la onda y la excitación parecen y suenan casi igual que un ruido blanco gaussiano, su codificación de la forma de la onda puede relajarse y reemplazarse por un ruido blanco generado sintéticamente. La codificación consistirá entonces en codificar las formas de los dominios del tiempo y de la frecuencia de la señal.
La figura 16 muestra un diagrama de bloques esquemático de un esquema de codificación no vocal paramétrica. Un filtro de síntesis 1202 está configurado para modelar el aparato vocal y está parametrizado por los parámetros de LPC (Codificación Predictiva Lineal). Del filtro de LPC derivado que comprende una función de filtro A(z), puede derivarse un filtro ponderado perceptual mediante la ponderación de los coeficientes de LPC. El filtro perceptual fw(n) generalmente tiene una función de transferencia de la forma:
Figure imgf000002_0004
en el que w es inferior a 1. El parámetro de ganancia gn se calcula para obtener una energía sintetizada correspondiente a la energía original en el dominio perceptual según:
Figure imgf000002_0001
donde sw(n) y nw(n) son la señal de entrada y el ruido generado, respectivamente, filtrados por el filtro perceptual fw(n). La ganancia gn se calcula para cada subtrama de tamaño Ls. Por ejemplo, una señal de audio puede dividirse en tramas con una longitud de 20 ms. Cada trama puede subdividirse en subtramas, por ejemplo, en cuatro subtramas, cada una comprendiendo una longitud de 5 ms.
El esquema de codificación de predicción lineal excitada por código (CELP) se usa ampliamente en comunicaciones de voz y es una manera muy eficiente de codificar la voz. Ofrece una calidad de voz más natural que la codificación paramétrica, pero también requiere tasas más altas. La CELP sintetiza una señal de audio por transmisión a un filtro Predictivo Lineal, llamado filtro de síntesis de LPC que puede comprender una forma 1/A(z), la suma de dos excitaciones. Una excitación proviene del pasado decodificado, lo que se llama el libro de códigos adaptativo. La otra contribución proviene de un libro de códigos innovativo poblado por códigos fijos. Sin embargo, a tasas de bits bajas el libro de códigos innovativo no está lo suficientemente poblado como para modelar de manera eficaz la fina estructura de la voz o la excitación con características de ruido de lo no vocal. Por lo tanto, la calidad perceptual se degrada, especialmente las tramas no vocales, que entonces suenan chillones y artificiales.
Para mitigar las distorsiones de codificación a tasas de bits bajas, ya se han propuesto diferentes soluciones. En G.718[1] y [2], los códigos del libro de códigos innovativo están conformados adaptativa y espectralmente mediante la mejora de las regiones espectrales correspondientes a los formantes de la trama actual. Las formas y posiciones de formantes pueden deducirse directamente de los coeficientes de LPC, coeficientes ya disponibles tanto del lado del codificador como del lado del decodificador. La mejora de formantes de los códigos c(n) se hace mediante una simple filtración según:
Figure imgf000002_0003
en el que * indica el operador de convolución y en el que fe(n) es la respuesta al impulso del filtro de función de transferencia:
Figure imgf000002_0002
donde w1 y w2 son las dos constantes de ponderación que enfatizan más o menos la estructura formántica de la función de transferencia Ffe(z). Los códigos conformados resultantes heredan una característica de la señal de voz y la señal sintetizada suena más limpia.
En la CELP, también es habitual agregar una inclinación espectral al decodificador del libro de códigos innovativo. Esto se hace filtrando los códigos con el siguiente filtro:
Figure imgf000003_0001
El factor p generalmente está relacionado con la sonorización de la trama anterior y es dependiente, es decir, varía. La sonorización puede estimarse a partir de la contribución de energía del libro de códigos adaptativo. Si la trama anterior es vocal, se considera que la trama actual también será vocal y que los códigos deberían tener más energía en las frecuencias bajas, es decir, deberían mostrar una inclinación negativa. Por el contrario, la inclinación espectral agregada será positiva para tramas vocales y se distribuirá más energía hacia las frecuencias altas.
El uso de la conformación espectral para la mejora de la voz y la reducción del ruido de la salida del decodificador es una práctica habitual. La denominada mejora de formantes como postfiltración consiste en una postfiltración adaptativa para la cual los coeficientes se derivan de los parámetros de LPC del decodificador. El postfiltro resulta similar al (fe(n)) usado para conformar la excitación innovativa en ciertos codificadores de CELP, tal como se comentó anteriormente. Sin embargo, en ese caso, la postfiltración solo se aplica al final del proceso de decodificación y no en el lado del codificador.
En la CELP convencional (CELP = Predicción Lineal Excitada por Libro (de Códigos)), la conformación de la frecuencia se modela por el filtro de síntesis de LP (Predicción Lineal), mientras que la conformación del dominio del tiempo puede aproximarse por la ganancia de excitación enviada a cada subtrama, aunque la Predicción a Largo Plazo (LTP) y el libro de códigos innovativo no resultan adecuados en general para modelar la excitación con características de ruido de las tramas no vocales. La CELP necesita una tasa de bits relativamente alta para alcanzar una buena calidad de la voz no vocal.
Una caracterización vocal o no vocal puede relacionarse con la segmentación de la voz en porciones y asociar cada una de ellas a un modelo de voz original diferente. Los modelos originales, tal como se usan en el esquema de codificación de la voz de CELP, se basan en una excitación armónica adaptativa que simula el flujo de aire que sale por la glotis y un filtro de resonancia modela el aparato vocal excitado por el flujo de aire producido. Tales modelos pueden proporcionar buenos resultados para fonemas tales como las vocales, pero pueden dar como resultado un modelado incorrecto para las porciones de voz que no son generadas por la glotis, en particular cuando las cuerdas vocales no vibran tal como sucede con los fonemas no vocales “s” o “f”.
Por otra parte, los codificadores de voz paramétricos también se llaman codificadores vocales y adoptan un modelo original único para tramas no vocales. Puede alcanzar tasas de bits muy bajas, consiguiendo al mismo tiempo una denominada calidad sintética no tan natural como la calidad lograda con los esquemas de codificación de CELP a tasas mucho más altas.
En el documento US 2004/0148162 A1 se describe un método para codificar señales de voz que incluye una reducción de la cantidad de datos usados para representar un factor de amplificación y la entrada de un libro de códigos adaptativo.
Por ende, existe una necesidad de mejorar las señales de audio.
Un objeto de la presente invención es aumentar la calidad del sonido a tasas de bits bajas y/o reducir las tasas de bits para conseguir una buena calidad de sonido, dicha presente invención se define por las reivindicaciones adjuntas.
Posteriormente, se describirán las realizaciones preferidas de la presente invención con respecto a los dibujos adjuntos, en los cuales:
la figura 1 muestra un diagrama de bloques esquemático de un codificador para codificar una señal de audio según una realización del primer aspecto;
la figura 2 muestra un diagrama de bloques esquemático de un decodificador para decodificar una señal de entrada recibida según una realización del primer aspecto;
la figura 3 muestra un diagrama de bloques esquemático de un codificador adicional para codificar la señal de audio según una realización del primer aspecto;
la figura 4 muestra un diagrama de bloques esquemático de un codificador que comprende una calculadora de parámetros de ganancia variada cuando se compara con la figura 3 según una realización del primer aspecto;
la figura 5 muestra un diagrama de bloques esquemático de una calculadora de parámetros de ganancia configurada para calcular una primera información de parámetros de ganancia y para conformar una señal excitada por código según una realización del segundo aspecto;
la figura 6 muestra un diagrama de bloques esquemático de un codificador para codificar la señal de audio y que comprende la calculadora de parámetros de ganancia descrita en la figura 5 según una realización del segundo aspecto;
la figura 7 muestra un diagrama de bloques esquemático de una calculadora de parámetros de ganancia que comprende un conformador adicional configurado para conformar una señal con características de ruido cuando se compara con la figura 5 según una realización del segundo aspecto;
la figura 8 muestra un diagrama de bloques esquemático de un esquema de codificación no vocal para CELP según una realización del segundo aspecto;
la figura 9 muestra un diagrama de bloques esquemático de una codificación no vocal paramétrica según una realización del primer aspecto;
la figura 10 muestra un diagrama de bloques esquemático de un decodificador para decodificar una señal de audio codificada según una realización del segundo aspecto;
la figura 11a muestra un diagrama de bloques esquemático de un conformador que implementa una estructura alternativa cuando se compara con un conformador mostrado en la figura 2, según una realización del primer aspecto;
la figura 11b muestra un diagrama de bloques esquemático de un conformador adicional que implementa una alternativa adicional cuando se compara con el conformador mostrado en la figura 2, según una realización del primer aspecto;
la figura 12 muestra un diagrama de flujo esquemático de un método para codificar una señal de audio según una realización del primer aspecto;
la figura 13 muestra un diagrama de flujo esquemático de un método para decodificar una señal de audio recibida que comprende coeficientes de predicción y un parámetro de ganancia, según una realización del primer aspecto;
la figura 14 muestra un diagrama de flujo esquemático de un método para codificar una señal de audio según una realización del segundo aspecto; y
la figura 15 muestra un diagrama de flujo esquemático de un método para decodificar una señal de audio recibida, según una realización del segundo aspecto.
Los elementos iguales o equivalentes o los elementos con funcionalidad igual o equivalente se indican en la siguiente descripción con números de referencia iguales o equivalentes, incluso si aparecen en figuras diferentes.
En la siguiente descripción, se expone una pluralidad de detalles para proporcionar una explicación más completa de las realizaciones de la presente invención. Sin embargo, los expertos en la técnica observarán que las realizaciones de la presente invención pueden llevarse a la práctica sin esos detalles específicos. En otros casos, las estructuras y dispositivos muy conocidos se ilustran en forma de diagrama de bloques en lugar de hacerlo detalladamente, para no entorpecer las realizaciones de la presente invención. Además, las características de las diferentes realizaciones descritas a continuación en el presente documento pueden combinarse entre sí, a menos que se indique específicamente otra cosa.
A continuación, se hará referencia a la modificación de una señal de audio. Una señal de audio puede modificarse mediante la amplificación y/o atenuación de porciones de la señal de audio. Una porción de la señal de audio puede ser, por ejemplo, una secuencia de la señal de audio en el dominio del tiempo y/o un espectro de la misma en el dominio de la frecuencia. Con respecto al dominio de la frecuencia, el espectro puede modificarse mediante la amplificación o atenuación de los valores espectrales dispuestos en frecuencias o intervalos de frecuencias. La modificación del espectro de la señal de audio puede comprender una secuencia de operaciones tales como una amplificación y/o atenuación de una primera frecuencia o intervalo de frecuencias y posteriormente una amplificación y/o una atenuación de una segunda frecuencia o intervalo de frecuencias. Las modificaciones en el dominio de la frecuencia pueden representarse como un cálculo, por ejemplo, una multiplicación, división, suma o similar, de valores espectrales y valores de ganancia y/o valores de atenuación. Las modificaciones pueden realizarse secuencialmente, tal como primero multiplicando los valores espectrales con un primer valor de multiplicación y luego con un segundo valor de multiplicación. Hacer la multiplicación con el segundo valor de multiplicación y luego con el primer valor de multiplicación permite recibir un resultado idéntico o casi idéntico. Además, el primer valor de multiplicación y el segundo valor de multiplicación pueden combinarse primero y luego aplicarse en términos de un valor de multiplicación combinado a los valores espectrales mientras recibe el mismo resultado o un resultado comparable de la operación. Por consiguiente, las etapas de modificación configuradas para formar o modificar un espectro de la señal de audio descritas a continuación no se limitan al orden descrito, sino que también pueden ejecutarse en un orden diferente mientras reciben el mismo resultado y/o efecto.
La figura 1 muestra un diagrama de bloques esquemático de un codificador 100 para codificar una señal de audio 102. El codificador 100 comprende un constructor de tramas 110 configurado para generar una secuencia de tramas 112 basándose en la señal de audio 102. La secuencia 112 comprende una pluralidad de tramas, en la que cada trama de la señal de audio 102 comprende una longitud (duración de tiempo) en el dominio del tiempo. Por ejemplo, cada trama puede comprender una longitud de 10 ms, 20 ms o 30 ms.
El codificador 100 comprende un analizador 120 configurado para derivar los coeficientes de predicción (LPC = coeficientes de predicción lineal) 122 y una señal residual 124 a partir de una trama de la señal de audio. El constructor de tramas 110 o el analizador 120 está configurado para determinar una representación de la señal de audio 102 en el dominio de la frecuencia. Alternativamente, la señal de audio 102 puede ser ya una representación en el dominio de la frecuencia.
Los coeficientes de predicción 122 pueden ser, por ejemplo, coeficientes de predicción lineal. Alternativamente, también puede aplicarse predicción no lineal de manera que el predictor 120 está configurado para determinar coeficientes de predicción no lineal. Una ventaja de la predicción lineal consiste en una reducción del esfuerzo computacional para determinar los coeficientes de predicción.
El codificador 100 comprende un determinador vocal/no vocal 130 configurado para determinar si la señal residual 124 fue determinada a partir de una trama de audio no vocal. El determinador 130 está configurado para proporcionar la señal residual a un codificador de tramas vocales 140 si la señal residual 124 fue determinada a partir de una trama de señal vocal y para proporcionar la señal residual a una calculadora de parámetros de ganancia 150 si la señal residual 124 fue determinada a partir de una trama de audio no vocal. Para determinar si la señal residual 122 fue determinada a partir de una trama de señal vocal o no vocal, el determinador 130 puede usar diferentes enfoques, tales como una autocorrelación de muestras de la señal residual. Se proporciona un método para decidir si una trama de señal era vocal o no vocal, por ejemplo, en el estándar G.718 de la ITU (Unión Internacional de Telecomunicaciones) - T (sector de estandarización de telecomunicaciones).
Una alta cantidad de energía dispuesta a frecuencias bajas puede indicar una porción vocal de la señal. Alternativamente, una señal no vocal puede dar como resultado grandes cantidades de energía a frecuencias altas.
El codificador 100 comprende una calculadora de información de formantes 160 configurada para calcular una información de conformación espectral relacionada con la voz a partir de los coeficientes de predicción 122.
La información de conformación espectral relacionada con la voz puede considerar información de formantes, por ejemplo, mediante la determinación de las frecuencias o intervalos de frecuencias de la trama de audio procesada que comprenden una cantidad de energía más alta que en la proximidad. La información de conformación espectral puede segmentar el espectro de magnitud de la voz en regiones de frecuencia de formantes, es decir, picos, y de no formantes, es decir, valle. Las regiones de formantes del espectro pueden, por ejemplo, derivarse usando la representación de Frecuencias Espectrales de Inmitancia (ISF) o Frecuencias Espectrales de Línea (LSF) de los coeficientes de predicción 122. En efecto, la ISF o LSF representan las frecuencias para las que resuena el filtro de síntesis que usa los coeficientes de predicción 122.
La información de conformación espectral relacionada con la voz 162 y las residuales no vocales se transmiten a la calculadora de parámetros de ganancia 150 que está configurada para calcular un parámetro de ganancia gn a partir de la señal residual no vocal y la información de conformación espectral 162. El parámetro de ganancia gn puede ser un valor escalar o una pluralidad de los mismos, es decir, el parámetro de ganancia puede comprender una pluralidad de valores relativos a una amplificación o atenuación de los valores espectrales en una pluralidad de intervalos de frecuencias de un espectro de la señal que se va a amplificar o atenuar. Un decodificador puede configurarse para aplicar el parámetro de ganancia gn a la información de una señal de audio codificada recibida de manera que las porciones de las señales de audio codificadas recibidas sean amplificadas o atenuadas basándose en el parámetro de ganancia durante la decodificación. La calculadora de parámetros de ganancia 150 puede configurarse para determinar el parámetro de ganancia gn mediante una o más expresiones matemáticas o reglas de determinación que dan como resultado un valor continuo. Las operaciones realizadas de manera digital, por ejemplo, por medio de un procesador, que expresa el resultado en una variable con un número limitado de bits, puede dar como resultado una ganancia cuantificada gn. Como alternativa, el resultado puede cuantificarse adicionalmente según un esquema de cuantificación de manera que se obtenga una información de ganancia cuantificada. El codificador 100, por lo tanto, puede comprender un cuantificador 170. El cuantificador 170 puede configurarse para cuantificar la ganancia determinada gn, hasta un valor digital más cercano soportado por las operaciones digitales del codificador 100. Alternativamente, el cuantificador 170 puede configurarse para aplicar una función de cuantificación (lineal o no lineal) a un factor de ganancia gn ya digitalizado y por lo tanto cuantificado. Una función de cuantificación no lineal puede considerar, por ejemplo, dependencias logarítmicas del oído humano altamente sensibles a niveles de presión de sonido bajos y menos sensibles a niveles de presión altos.
El codificador 100 comprende además una unidad derivadora de información 180 configurada para derivar una información relacionada con los coeficientes de predicción 182 a partir de los coeficientes de predicción 122. Los coeficientes de predicción, tales como los coeficientes de predicción lineal usados para excitar libros de códigos innovativos, comprenden una baja robustez contra distorsiones o errores. Por lo tanto, por ejemplo, se sabe que convierte coeficientes de predicción lineal a frecuencias interespectrales (ISF) y/o deriva pares espectrales de líneas (LSP) y transmite una información relativa a los mismos con la señal de audio codificada. La información de LSP y/o ISF comprende una mayor robustez contra las distorsiones en el medio de transmisión, por ejemplo, error, o errores de calculadora. La unidad derivadora de información 180 puede comprender además un cuantificador configurado para proporcionar una información cuantificada con respecto a LSF y/o ISP.
Alternativamente, la unidad derivadora de información puede configurarse para transmitir los coeficientes de predicción 122. Alternativamente, el codificador 100 puede realizarse sin la unidad derivadora de información 180. Alternativamente, el cuantificador puede ser un bloque funcional de la calculadora de parámetros de ganancia 150 o del formador de corrientes de bits 190, de manera que el formador de corrientes de bits 190 se configura para recibir el parámetro de ganancia gn y derivar la ganancia cuantificada gn basada en el mismo. Alternativamente, cuando el parámetro de ganancia gn ya está cuantificado, el codificador 100 puede realizarse sin el cuantificador 170.
El codificador 100 comprende un formador de corrientes de bits 190 configurado para recibir una señal vocal, una información vocal 142 relativa a una trama vocal de una señal de audio codificada respectivamente proporcionada por el codificador de tramas vocales 140, para recibir la ganancia cuantificada gn y la información relativa a los coeficientes de predicción 182 y formar una señal de salida 192 basada en la misma.
El codificador 100 puede ser parte de un aparato codificador de voz tal como un teléfono fijo o móvil o un aparato que comprende un micrófono para transmitir señales de audio, tal como un ordenador, un PC de tableta o similares. La señal de salida 192 o una señal derivada de la misma pueden transmitirse, por ejemplo, mediante comunicaciones móviles (inalámbricas) o mediante comunicaciones cableadas tal como una señal de red.
Una ventaja del codificador 100 es que la señal de salida 192 comprende información derivada de una información de conformación espectral convertida a la ganancia cuantificada gn. Por lo tanto, la decodificación de la señal de salida 192 puede permitir conseguir u obtener información adicional relativa a la voz y, por lo tanto, decodificar la señal de manera que la señal decodificada obtenida comprende una alta calidad con respecto a un nivel percibido de calidad de voz.
La figura 2 muestra un diagrama de bloques esquemático de un decodificador 200 para decodificar una señal de entrada recibida 202. La señal de entrada recibida 202 puede corresponder, por ejemplo, a la señal de salida 192 proporcionada por el codificador 100, en el que la señal de salida 192 puede codificarse a través de codificadores de capas de alto nivel, transmitida a través de un medio, recibida por un aparato receptor, decodificada en capas altas, produciendo la señal de entrada 202 para el decodificador 200.
El decodificador 200 comprende un deformador de corrientes de bits (demultiplexor; DE-MUX) para recibir la señal de entrada 202. El deformador de corrientes de bits 210 está configurado para proporcionar los coeficientes de predicción 122, la ganancia cuantificada gn y la información vocal 142. Para obtener los coeficientes de predicción 122, el deformador de corrientes de bits puede comprender una unidad derivadora de información inversa que realiza una operación inversa cuando se compara con la unidad derivadora de información 180. Alternativamente, el decodificador 200 puede comprender una unidad derivadora de información inversa no mostrada configurada para ejecutar la operación inversa con respecto a la unidad derivadora de información 180. En otras palabras, los coeficientes de predicción se decodifican, es decir, se restauran.
El decodificador 200 comprende una calculadora de información de formantes 220 configurada para calcular una información de conformación espectral relacionada con la voz a partir de los coeficientes de predicción 122 tal como se describió para la calculadora de información de formantes 160. La calculadora de información de formantes 220 está configurada para proporcionar información de conformación espectral relacionada con la voz 222. Alternativamente, la señal de entrada 202 también puede comprender la información de conformación espectral relacionada con la voz 222, en la que la transmisión de los coeficientes de predicción o información relativa a los mismos tal como, por ejemplo, LSF y/o ISF cuantificadas, en lugar de la información de conformación espectral relacionada con la voz 222 permite una tasa de bits inferior de la señal de entrada 202.
El decodificador 200 comprende un generador de ruido aleatorio 240 configurado para generar una señal con características de ruido, que puede indicarse simplemente como señal de ruido. El generador de ruido aleatorio 240 puede configurarse para reproducir una señal de ruido obtenida, por ejemplo, al medir y almacenar una señal de ruido. Una señal de ruido puede medirse y grabarse, por ejemplo, mediante la generación de ruido térmico en una resistencia u otro componente eléctrico y el almacenamiento de datos grabados en una memoria. El generador de ruido aleatorio 240 está configurado para proporcionar la señal (con características) de ruido n(n).
El decodificador 200 comprende un conformador 250 que comprende un procesador de conformación 252 y un amplificador variable 254. El conformador 250 está configurado para conformar espectralmente un espectro de la señal de ruido n(n). El procesador de conformación 252 está configurado para recibir la información de conformación espectral relacionada con la voz y para conformar el espectro de la señal de ruido n(n), por ejemplo, multiplicando los valores espectrales del espectro de la señal de ruido n(n) y los valores de la información de conformación espectral. La operación también puede realizarse en el dominio del tiempo por medio de la convolución de la señal de ruido n(n) con un filtro dado por la información de conformación espectral. El procesador de conformación 252 está configurado para proporcionar una señal de ruido conformada 256, un espectro de la misma respectivamente al amplificador variable 254. El amplificador variable 254 está configurado para recibir el parámetro de ganancia gn y para amplificar el espectro de la señal de ruido conformada 256 para obtener una señal de ruido conformada amplificada 258. El amplificador puede configurarse para multiplicar los valores espectrales de la señal de ruido conformada 256 con valores del parámetro de ganancia gn. Tal como se ha indicado anteriormente, el conformador 250 puede implementarse de manera que el amplificador variable 254 esté configurado para recibir la señal de ruido n(n) y para proporcionar una señal de ruido amplificada al procesador de conformación 252 configurado para conformar la señal de ruido amplificada. Alternativamente, el procesador de conformación 252 puede configurarse para recibir la información de conformación espectral relacionada con la voz 222 y el parámetro de ganancia gn y para aplicar secuencialmente, uno después del otro, ambas informaciones a la señal de ruido n(n) o para combinar ambas informaciones, por ejemplo, mediante multiplicación u otros cálculos y para aplicar un parámetro combinado a la señal de ruido n(n).
La señal con características de ruido n(n) o la versión amplificada de la misma conformada con la información de conformación espectral relacionada con la voz permite la señal de audio decodificada 282 que comprende una calidad de sonido más relacionada con la voz (natural). Esto permite obtener señales de audio de alta calidad y/o reducir las tasas de bits del lado del codificador, manteniendo o mejorando a la vez la señal de salida 282 en el decodificador con un alcance reducido.
El decodificador 200 comprende un sintetizador 260 configurado para recibir los coeficientes de predicción 122 y la señal de ruido conformada amplificada 258 y para sintetizar una señal sintetizada 262 a partir de la señal con características de ruido conformada amplificada 258 y los coeficientes de predicción 122. El sintetizador 260 puede comprender un filtro y puede configurarse para adaptar el filtro con los coeficientes de predicción. El sintetizador puede configurarse para filtrar la señal con características de ruido conformada amplificada 258 con el filtro. El filtro puede implementarse como software o como una estructura de hardware y puede comprender una estructura de respuesta de impulsos infinita (IIR) o de respuesta de impulsos finita (FIR).
La señal sintetizada corresponde a una trama decodificada no vocal de una señal de salida 282 del decodificador 200. La señal de salida 282 comprende una secuencia de tramas que puede convertirse a una señal de audio continua.
El deformador de corrientes de bits 210 está configurado para separar y proporcionar la señal de información vocal 142 a partir de la señal de entrada 202. El decodificador 200 comprende un decodificador de tramas vocales 270 configurado para proporcionar una trama vocal basándose en la información vocal 142. El decodificador de tramas vocales (procesador de tramas vocales) está configurado para determinar una señal vocal 272 basándose en la información vocal 142. La señal vocal 272 puede corresponder a la trama de audio vocal y/o el residual vocal del decodificador 100.
El decodificador 200 comprende un combinador 280 configurado para combinar la trama decodificada no vocal 262 y la trama vocal 272 para obtener la señal de audio decodificada 282.
Alternativamente, el conformador 250 puede realizarse sin un amplificador de manera que el conformador 250 esté configurado para conformar el espectro de la señal con características de ruido n(n) sin amplificar más la señal obtenida. Esto puede permitir una reducción de la cantidad de información transmitida por la señal de entrada 222 y, por lo tanto, una reducción de la tasa de bits o una duración más corta de una secuencia de la señal de entrada 202. Alternativa o adicionalmente, el decodificador 200 puede configurarse para decodificar solamente tramas no vocales o para procesar tramas vocales y no vocales tanto por la conformación espectral de la señal de ruido n(n) como por la sintetización de la señal sintetizada 262 para tramas vocales y no vocales. Esto puede permitir la implementación del decodificador 200 sin el decodificador de tramas vocales 270 y/o sin un combinador 280 y, de esa manera, se da lugar a una reducción de la complejidad del decodificador 200.
La señal de salida 192 y/o la señal de entrada 202 comprenden información relativa a los coeficientes de predicción 122, una información para una trama vocal y una trama no vocal tal como una bandera que indica si la trama procesada es vocal o no vocal e información adicional relativa a la trama de señal vocal tal como una señal vocal codificada. La señal de salida 192 y/o la señal de entrada 202 comprenden además un parámetro de ganancia o un parámetro de ganancia cuantificada para la trama no vocal de manera que la trama no vocal puede decodificarse basándose en los coeficientes de predicción 122 y el parámetro de ganancia gn, §n, respectivamente.
La figura 3 muestra un diagrama de bloques esquemático de un codificador 300 para codificar la señal de audio 102. El codificador 300 comprende el constructor de tramas 110, un predictor 320 configurado para determinar los coeficientes de predicción lineal 322 y una señal residual 324, aplicando un filtro A(z) a la secuencia de tramas 112 proporcionada por el constructor de tramas 110. El codificador 300 comprende el determinador 130 y el codificador de tramas vocales 140 para obtener la información de señal vocal 142. El codificador 300 comprende además la calculadora de información de formantes 160 y una calculadora de parámetros de ganancia 350.
La calculadora de parámetros de ganancia 350 está configurada para proporcionar un parámetro de ganancia gn tal como se describió anteriormente. La calculadora de parámetros de ganancia 350 comprende un generador de ruido aleatorio 350a para generar una señal codificadora con características de ruido 350b. La calculadora de ganancia 350 comprende además un conformador 350c que tiene un procesador de conformación 350d y un amplificador variable 350e. El procesador de conformación 350d está configurado para recibir la información de conformación relacionada con la voz 162 y la señal con características de ruido 350b, y para conformar un espectro de la señal con características de ruido 350b con la información de conformación espectral relacionada con la voz 162 tal como se describió para el conformador 250. El amplificador variable 350e está configurado para amplificar una señal con características de ruido conformada 350f con un parámetro de ganancia gn(temp) que es un parámetro de ganancia temporal recibido de un controlador 350k. El amplificador variable 350e está configurado asimismo para proporcionar una señal con características de ruido conformada amplificada 350g tal como se describió para la señal con características de ruido amplificada 258. Tal como se describió para el conformador 250, puede combinarse o cambiarse un orden de conformación y amplificación de la señal con características de ruido, cuando se compara con la figura 3.
La calculadora de parámetros de ganancia 350 comprende un comparador 350h configurado para comparar la residual no vocal proporcionada por el determinador 130 y la señal con características de ruido conformada amplificada 350g. El comparador está configurado para obtener una medición para una similitud de la residual no vocal y la señal con características de ruido conformada amplificada 350g. Por ejemplo, el comparador 350h puede configurarse para determinar una correlación cruzada de ambas señales. Alternativa o adicionalmente, el comparador 350h puede configurarse para comparar los valores espectrales de ambas señales en algunos o todos los intervalos de frecuencia. El comparador 350h está configurado además para obtener un resultado comparativo 350i.
La calculadora de parámetros de ganancia 350 comprende el controlador 350k configurado para determinar el parámetro de ganancia gn(temp) basándose en el resultado comparativo 350i. Por ejemplo, cuando el resultado comparativo 350i indica que la señal con características de ruido conformada amplificada comprende una amplitud o magnitud inferior a una amplitud o magnitud correspondiente de la residual no vocal, el controlador puede configurarse para aumentar uno o más valores del parámetro de ganancia gn(temp) para algunas o todas las frecuencias de la señal con características de ruido amplificada 350g. Alternativa o adicionalmente, el controlador puede configurarse para reducir uno o más valores del parámetro de ganancia gn(temp) cuando el resultado comparativo 350i indica que la señal con características de ruido conformada amplificada comprende una magnitud o amplitud demasiado alta, es decir, que la señal con características de ruido conformada amplificada es demasiado alta. El generador de ruido aleatorio 350a, el conformador 350c, el comparador 350h y el controlador 350k pueden configurarse para implementar una optimización de bucle cerrado para determinar el parámetro de ganancia gn(temp). Cuando la medición para la similitud de la residual no vocal con la señal con características de ruido conformada amplificada 350g, por ejemplo, expresada como una diferencia entre ambas señales, indica que la similitud se encuentra por encima de un valor de umbral, el controlador 350k está configurado para proporcionar el parámetro de ganancia gn determinado. Un cuantificador 370 está configurado para cuantificar el parámetro de ganancia gn para obtener el parámetro de ganancia cuantificada gn.
El generador de ruido aleatorio 350a puede configurarse para producir un ruido de tipo gaussiano. El generador de ruido aleatorio 350a puede configurarse para hacer funcionar (llamar a) un generador aleatorio con un número de n distribuciones uniformes entre un límite inferior (valor mínimo) tal como -1 y un límite superior (valor máximo) tal como 1. Por ejemplo, el generador de ruido aleatorio 350 está configurado para llamar tres veces al generador aleatorio. Dado que los generadores de ruido aleatorio implementados digitalmente pueden emitir valores pseudoaleatorios, la adición o superposición de una pluralidad o una multitud de funciones pseudoaleatorias pueden permitir la obtención de una función distribuida de forma suficientemente aleatoria. Este procedimiento se basa en el Teorema del Límite Central. El generador de ruido aleatorio 350a puede configurarse para llamar al generador aleatorio al menos dos, tres o más veces tal como indica el siguiente pseudocódigo:
para(i=0;i<Ls;i++){
n[i]=uniform_random();
n[i]+=uniform_random();
n[i]+=uniform_random();
}
Alternativamente, el generador de ruido aleatorio 350a puede generar la señal con características de ruido a partir de una memoria tal como se describió para el generador de ruido aleatorio 240. Alternativamente, el generador de ruido aleatorio 350a puede comprender, por ejemplo, una resistencia eléctrica u otros medios para generar una señal de ruido mediante la ejecución de un código o a través de la medición de efectos físicos tales como el ruido térmico.
El procesador de conformación 350b puede configurarse para agregar una estructura formántica y una inclinación a las señales con características de ruido 350b mediante la filtración de la señal con características de ruido 350b con fe(n), tal como se declaró anteriormente. La inclinación puede añadirse mediante la filtración de la señal con un filtro t(n) que comprende una función de transferencia basándose en:
Figure imgf000009_0001
en el que el factor p puede deducirse de la sonorización de la subtrama anterior:
energía(contribución de AC ) — energía(contribución de IC) sonorización =
energía ( suma de contribuciones)
en el que AC es una abreviatura de libro de códigos adaptativo e IC es una abreviatura de libro de códigos innovativo.
Figure imgf000009_0002
0,25 • (1 sonorización)
El parámetro de ganancia gn, el parámetro de ganancia cuantificada gn permiten respectivamente proporcionar una información adicional que puede reducir un error o un desajuste entre la señal codificada y la señal decodificada correspondiente, decodificada en un decodificador tal como el decodificador 200.
Con respecto a la regla de determinación
Figure imgf000009_0003
el parámetro w1 puede comprender un valor positivo distinto de cero de 1,0 como máximo, preferiblemente de al menos 0,7 y como máximo 0,8 y más preferiblemente un valor de 0,75. El parámetro w2 puede comprender un valor escalar positivo distinto de cero de 1,0 como máximo, preferiblemente de al menos 0,8 y como máximo 0,93 y más preferiblemente un valor de 0,9. El parámetro w2 es preferiblemente mayor que w1.
La figura 4 muestra un diagrama de bloques esquemático de un codificador 400. El codificador 400 está configurado para proporcionar la información de señal vocal 142 tal como se describió para los codificadores 100 y 300. Comparado con el codificador 300, el codificador 400 comprende una calculadora de parámetros de ganancia variada 350'. Un comparador 350h' está configurado para comparar la trama de audio 112 y una señal sintetizada 350l' para obtener un resultado comparativo 350i'. La calculadora de parámetros de ganancia 350' comprende un sintetizador 350m' configurado para sintetizar la señal sintetizada 350l' basándose en la señal con características de ruido conformada amplificada 350g y los coeficientes de predicción 122.
Básicamente, la calculadora de parámetros de ganancia 350' implementa al menos parcialmente un decodificador mediante la sintetización de la señal sintetizada 350l'. Comparado con el codificador 300 que comprende el comparador 350h configurado para comparar la residual no vocal y la señal con características de ruido conformada amplificada, el codificador 400 comprende el comparador 350h', que está configurado para comparar la trama de audio (probablemente completa) y la señal sintetizada. Esto puede permitir una precisión mucho mayor pues se comparan las tramas de la señal entre sí y no solamente sus parámetros. Esa mayor precisión puede requerir un aumento del esfuerzo computacional, dado que la trama de audio 122 y la señal sintetizada 350l' pueden comprender una mayor complejidad cuando se compara con la señal residual y con la información con características de ruido conformada amplificada de manera que la comparación de ambas señales también resulta más compleja. Además, debe calcularse la síntesis requiriendo esfuerzos computacionales por parte del sintetizador 350m'.
La calculadora de parámetros de ganancia 350' comprende una memoria 350n' configurada para grabar una información codificadora que comprende el parámetro de ganancia de codificación gn o una versión cuantificada gn del mismo. Esto le permite al controlador 350k obtener el valor de ganancia almacenado cuando se procesa una trama de audio subsiguiente. Por ejemplo, el controlador puede configurarse para determinar un primer (conjunto de) valor(es), es decir, un primer caso del factor de ganancia gn(temp) basado o igual al valor de gn para la trama de audio anterior.
La figura 5 muestra un diagrama de bloques esquemático de una calculadora de parámetros de ganancia 550 configurada para calcular una primera información de parámetros de ganancia gn según el segundo aspecto. La calculadora de parámetros de ganancia 550 comprende un generador de señales 550a configurado para generar una señal de excitación c(n). El generador de señales 550a comprende un libro de códigos determinista y un índice dentro del libro de códigos para generar la señal c(n). Es decir, una información de entrada tal como los coeficientes de predicción 122 da como resultado una señal de excitación determinista c(n). El generador de señales 550a puede configurarse para generar la señal de excitación c(n) según un libro de códigos innovativo de un esquema de codificación de CELP. El libro de códigos puede determinarse o entrenarse según datos de voz medidos en etapas de calibración anteriores. La calculadora de parámetros de ganancia comprende un conformador 550b configurado para conformar un espectro de la señal de código c(n) basándose en una información de conformación relacionada con la voz 550c para la señal de código c(n). La información de conformación relacionada con la voz 550c puede obtenerse del controlador de información de formantes 160. El conformador 550b comprende un procesador de conformación 550d configurado para recibir la información de conformación 550c para conformar la señal de código. El conformador 550b comprende además un amplificador variable 550e configurado para amplificar la señal de código conformada c(n) para obtener una señal de código conformada amplificada 550f. Así, el parámetro de ganancia de código está configurado para definir la señal de código c(n) que es relativa a un libro de códigos determinista.
La calculadora de parámetros de ganancia 550 comprende el generador de ruido 350a configurado para proporcionar la señal (con características) de ruido n(n) y un amplificador 550g configurado para amplificar la señal de ruido n(n) basándose en el parámetro de ganancia de ruido gn para obtener una señal de ruido amplificada 550h. La calculadora de parámetros de ganancia comprende un combinador 550i configurado para combinar la señal de código conformada amplificada 550f y la señal de ruido amplificada 550h para obtener una señal de excitación combinada 550k. El combinador 550i puede configurarse, por ejemplo, para agregar o multiplicar espectralmente valores espectrales de la señal de código conformada amplificada y la señal de ruido amplificada 550f y 550h. Alternativamente, el combinador 550i puede configurarse para hacer la convolución de ambas señales 550f y 550h.
Tal como se describió anteriormente para el conformador 350c, el conformador 550b puede implementarse de manera que primero la señal de código c(n) se amplifica por el amplificador variable 550e y luego se conforma por el procesador de conformación 550d. Alternativamente, la información de conformación 550c para la señal de código c(n) puede combinarse con la información de parámetros de ganancia de código gc de manera que se aplique una información combinada a la señal de código c(n).
La calculadora de parámetros de ganancia 550 comprende un comparador 5501 configurado para comparar la señal de excitación combinada 550k y la señal residual no vocal obtenida para el determinador vocal/no vocal 130. El comparador 550l puede ser el comparador 550h y está configurado para proporcionar un resultado comparativo, es decir, una medición 550m para una similitud de la señal de excitación combinada 550k y la señal residual no vocal. La calculadora de ganancia de código comprende un controlador 550n configurado para controlar la información de parámetros de ganancia de código gc y la información de parámetros de ganancia de ruido gn. El parámetro de ganancia de código gc y la información de parámetros de ganancia de ruido gn pueden comprender una pluralidad o una multitud de valores escalares o imaginarios que pueden estar relacionados con un intervalo de frecuencias de la señal de ruido n(n) o una señal derivada de la misma o con un espectro de la señal de código c(n) o una señal derivada de la misma.
Alternativamente, la calculadora de parámetros de ganancia 550 puede implementarse sin el procesador de conformación 550d. Alternativamente, el procesador de conformación 550d puede configurarse para conformar la señal de ruido n(n) y proporcionar una señal de ruido conformada al amplificador variable 550g.
Así, controlando ambas informaciones de parámetros de ganancia gc y gn, puede aumentarse una similitud de la señal de excitación combinada 550k cuando se compara con la residual no vocal, de manera que un decodificador que recibe información a la información de parámetros de ganancia de código gc y la información de parámetros de ganancia de ruido gn puede reproducir una señal de audio que comprende una buena calidad de sonido. El controlador 550n está configurado para proporcionar una señal de salida 550o que comprende información relativa a la información de parámetros de ganancia de código gc y la información de parámetros de ganancia de ruido gn. Por ejemplo, la señal 550o puede comprender ambas informaciones de parámetros de ganancia gn y gc como valores escalares o cuantificados o como valores derivados de los mismos, por ejemplo, valores codificados.
La figura 6 muestra un diagrama de bloques esquemático de un codificador 600 para codificar la señal de audio 102 y que comprende la calculadora de parámetros de ganancia 550 descrita en la figura 5. El codificador 600 puede obtenerse, por ejemplo, modificando el codificador 100 o 300. El codificador 600 comprende un primer cuantificador 170-1 y un segundo cuantificador 170-2. El primer cuantificador 170-1 se configura para cuantificar la información de parámetros de ganancia gc para obtener una información de parámetros de ganancia cuantificada gc. El segundo cuantificador 170-2 se configura para cuantificar la información de parámetros de ganancia de ruido gn para obtener una información de parámetros de ganancia de ruido cuantificada gn. Un formador de corrientes de bits 690 se configura para generar una señal de salida 692 que comprende la información de señal vocal 142, la información relativa a LPC 122 y ambas informaciones de parámetros de ganancia cuantificada gc y gn. Cuando se compara con la señal de salida 192, la señal de salida 692 se extiende o se actualiza por la información de parámetros de ganancia cuantificada gc. Alternativamente, el cuantificador 170-1 y/o 170-2 puede ser una parte de la calculadora de parámetros de ganancia 550. Asimismo, uno de los cuantificadores 170-1 y/o 170-2 puede configurarse para obtener ambos parámetros de ganancia cuantificada gc y gn.
Alternativamente, el codificador 600 puede configurarse para comprender un cuantificador configurado para cuantificar la información de parámetros de ganancia de código gc y el parámetro de ganancia de ruido gn para obtener la información de parámetros cuantificada gc y gn. Ambas informaciones de parámetros de ganancia pueden cuantificarse, por ejemplo, secuencialmente.
La calculadora de información de formantes 160 está configurada para calcular la información de conformación espectral relacionada con la voz 550c a partir de los coeficientes de predicción 122.
La figura 7 muestra un diagrama de bloques esquemático de una calculadora de parámetros de ganancia 550' que está modificada en comparación con la calculadora de parámetros de ganancia 550. La calculadora de parámetros de ganancia 550' comprende el conformador 350 descrito en la figura 3 en lugar del amplificador 550g. El conformador 350 está configurado para proporcionar la señal de ruido conformada amplificada 350g. El combinador 550i está configurado para combinar la señal de código conformada amplificada 550f y la señal de ruido conformada amplificada 350g, para proporcionar una señal de excitación combinada 550k'. La calculadora de información de formantes 160 está configurada para proporcionar ambas informaciones de formantes relacionadas con la voz 162 y 550c. Las informaciones de formantes relacionadas con la voz 550c y 162 pueden ser iguales. Alternativamente, ambas informaciones 550c y 162 pueden diferir entre sí. Esto permite una modelación separada, es decir, la conformación de la señal generada por código c(n) y n(n).
El controlador 550n puede configurarse para determinar la información de parámetros de ganancia gc y gn para cada subtrama de una trama de audio procesada. El controlador puede configurarse para determinar, es decir, calcular, la información de parámetros de ganancia gc y gn basándose en los detalles expuestos a continuación.
En primer lugar, la energía promedio de la subtrama puede calcularse en la señal residual de predicción a corto plazo original disponible durante el análisis de LPC, es decir, en la señal residual no vocal. La energía se promedia sobre las cuatro subtramas de la trama actual en el dominio logarítmico según:
Figure imgf000011_0001
En el que Lsf es el tamaño de una subtrama en muestras. En este caso, la trama se divide en 4 subtramas. La energía promediada entonces puede codificarse en un número de bits, por ejemplo, tres, cuatro o cinco, usando un libro de códigos estocástico previamente entrenado. El libro de códigos estocástico puede comprender un número de entradas (tamaño) según un número de valores diferentes que pueden representarse por el número de bits, por ejemplo, un tamaño de 8 para un número de 3 bits, un tamaño de 16 para un número de 4 bits o un tamaño de 32 para un número nr¡3
de 5 bits. Una ganancia cuantificada “ puede determinarse a partir de la palabra clave seleccionada del libro de códigos. Para cada subtrama, se calculan las dos informaciones de ganancia gc y gn. La ganancia de código gc puede calcularse, por ejemplo, basándose en:
Figure imgf000011_0002
donde cw(n) es, por ejemplo, la innovación fija seleccionada del libro de códigos fijo, comprendida por el generador de señales 550a filtrado por el filtro ponderado perceptual. La expresión xw(n) corresponde a la excitación diana perceptual convencional, calculada en codificadores de CELP. La información de ganancia de código gc puede normalizarse entonces para obtener una ganancia normalizada gnc basándose en:
Figure imgf000011_0003
La ganancia normalizada gnc puede cuantificarse, por ejemplo, por el cuantificador 170-1. La cuantificación puede realizarse según una escala lineal o logarítmica. Una escala logarítmica puede comprender una escala de tamaño de 4, 5 o más bits. Por ejemplo, la escala logarítmica comprende un tamaño de 5 bits. La cuantificación puede realizarse basándose en:
lndexnc = 120 * log10((gnc 20)/1.2S) 0.SJ
en el que el índice lndexnc puede estar limitado entre 0 y 31, si la escala logarítmica comprende 5 bits. El índice lndexnc puede ser la información de parámetros de ganancia cuantificada. La ganancia cuantificada del código gc puede expresarse entonces basándose en:
Figure imgf000012_0001
La ganancia de código puede calcularse a fin de minimizar el error de raíz cuadrada promedio o error cuadrático medio (MSE)
Figure imgf000012_0002
en el que Lsf corresponde a frecuencias espectrales de líneas determinadas a partir de los coeficientes de predicción 122.
La información de parámetros de ganancia de ruido puede determinarse en términos de un desajuste de energía mediante la minimización de un error basándose en
Figure imgf000012_0003
La variable k es un factor de atenuación que puede variarse dependientemente o basándose en los coeficientes de predicción, en el que los coeficientes de predicción permiten determinar si la voz comprende una porción de ruido de fondo baja o incluso ningún ruido de fondo (voz clara). Alternativamente, la señal también puede determinarse como una voz ruidosa, por ejemplo, cuando la señal de audio o una trama de la misma comprende modificaciones entre las tramas no vocales y las no 'no vocales'. La variable k puede ser ajustarse a un valor de al menos 0,85, de al menos 0,95 o incluso hasta un valor de 1 para voz clara, donde la alta dinámica de la energía es perceptualmente importante. La variable k puede ajustarse a un valor de al menos 0,6 y como máximo 0,9, preferiblemente un valor de al menos 0,7 y como máximo 0,85 y más preferiblemente un valor de 0,8 para voz ruidosa, donde la excitación del ruido se hace más conservadora para evitar la fluctuación en la energía de salida entre las tramas no vocales y los no 'no vocales'. El error (desajuste de energía) puede calcularse para cada uno de estos candidatos de ganancia cuantificada gc. Una trama dividida en cuatro subtramas puede dar como resultado cuatro candidatos de ganancia cuantificada gc. Aquel candidato que minimiza el error puede emitirse por el controlador. La ganancia de ruido cuantificada (información de parámetros de ganancia de ruido) puede calcularse basándose en:
Figure imgf000012_0004
en el que el índice lndexn está limitado entre 0 y 3 según los cuatro candidatos. Una señal de excitación combinada resultante, tal como la señal de excitación 550k o 550k', puede obtenerse basándose en:
e(ri) ~ gc ■ c(n) + gn ■ n(ri)
en el que e(n) es la señal de excitación combinada 550k o 550k'.
Un codificador 600 o un codificador modificado 600 que comprende la calculadora de parámetros de ganancia 550 o 550' pueden permitir una codificación no vocal, basándose en un esquema de codificación de CELP. El esquema de codificación de CELP puede modificarse basándose en los siguientes detalles a modo de ejemplo para la manipulación de tramas no vocales:
• No se transmiten los parámetros de LTP, ya que casi no hay periodicidad en las tramas no vocales y la ganancia de codificación resultante es muy baja. La excitación adaptativa se ajusta a cero.
• Los bits de ahorro se notifican al libro de códigos fijo. Pueden codificarse más pulsos para la misma tasa de bits y puede mejorarse entonces la calidad.
• A tasas bajas, es decir, para tasas de entre 6 y 12 kbps, la codificación de pulsos no es suficiente para modelar de forma apropiada la excitación con características de ruido diana de la trama no vocal. Se agrega un libro de códigos gaussiano al libro de códigos fijo para construir la excitación final.
La figura 8 muestra un diagrama de bloques esquemático de un esquema de codificación no vocal para CELP según el segundo aspecto. Un controlador modificado 810 comprende ambas funciones del comparador 550l y el controlador 550n. El controlador 810 está configurado para determinar la información de parámetros de ganancia de código gc y la información de parámetros de ganancia de ruido gn basándose en análisis por síntesis, es decir, comparando una señal sintetizada con la señal de entrada indicada como s(n) que es, por ejemplo, la residual no vocal. El controlador 810 comprende un filtro de análisis por síntesis 820 configurado para generar una excitación para el generador de señales (excitación innovativa) 550a y para proporcionar la información de parámetros de ganancia gc y gn. El bloque de análisis por síntesis 810 está configurado para comparar la señal de excitación combinada 550k' mediante una señal internamente sintetizada mediante la adaptación de un filtro según los parámetros y la información proporcionados.
El controlador 810 comprende un bloque de análisis configurado para obtener los coeficientes de predicción, tal como se describe para el analizador 320, para obtener los coeficientes de predicción 122. El controlador comprende además un filtro de síntesis 840 para filtrar la señal de excitación combinada 550k con el filtro de síntesis 840, en el que el filtro de síntesis 840 se adapta por los coeficientes de filtro 122. Puede configurarse un comparador adicional para comparar la señal de entrada s(n) y la señal sintetizada s(n), por ejemplo, la señal de audio decodificada (restaurada). Asimismo, se dispone la memoria 350n, en la que el controlador 810 está configurado para almacenar la señal predicha y/o los coeficientes predichos en la memoria. Un generador de señales 850 está configurado para proporcionar una señal de excitación adaptativa basándose en las predicciones almacenadas en la memoria 350n, lo que permite la mejora de la excitación adaptativa basándose en una señal de excitación combinada anterior.
La figura 9 muestra un diagrama de bloques esquemático de una codificación paramétrica no vocal según el primer aspecto. La señal de ruido conformada amplificada puede ser una señal de entrada de un filtro de síntesis 910 que se adapta por los coeficientes de filtro determinados (coeficientes de predicción) 122. Una señal sintetizada 912 emitida por el filtro de síntesis puede compararse con la señal de entrada s(n) que puede ser, por ejemplo, la señal de audio. La señal sintetizada 912 comprende un error cuando se compara con la señal de entrada s(n). Modificando el parámetro de ganancia de ruido gn mediante el bloque de análisis 920 que puede corresponder a la calculadora de parámetros de ganancia 150 o 350, el error puede reducirse o minimizarse. Almacenando la señal de ruido conformada amplificada 350f en la memoria 350n, puede realizarse una actualización del libro de códigos adaptativo, de manera que el procesamiento de tramas de audio vocales también puede mejorarse basándose en la codificación mejorada de la trama de audio no vocal.
La figura 10 muestra un diagrama de bloques esquemático de un decodificador 1000 para decodificar una señal de audio codificada, por ejemplo, la señal de audio codificada 692. El decodificador 1000 comprende un generador de señales 1010 y un generador de ruido 1020 configurado para generar una señal con características de ruido 1022. La señal recibida 1002 comprende información relacionada con la LPC, en la que un deformador de corrientes de bits 1040 está configurado para proporcionar los coeficientes de predicción 122 basándose en la información relacionada con los coeficientes de predicción. Por ejemplo, el decodificador 1040 está configurado para extraer los coeficientes de predicción 122. El generador de señales 1010 está configurado para generar una señal de excitación excitada por código 1012 tal como se describe para el generador de señales 558. Un combinador 1050 del decodificador 1000 está configurado para combinar la señal excitada por código 1012 y la señal con características de ruido 1022, tal como se describe para el combinador 550, para obtener una señal de excitación combinada 1052. El decodificador 1000 comprende un sintetizador 1060 que tiene un filtro para adaptarse con los coeficientes de predicción 122, en el que el sintetizador está configurado para filtrar la señal de excitación combinada 1052 con el filtro adaptado para obtener una trama decodificada no vocal 1062. El decodificador 1000 comprende además el combinador 284 que combina la trama decodificada no vocal y la trama vocal 272 para obtener la secuencia de señales de audio 282. Cuando se compara con el decodificador 200, el decodificador 1000 comprende un segundo generador de señales configurado para proporcionar la señal de excitación excitada por código 1012. La señal de excitación con características de ruido 1022 puede ser, por ejemplo, la señal con características de ruido n(n) representada en la figura 2.
La secuencia de señales de audio 282 puede comprender una buena calidad y una alta similitud cuando se compara con una señal de entrada codificada.
Otras realizaciones proporcionan decodificadores que mejoran el decodificador 1000 mediante la conformación y/o amplificación de la señal de excitación generada por código (excitada por código) 1012 y/o la señal con características de ruido 1022. Así, el decodificador 1000 puede comprender un procesador de conformación y/o un amplificador variable dispuesto entre el generador de señales 1010 y el combinador 1050 entre el generador de ruido 1020 y el combinador 1050, respectivamente. La señal de entrada 1002 puede comprender información relativa a la información de parámetros de ganancia de código gc y/o la información de parámetros de ganancia de ruido, en el que el decodificador puede configurarse para adaptar un amplificador para amplificar la señal de excitación generada por código 1012 o una versión conformada de la misma usando la información de parámetros de ganancia de código gc. Alternativa o adicionalmente, el decodificador 1000 puede configurarse para adaptar, es decir, para controlar un amplificador para amplificar la señal con características de ruido 1022 o una versión conformada de la misma con un amplificador usando la información de parámetros de ganancia de ruido.
Alternativamente, el decodificador 1000 puede comprender un conformador 1070 configurado para conformar la señal de excitación excitada por código 1012 y/o un conformador 1080 configurado para conformar la señal con características de ruido 1022 tal como indican las líneas de puntos. Los conformadores 1070 y/o 1080 pueden recibir los parámetros de ganancia gc y/o gn y/o información de conformación relacionada con la voz. Los conformadores 1070 y/o 1080 pueden formarse tal como se describe para los conformadores 250, 350c y/o 550b descritos anteriormente.
El decodificador 1000 puede comprender una calculadora de información formántica 1090 para proporcionar una información de conformación relacionada con la voz 1092 para los conformadores 1070 y/o 1080 tal como se describió para la calculadora de información de formantes 160. La calculadora de información de formantes 1090 puede configurarse para proporcionar diferente información de conformación relacionada con la voz (1092a; 1092b) a los conformadores 1070 y/o 1080.
La figura 11a muestra un diagrama de bloques esquemático de un conformador 250' que implementa una estructura alternativa cuando se compara con el conformador 250. El conformador 250' comprende un combinador 257 para combinar la información de conformación 222 y el parámetro de ganancia relacionada con el ruido gn para obtener una información combinada 259. Un procesador de conformación modificado 252' está configurado para conformar la señal con características de ruido n(n) usando la información combinada 259 para obtener la señal con características de ruido conformada amplificada 258. Ya que tanto la información de conformación 222 como el parámetro de ganancia gn pueden interpretarse como factores de multiplicación, ambos factores de multiplicación pueden multiplicarse usando el combinador 257 y luego aplicarse de forma combinada a la señal con características de ruido n(n).
La figura 11b muestra un diagrama de bloques esquemático de un conformador 250'' que implementa una alternativa adicional cuando se compara con el conformador 250. Cuando se compara con el conformador 250, primero se dispone el amplificador variable 254 y se configura para generar una señal con características de ruido amplificada mediante la amplificación de la señal con características de ruido n(n) usando el parámetro de ganancia gn. El procesador de conformación 252 está configurado para conformar la señal amplificada empleando la información de conformación 222 para obtener la señal conformada amplificada 258.
Aunque las figuras 11a y 11b se refieren al conformador 250 representando implementaciones alternativas, las descripciones anteriores también se aplican a los conformadores 350c, 550b, 1070 y/o 1080.
La figura 12 muestra un diagrama de flujo esquemático de un método 1200 para codificar una señal de audio según el primer aspecto. El método 1210 comprende derivar coeficientes de predicción y una señal residual a partir de una trama de señal de audio. El método 1200 comprende una etapa 1230 en la que se calcula un parámetro de ganancia a partir de una señal residual no vocal y la información de conformación espectral y una etapa 1240 en la que se forma una señal de salida basándose en una información relativa a una trama de señal vocal, el parámetro de ganancia o un parámetro de ganancia cuantificada y los coeficientes de predicción.
La figura 13 muestra un diagrama de flujo esquemático de un método 1300 para decodificar una señal de audio recibida que comprende coeficientes de predicción y un parámetro de ganancia, según el primer aspecto. El método 1300 comprende una etapa 1310 en la que se calcula una información de conformación espectral relacionada con la voz a partir de los coeficientes de predicción. En una etapa 1320 se genera una señal con características de ruido decodificadora. En una etapa 1330, se conforma un espectro de la señal con características de ruido decodificadora o una representación amplificada de la misma usando la información de conformación espectral para obtener una señal con características de ruido decodificadora conformada. En una etapa 1340 del método 1300, se sintetiza una señal sintetizada a partir de la señal codificadora con características de ruido conformada amplificada y los coeficientes de predicción.
La figura 14 muestra un diagrama de flujo esquemático de un método 1400 para codificar una señal de audio según el segundo aspecto. El método 1400 comprende una etapa 1410 en la que se derivan los coeficientes de predicción y una señal residual a partir de una trama no vocal de la señal de audio. En una etapa 1420 del método 1400, se calculan una primera información de parámetros de ganancia para definir una primera señal de excitación relativa a un libro de códigos determinista y una segunda información de parámetros de ganancia para definir una segunda señal de excitación relativa a una señal con características de ruido para la trama no vocal.
En una etapa 1430 del método 1400 se forma una señal de salida basándose en una información relativa a una trama de señal vocal, la primera información de parámetros de ganancia y la segunda información de parámetros de ganancia.
La figura 15 muestra un diagrama de flujo esquemático de un método 1500 para decodificar una señal de audio recibida según el segundo aspecto. La señal de audio recibida comprende una información relativa a los coeficientes de predicción. El método 1500 comprende una etapa 1510 en la que se genera una primera señal de excitación a partir de un libro de códigos determinista para una porción de una señal sintetizada. En una etapa 1520 del método 1500, se genera una segunda señal de excitación a partir de una señal con características de ruido para la porción de la señal sintetizada. En una etapa 1530 del método 1000, se combinan la primera señal de excitación y la segunda señal de excitación para generar una señal de excitación combinada para la porción de la señal sintetizada. En una etapa 1540 del método 1500, se sintetiza la porción de la señal sintetizada a partir de la señal de excitación combinada y los coeficientes de predicción.
En otras palabras, los aspectos de la presente invención proponen una nueva manera de codificar las tramas no vocales por medio de la conformación de un ruido gaussiano generado aleatoriamente y conformarlo espectralmente mediante la adición al mismo de una estructura formántica y una inclinación espectral. La conformación espectral se hace en el dominio de la excitación antes de excitar el filtro de síntesis. Como consecuencia, la excitación conformada será actualizada en la memoria de la predicción a largo plazo para generar libros de códigos adaptativos subsiguientes.
Las tramas subsiguientes, que no son no vocales, también se beneficiarán de la conformación espectral. A diferencia de la mejora de formantes en la postfiltración, la conformación de ruido propuesta se realiza tanto en el lado del codificador como en el del decodificador.
Una excitación de este tipo puede usarse directamente en un esquema de codificación paramétrica para dirigirse a tasas de bits muy bajas. Sin embargo, proponemos también la asociación de dicha excitación en combinación con un libro de códigos innovativo convencional dentro de un esquema de codificación de CELP.
Para ambos métodos, proponemos una nueva codificación de la ganancia, especialmente eficaz tanto para voz nítida como para voz con ruido de fondo. Proponemos algunos mecanismos para aproximarse lo más posible a la energía original, pero evitando al mismo tiempo las transiciones demasiado estridentes con tramas no 'no vocales' y evitando también las inestabilidades indeseadas debidas a la cuantificación de la ganancia.
El primer aspecto apunta a una codificación no vocal con una tasa de 2,8 y 4 kilobits por segundo (kbps). Las tramas no vocales se detectan primero. Esto puede hacerse mediante una clasificación de voz habitual, tal como se hace en el Ancho de Banda Multimodo de Tasa Variable (VMR-WB) tal como se conoce de [3].
Hacer la conformación espectral en esta fase tiene dos ventajas principales. En primer lugar, la conformación espectral se tiene en cuenta para el cálculo de ganancia de la excitación. Dado que el cálculo de la ganancia es el único módulo no ciego durante la generación de la excitación, es una enorme ventaja tenerlo al final de la cadena después de la conformación. En segundo lugar, permite guardar la excitación mejorada en la memoria LTP. La mejora también servirá entonces a las tramas no 'no vocales' subsiguientes.
Aunque los cuantificadores 170, 170-1 y 170-2 se describieron como configurados para obtener los parámetros cuantificados gc y gn, los parámetros cuantificados pueden proporcionarse como una información relacionada con los mismos, por ejemplo, un índice o un identificador de una entrada de una base de datos, comprendiendo la entrada los parámetros de ganancia cuantificada gc y gn,
Aunque algunos aspectos han sido descritos en el contexto de un aparato, es evidente que estos aspectos representan también una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa de método o una característica de una etapa de método. De manera análoga, los aspectos descritos en el contexto de una etapa de método representan también una descripción de un bloque o artículo o característica correspondiente de un aparato correspondiente.
La señal de audio codificada de la invención puede almacenarse en un medio de almacenamiento digital o puede transmitirse en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión cableado tal como Internet.
Dependiendo de ciertos requisitos de la implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disco blando, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas señales de control electrónicamente legibles, que actúan conjuntamente (o que pueden actuar conjuntamente) con un sistema informático programable, de manera que se realiza el método respectivo.
Algunas realizaciones según la invención comprenden un portador de datos que tiene señales de control electrónicamente legibles, que pueden actuar conjuntamente con un sistema informático programable, de manera que se realiza uno de los métodos descritos en el presente documento.
En general, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los métodos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede almacenarse, por ejemplo, en un portador legible por máquina.
Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenado en un portador legible por máquina.
En otras palabras, una realización del método de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.
Una realización adicional de los métodos de la invención es, por lo tanto, un portador de datos (o un medio de almacenamiento digital o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los métodos descritos en el presente documento.
Una realización adicional del método de la invención es, por lo tanto, una corriente de datos o una secuencia de señales que representan el programa informático para realizar uno de los métodos descritos en el presente documento. La corriente de datos o la secuencia de señales pueden configurarse, por ejemplo, para transferirse a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo lógico programable, configurado o adaptado para realizar uno de los métodos descritos en el presente documento.
Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los métodos descritos en el presente documento.
En algunas realizaciones, puede usarse un dispositivo lógico programable (por ejemplo, una matriz de puertas de campo programable) para realizar algunas o todas las funcionalidades de los métodos descritos en la presente. En algunas realizaciones, una matriz de puertas de campo programable puede actuar conjuntamente con un microprocesador con el fin de realizar uno de los métodos descritos en el presente documento. En general, los métodos se realizan preferiblemente con cualquier aparato de hardware.
Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos el presente documento resultarán evidentes para otros expertos en la técnica. Por lo tanto, se pretende que se limiten solamente por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.
Bibliografía
[1] Recomendación G.718 de la ITU-T: “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s”
[2] Patente estadounidense n.° US 5.444.816, “Dynamic codebook for efficient speech coding based on algebraic codes”
[3] Jelinek, M.; Salami, R., "Wideband Speech Coding Advances in VMR-WB Standard," Audio, Speech, and Language Processing, IEEE Transactions on, vol.15, n.° 4, págs. 1167, 1179, mayo de 2007

Claims (1)

  1. REIVINDICACIONES
    Codificador para codificar una señal de audio, comprendiendo el codificador:
    un analizador (120; 320) configurado para derivar los coeficientes de predicción (122; 322) y una señal residual a partir de una trama no vocal de la señal de audio (102);
    una calculadora de parámetros de ganancia (550; 550') configurada para calcular una primera información de parámetros de ganancia (gc) para definir una primera señal de excitación (c(n)) relativa a un libro de códigos determinista y para calcular una segunda información de parámetros de ganancia (gn) para definir una segunda señal de excitación (n(n)) relativa a una señal con características de ruido para la trama no vocal;
    un formador de corrientes de bits (690) configurado para formar una señal de salida (692) basándose en una información de señal vocal (142), una información (182) relativa a los coeficientes de predicción (122; 322), la primera información de parámetros de ganancia (gc) y la segunda información de parámetros de ganancia (gn); y
    un determinador (130) configurado para determinar si la señal residual se determinó a partir de una trama de audio de señal no vocal;
    en el que el codificador comprende una memoria LTP (350n) y un generador de señales (850) para generar una señal de excitación adaptativa para la trama vocal; y
    en el que, cuando se compara con un esquema de codificación de CELP, el codificador se configura para no transmitir parámetros de LTP para la trama no vocal para guardar bits, en el que la señal de excitación adaptativa se ajusta a cero para la trama no vocal, y en el que el libro de códigos determinista se configura para codificar más pulsos para una misma tasa de bits usando los bits guardados;
    en el que el codificador comprende además un cuantificador (170-1, 170-2) configurado para cuantificar el primer parámetro de ganancia (gc) para obtener un primer parámetro de ganancia cuantificada (9 c ) > en e| que el controlador de parámetros de ganancia (550n) se configura para determinar el primer parámetro de ganancia (gc) basándose en:
    Figure imgf000017_0001
    en el que gc es el primer parámetro de ganancia, Lsf es el tamaño de la subtrama en muestras, cw(n) indica la primera señal de excitación conformada, xw(n) indica una señal codificadora de Predicción Lineal Excitada por Código,
    en el que el controlador de parámetros de ganancia (550n) o el cuantificador (170-1, 170-2) está configurado asimismo para normalizar el primer parámetro de ganancia (gc) para obtener un primer parámetro de ganancia normalizada basándose en:
    J Z n lo 1 c ( n ) ' c (n )
    9 nc ~ 9c- ^s j - , ^QJtrg/20
    en el que gnc indica el primer parámetro de ganancia normalizada y m 9 es una medición para una energía promedio de la señal residual no vocal sobre toda la trama; y
    en el que el cuantificador (170-1, 170-2) se configura para cuantificar el primer parámetro de ganancia normalizada para obtener el primer parámetro de ganancia cuantificada (9c)>
    en el que el cuantificador (170-1, 170-2) está configurado para cuantificar el segundo parámetro de ganancia (gn) para obtener un segundo parámetro de ganancia cuantificada (gn) en el que el controlador de parámetros de ganancia (550; 550') está configurado para determinar el segundo parámetro de ganancia (gn) determinando un valor de error basándose en:
    Figure imgf000018_0001
    en el que k es un factor de atenuación variable en un intervalo entre 0,5 y 1 y depende de o se basa en los coeficientes de predicción, Lsf corresponde al tamaño de una subtrama de una trama de audio procesada, cw(n) indica la primera señal de excitación conformada (c(n)), xw(n) indica una señal codificadora de
    Predicción Lineal Excitada por Código, gn indica el segundo parámetro de ganancia y indica un primer parámetro de ganancia cuantificada;
    en el que el controlador de parámetros de ganancia (550; 550') está configurado para determinar el error para la subtrama actual y en el que el cuantificador (170-1, 170-2) está configurado para determinar la segunda ganancia cuantificada (gn) que minimiza el error y para obtener la segunda ganancia cuantificada (gn) basándose en:
    Figure imgf000018_0002
    donde Q(indexn) indica un valor escalar de un conjunto finito de valores posibles;
    en el que el cuantificador (170-2) se configura para determinar el valor de error basándose en un desajuste de energía entre la primera señal de excitación conformada (c(n)) y la segunda señal de excitación, en el que el cuantificador (170-1) se configura para determinar el primer parámetro de ganancia (gc) basándose en un error cuadrático medio o error de raíz cuadrada promedio.
    Codificador según la reivindicación 1, que comprende además una calculadora de información de formantes (160) configurada para calcular una información de conformación espectral relacionada con la voz (162) a partir de los coeficientes de predicción (122; 322) y en el que la calculadora de parámetros de ganancia (550; 550') está configurada para calcular la primera información de parámetros de ganancia (gc) y la segunda información de parámetros de ganancia (gn) basándose en la información de conformación espectral relacionada con la voz (162).
    Codificador según una de las reivindicaciones anteriores, en el que la calculadora de parámetros de ganancia (550') comprende:
    un primer amplificador (550e) configurado para amplificar la primera señal de excitación (c(n)) aplicando el primer parámetro de ganancia gc para obtener una primera señal de excitación amplificada (550f);
    un segundo amplificador (350e; 550g) configurado para amplificar la segunda señal de excitación (n(n)) diferente de la primera señal de excitación (c(n)) aplicando el segundo parámetro de ganancia (gn) para obtener una segunda señal de excitación amplificada (350g; 550h);
    un combinador (550i) configurado para combinar la primera señal de excitación amplificada (550f) y la segunda señal de excitación amplificada (350g; 550h) para obtener una señal de excitación combinada (550k; 550k');
    un controlador (550n) configurado para filtrar la señal de excitación combinada (550k; 550k') con un filtro de síntesis para obtener una señal sintetizada (350l'), para comparar la señal sintetizada (350l') y la trama de señal de audio (102) para obtener un resultado comparativo, para adaptar el primer parámetro de ganancia (gc) o el segundo parámetro de ganancia (gn) basándose en el resultado comparativo.
    Codificador según una de las reivindicaciones anteriores, en el que el controlador de parámetros de ganancia (550; 550') comprende además al menos un conformador (350; 550b) configurado para conformar espectralmente la primera señal de excitación (c(n)) o una señal derivada de la misma o la segunda señal de excitación (n(n)) o una señal derivada de la misma, basándose en una información de conformación espectral (162).
    Codificador según una de las reivindicaciones anteriores, en el que el codificador está configurado para codificar la señal de audio (102) trama por trama en una secuencia de tramas y en el que la calculadora de parámetros de ganancia (550; 550') está configurada para determinar el primer parámetro de ganancia (gc) y el segundo parámetro de ganancia (gn) para cada una de una pluralidad de subtramas de una trama procesada y en el que el controlador de parámetros de ganancia (550; 550') está configurado para determinar un valor de energía promedio asociado a la trama procesada.
    6. Codificador según una de las reivindicaciones anteriores, que comprende además:
    una calculadora de información de formantes (160) configurada para calcular al menos una primera información de conformación espectral relacionada con la voz a partir de los coeficientes de predicción (122; 322);
    7. Codificador según una de las reivindicaciones anteriores, en el que el combinador (550i) está configurado para combinar el primer parámetro de ganancia (gc) y el segundo parámetro de ganancia (gn) para obtener una señal de excitación combinada (e(n)) basándose en:
    Figure imgf000019_0001
    8. Sistema que comprende:
    un codificador según una de las reivindicaciones 1 a 7; y
    un decodificador (1000) para decodificar una señal de audio recibida (1002) que comprende una información relativa a los coeficientes de predicción (122), comprendiendo el decodificador (1000):
    un primer generador de señales (1010) configurado para generar una primera señal de excitación (1012) a partir de un libro de códigos determinista para una porción de una señal sintetizada (1062);
    un segundo generador de señales (1020) configurado para generar una segunda señal de excitación (1022) a partir de una señal con características de ruido para la porción de la señal sintetizada (1062);
    un combinador (1050) configurado para combinar la primera señal de excitación (1012) y la segunda señal de excitación (1022) para generar una señal de excitación combinada (1052) para la porción de la señal sintetizada (1062); y
    un sintetizador (1060) configurado para sintetizar la porción de la señal sintetizada (1062) a partir de la señal de excitación combinada (1052) y los coeficientes de predicción (122);
    en el que el decodificador comprende una memoria LTP (350n) y un generador de señales (850) para generar una señal de excitación adaptativa para la trama vocal; y
    en el que la señal de audio recibida no comprende parámetros de LTP para la trama no vocal, en el que el decodificador se configura para ajustar a cero la señal de excitación adaptativa para la trama no vocal, y en el que el libro de códigos determinista se configura para proporcionar más pulsos para una misma tasa de bits debido a los bits guardados por la falta de parámetros de LTP para la trama no vocal.
    9. Sistema según la reivindicación 8 , en el que la señal de audio recibida (1002) comprende una información relativa a un primer parámetro de ganancia (gc) y a un segundo parámetro de ganancia (gn), en el que el decodificador comprende además:
    un primer amplificador (254; 350e; 550e) configurado para amplificar la primera señal de excitación (1012) o una señal derivada de la misma aplicando el primer parámetro de ganancia (gc) para obtener una primera señal de excitación amplificada (1012');
    un segundo amplificador (254; 350e; 550e) configurado para amplificar la segunda señal de excitación (1022) o una señal derivada aplicando el segundo parámetro de ganancia para obtener una segunda señal de excitación amplificada (1022').
    10. Sistema según la reivindicación 8 o 9, que comprende además:
    una calculadora de información de formantes (160; 1090) configurada para calcular una primera información de conformación espectral (1092a) y una segunda información de conformación espectral (1092b) a partir de los coeficientes de predicción (122; 322);
    un primer conformador (1070) para conformar espectralmente un espectro de la primera señal de excitación (1012) o una señal derivada de la misma usando la primera información de conformación espectral (1092a); y
    un segundo conformador (1080) para conformar espectralmente un espectro de la segunda señal de excitación (1022) o una señal derivada de la misma usando la segunda información de conformación (1092b); Método (1400) para codificar una señal de audio (102), comprendiendo el método:
    derivar (1410) los coeficientes de predicción (122; 322) y una señal residual a partir de una trama no vocal de la señal de audio (102);
    calcular (1420) una primera información de parámetros de ganancia tíc ' para definir una primera señal de excitación (c(n)) relativa a un libro de códigos determinista y para calcular una segunda información de parámetros de ganancia (gn) para definir una segunda señal de excitación (n(n)) relativa a una señal con características de ruido (n(n)) para la trama no vocal; y
    formar (1430) una señal de salida (692; 1002) basándose en una información de señal vocal (142), una información (182) relativa a los coeficientes de predicción (122; 322), la primera información de parámetros de ganancia y la segunda información de parámetros de ganancia (g„);
    determinar si la señal residual se determinó a partir de una trama de audio de señal no vocal;
    generar una señal de excitación adaptativa para la trama vocal usando una memoria LTP (350n) y un generador de señales (850); y
    cuando se compara con un esquema de codificación de CELP, no transmitir parámetros de LTP para la trama no vocal para guardar bits, ajustar la señal de excitación adaptativa a cero para la trama no vocal, y codificar más pulsos para una misma tasa de bits usando el libro de códigos determinista y usando los bits guardados; comprendiendo el método además:
    cuantificar el primer parámetro de ganancia (gc) para obtener un primer parámetro de ganancia cuantificada ) j y determinar el primer parámetro de ganancia (gc) basándose en:
    _ £nlV*w(n)-cw(n)
    9C t S lc w ( n ) ' cw (n )
    en el que gc es el primer parámetro de ganancia, Lsf es el tamaño de la subtrama en muestras, cw(n) indica la primera señal de excitación conformada, xw(n) indica una señal codificadora de Predicción Lineal Excitada por Código,
    normalizar el primer parámetro de ganancia (gc) para obtener un primer parámetro de ganancia normalizada basándose en:
    Figure imgf000020_0001
    en el que gnc indica el primer parámetro de ganancia normalizada y n r@ es una medición para una energía promedio de la señal residual no vocal sobre toda la trama; y
    cuantificar el primer parámetro de ganancia normalizada para obtener el primer parámetro de ganancia cuantificada (#c); cuantificar el segundo parámetro de ganancia (gn) para obtener un segundo parámetro de ganancia cuantificada (gn); y determinar el segundo parámetro de ganancia (gn) determinando un valor de error basándose en:
    Figure imgf000020_0002
    en el que k es un factor de atenuación variable en un intervalo entre 0,5 y 1 y depende de o se basa en los coeficientes de predicción, Lsf corresponde al tamaño de una subtrama de una trama de audio procesada, cw(n) indica la primera señal de excitación conformada (c(n)), xw(n) indica una señal codificadora de Predicción Lineal Excitada por Código, gn indica el segundo parámetro de ganancia y T indica un primer parámetro de ganancia cuantificada;
    determinar el error para la subtrama actual y determinar la segunda ganancia cuantificada (gn) que minimiza el error y para obtener la segunda ganancia cuantificada (gn) basándose en:
    Figure imgf000021_0001
    donde Q(indexn) indica un valor escalar de un conjunto finito de valores posibles; y
    determinar el valor de error basándose en un desajuste de energía entre la primera señal de excitación conformada (c(n)) y la segunda señal de excitación, en el que el cuantificador (170-1) se configura para determinar el primer parámetro de ganancia (gc) basándose en un error cuadrático medio o error de raíz cuadrada promedio.
    Método (1500) para decodificar una señal de audio recibida (692; 1002) que se codifica con un método según la reivindicación 11, comprendiendo el método una información relativa a los coeficientes de predicción (122; 322), la señal de audio recibida no comprende parámetros de LTP para la trama no vocal, comprendiendo el método:
    generar (1510) una primera señal de excitación (1012, 1012') a partir de un libro de códigos determinista para una porción de una señal sintetizada (1062);
    generar (1520) una segunda señal de excitación (1022, 1022') a partir de una señal con características de ruido (n(n)) para la porción de la señal sintetizada (1062);
    combinar (1530) la primera señal de excitación (1012, 1012') y la segunda señal de excitación (1022, 1022') para generar una señal de excitación combinada (1052) para la porción de la señal sintetizada (1062); y sintetizar (1540) la porción de la señal sintetizada (1062) a partir de la señal de excitación combinada (1052) y los coeficientes de predicción (122; 322);
    generar una señal de excitación adaptativa para la trama vocal usando una memoria LTP (350n) y un generador de señales (850); y
    ajustar a cero la señal de excitación adaptativa para la trama no vocal, y proporcionar más pulsos para una misma tasa de bits debido los bits guardados por la falta de parámetros de LTP para la trama no vocal usando el libro de códigos determinista.
    Programa informático que tiene un código de programa para ejecutar un método según la reivindicación 11 o 12 cuando se ejecuta en un ordenador.
ES14786471T 2013-10-18 2014-10-10 Concepto para codificar una señal de audio y decodificar una señal de audio usando información determinista y con características de ruido Active ES2839086T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13189392 2013-10-18
EP14178785 2014-07-28
PCT/EP2014/071769 WO2015055532A1 (en) 2013-10-18 2014-10-10 Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information

Publications (1)

Publication Number Publication Date
ES2839086T3 true ES2839086T3 (es) 2021-07-05

Family

ID=51752102

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14786471T Active ES2839086T3 (es) 2013-10-18 2014-10-10 Concepto para codificar una señal de audio y decodificar una señal de audio usando información determinista y con características de ruido

Country Status (15)

Country Link
US (3) US10304470B2 (es)
EP (2) EP3058569B1 (es)
JP (1) JP6366705B2 (es)
KR (2) KR20160070147A (es)
CN (1) CN105723456B (es)
AU (1) AU2014336357B2 (es)
CA (1) CA2927722C (es)
ES (1) ES2839086T3 (es)
MX (1) MX355258B (es)
MY (1) MY187944A (es)
PL (1) PL3058569T3 (es)
RU (1) RU2644123C2 (es)
SG (1) SG11201603041YA (es)
TW (1) TWI576828B (es)
WO (1) WO2015055532A1 (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2951819B1 (en) * 2013-01-29 2017-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer medium for synthesizing an audio signal
KR20160070147A (ko) * 2013-10-18 2016-06-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
JP6366706B2 (ja) * 2013-10-18 2018-08-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スピーチ関連のスペクトル整形情報を使用したオーディオ信号符号化と復号化の概念
CN110024422B (zh) 2016-12-30 2023-07-18 英特尔公司 物联网的命名和区块链记录
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
DE102018112215B3 (de) * 2018-04-30 2019-07-25 Basler Ag Quantisiererbestimmung, computerlesbares Medium und Vorrichtung, die mindestens zwei Quantisierer implementiert
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
JP3099852B2 (ja) 1993-01-07 2000-10-16 日本電信電話株式会社 励振信号の利得量子化方法
US5864797A (en) * 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
JP3747492B2 (ja) 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
JPH11122120A (ja) * 1997-10-17 1999-04-30 Sony Corp 符号化方法及び装置、並びに復号化方法及び装置
KR100872246B1 (ko) 1997-10-22 2008-12-05 파나소닉 주식회사 직교화 탐색 방법 및 음성 부호화기
CN100583242C (zh) 1997-12-24 2010-01-20 三菱电机株式会社 声音译码方法和声音译码装置
US6415252B1 (en) * 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
KR100351484B1 (ko) * 1998-06-09 2002-09-05 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6192335B1 (en) 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
US6463410B1 (en) 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
CA2252170A1 (en) 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
JP3451998B2 (ja) 1999-05-31 2003-09-29 日本電気株式会社 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
US6615169B1 (en) 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
DE10124420C1 (de) * 2001-05-18 2002-11-28 Siemens Ag Verfahren zur Codierung und zur Übertragung von Sprachsignalen
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
WO2004097796A1 (ja) * 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
CN1820306B (zh) * 2003-05-01 2010-05-05 诺基亚有限公司 可变比特率宽带语音编码中增益量化的方法和装置
KR100651712B1 (ko) * 2003-07-10 2006-11-30 학교법인연세대학교 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
JP4899359B2 (ja) 2005-07-11 2012-03-21 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
WO2007096550A2 (fr) * 2006-02-22 2007-08-30 France Telecom Codage/decodage perfectionnes d'un signal audionumerique, en technique celp
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
EP2165328B1 (en) 2007-06-11 2018-01-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of an audio signal having an impulse-like portion and a stationary portion
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
JP5148414B2 (ja) 2008-08-29 2013-02-20 株式会社東芝 信号帯域拡張装置
RU2400832C2 (ru) * 2008-11-24 2010-09-27 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФCО России) Способ формирования сигнала возбуждения в низкоскоростных вокодерах с линейным предсказанием
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
EP2676271B1 (en) * 2011-02-15 2020-07-29 VoiceAge EVS LLC Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec
US9972325B2 (en) * 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
CN103295578B (zh) * 2012-03-01 2016-05-18 华为技术有限公司 一种语音频信号处理方法和装置
JP6366706B2 (ja) 2013-10-18 2018-08-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スピーチ関連のスペクトル整形情報を使用したオーディオ信号符号化と復号化の概念
PT3058568T (pt) 2013-10-18 2021-03-04 Fraunhofer Ges Forschung Conceito para codificar um sinal de áudio e descodificar um sinal de áudio usando informação de modelação espectral relacionada com a fala
KR20160070147A (ko) * 2013-10-18 2016-06-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념

Also Published As

Publication number Publication date
US10607619B2 (en) 2020-03-31
EP3058569B1 (en) 2020-12-09
PL3058569T3 (pl) 2021-06-14
US20200219521A1 (en) 2020-07-09
CA2927722C (en) 2018-08-07
AU2014336357A1 (en) 2016-05-19
CN105723456A (zh) 2016-06-29
JP6366705B2 (ja) 2018-08-01
SG11201603041YA (en) 2016-05-30
KR20180021906A (ko) 2018-03-05
RU2016118979A (ru) 2017-11-23
EP3779982A1 (en) 2021-02-17
US11798570B2 (en) 2023-10-24
US20190228787A1 (en) 2019-07-25
MY187944A (en) 2021-10-30
US20160232908A1 (en) 2016-08-11
JP2016537667A (ja) 2016-12-01
CA2927722A1 (en) 2015-04-23
AU2014336357B2 (en) 2017-04-13
CN105723456B (zh) 2019-12-13
TWI576828B (zh) 2017-04-01
MX2016004922A (es) 2016-07-11
KR101931273B1 (ko) 2018-12-20
MX355258B (es) 2018-04-11
RU2644123C2 (ru) 2018-02-07
TW201523588A (zh) 2015-06-16
WO2015055532A1 (en) 2015-04-23
KR20160070147A (ko) 2016-06-17
EP3058569A1 (en) 2016-08-24
US10304470B2 (en) 2019-05-28

Similar Documents

Publication Publication Date Title
ES2839086T3 (es) Concepto para codificar una señal de audio y decodificar una señal de audio usando información determinista y con características de ruido
ES2856199T3 (es) Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz
BR112016008544B1 (pt) Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio.