ES2856199T3 - Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz - Google Patents

Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz Download PDF

Info

Publication number
ES2856199T3
ES2856199T3 ES14783821T ES14783821T ES2856199T3 ES 2856199 T3 ES2856199 T3 ES 2856199T3 ES 14783821 T ES14783821 T ES 14783821T ES 14783821 T ES14783821 T ES 14783821T ES 2856199 T3 ES2856199 T3 ES 2856199T3
Authority
ES
Spain
Prior art keywords
signal
gain parameter
speech
information
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14783821T
Other languages
English (en)
Inventor
Guillaume Fuchs
Markus Multrus
Emmanuel Ravelli
Markus Schnell
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2856199T3 publication Critical patent/ES2856199T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Codificador (100; 200; 300) para codificar una señal de audio (102), comprendiendo el codificador un analizador (120; 320) configurado para derivar coeficientes de predicción (122; 322) y una señal residual (124; 324) a partir de una trama de la señal de audio (102); una calculadora de información de formantes (160) configurada para calcular una información de conformación espectral relacionada con la voz (162) a partir de los coeficientes de predicción (122; 322); una calculadora de parámetros de ganancia (150; 350; 350'; 550) configurada para calcular un parámetro de ganancia (gn; gc) a partir de una señal residual no vocal y la información de conformación espectral (162); y un formador de corrientes de bits (190; 690) configurado para formar una señal de salida (192; 692) basándose en una información (142) relacionada con una trama de señal vocal, el parámetro de ganancia (gn; gc) o un parámetro de ganancia cuantificada y los coeficientes de predicción (122; 322); en el que la calculadora de parámetros de ganancia (150; 350; 350'; 550) comprende un generador de ruido (350a) configurado para generar una señal con características de ruido codificadora (n(n)); en el que la calculadora de parámetros de ganancia (150; 350; 350'; 550) comprende un procesador de conformación (350d) configurado para conformar el espectro de la señal con características de ruido (n(n)) usando la información de conformación espectral relacionada con la voz (162) y un amplificador variable (350e) configurado para amplificar el espectro de la señal con características de ruido conformada (350f) para obtener una señal con características de ruido conformada amplificada (350g) y un controlador (350k; 550n) para calcular un parámetro de ganancia (gn; gc) basándose en la señal con características de ruido conformada amplificada (350g); en el que la calculadora de parámetros de ganancia (150; 350; 350'; 550) comprende un comparador (350h; 350'; 550l) configurado para comparar la señal residual no vocal y la señal con características de ruido conformada amplificada (350g) para obtener un resultado comparativo (350), en el que el controlador (350k; 550n) está configurado para determinar el parámetro de ganancia (gn(temp)) basándose en el resultado comparativo (350i); y en el que la calculadora de parámetros de ganancia (350; 350') está configurada para combinar un espectro de la señal con características de ruido codificadora (n(n)) o un espectro derivado de la misma y una función de transferencia (Ffe(z)) que comprende 0 3. en el que A(z) corresponde a un polinomio de filtro del filtro codificador para filtrar la señal con características de ruido codificadora conformada adaptada ponderada mediante los factores de ponderación w1 o w2, en el que w1 comprende un valor escalar positivo no cero de 1,0 como máximo y en el que w2 comprende un valor escalar positivo no cero de 1,00 como máximo, en el que w2 es mayor que w1.

Description

DESCRIPCIÓN
Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz
La presente invención se refiere a codificadores para codificar una señal de audio, en particular una señal de audio relacionada con la voz. La presente invención también se refiere a decodificadores y métodos para decodificar una señal de audio codificada. La presente invención se refiere además a señales de audio codificadas y a una codificación no vocal de voz avanzada a tasas de bits bajas.
Con una tasa de bits baja, la codificación de la voz puede beneficiarse de una manipulación especial para las tramas no vocales con el fin de mantener la calidad de la voz y reducir al mismo tiempo la tasa de bits. Las tramas no vocales pueden modelarse perceptualmente como una excitación aleatoria que se conforma tanto en el dominio de la frecuencia como en el del tiempo. Dado que la forma de la onda y la excitación parecen y suenan casi igual a un ruido blanco gaussiano, su codificación de la forma de la onda puede relajarse y reemplazarse por un ruido blanco generado sintéticamente. La codificación consistirá entonces en codificar las formas de los dominios del tiempo y de la frecuencia de la señal.
La figura 16 muestra un diagrama de bloques esquemático de un esquema de codificación no vocal paramétrica. Un filtro de síntesis 1202 está configurado para modelar el aparato vocal y está parametrizado por los parámetros de LPC (codificación predictiva lineal). A partir del filtro de LPC derivado que comprende una función de filtro A(z), puede derivarse un filtro ponderado perceptual mediante la ponderación de los coeficientes de LPC. El filtro perceptual fw(n) generalmente tiene una función de transferencia de la forma:
Figure imgf000002_0001
en el que w es inferior a 1. El parámetro de ganancia gn se calcula para obtener una energía sintetizada correspondiente a la energía original en el dominio perceptual según:
= ¡E ^ -o 5U/2( ” )
9n jE n S= 0nw2(n)
donde sw(n) y nw(n) son la señal de entrada y el ruido generado, respectivamente, filtrados por el filtro perceptual fw(n). La ganancia gn se calcula para cada subtrama de tamaño Ls. Por ejemplo, una señal de audio puede dividirse en tramas con una longitud de 20 ms. Cada trama puede subdividirse en subtramas, por ejemplo, en cuatro subtramas, comprendiendo cada una una longitud de 5 ms.
El esquema de codificación de predicción lineal excitada por código (CELP) se usa mucho en las comunicaciones de voz y es una manera muy eficiente de codificar la voz. Permite una calidad de voz más natural que la codificación paramétrica, pero también requiere tasas más altas. La CELP sintetiza una señal de audio por transmisión a un filtro predictivo lineal, llamado filtro de síntesis de LPC que puede comprender una forma 1/A(z), la suma de dos excitaciones. Una excitación proviene del pasado decodificado, lo que se llama el libro de códigos adaptativo. La otra contribución proviene de un libro de códigos innovador poblado de códigos fijos. Sin embargo, a tasas de bits bajas el libro de códigos innovador no está lo suficientemente poblado como para modelar de manera eficaz la fina estructura de la voz o la excitación con características de ruido de lo no vocal. Por lo tanto, la calidad perceptual se degrada, especialmente las tramas no vocales, que entonces suenan chillonas y poco naturales.
Para mitigar las distorsiones de codificación a tasas de bits bajas, ya se han propuesto diferentes soluciones. En G.718[1] y en [2], los códigos del libro de códigos innovador están conformados adaptativa y espectralmente mediante la mejora de las regiones espectrales correspondientes a los formantes de la trama actual. Las formas y posiciones de formantes pueden deducirse directamente de los coeficientes de LPC, coeficientes ya disponibles tanto del lado del codificador como del decodificador. La mejora de formantes de los códigos c(n) se hace mediante una sencilla filtración según:
c(n ) * f e (n )
en el que * indica el operador de convolución y en el que fe(n) es la respuesta de pulsos del filtro de función de transferencia:
Figure imgf000002_0002
Donde w1 y w2 son las dos constantes de ponderación que enfatizan más o menos la estructura formántica de la función de transferencia Ffe(z). Los códigos conformados resultantes heredan una característica de la señal de voz y la señal sintetizada suena más limpia.
En la CELP, también es habitual agregar una inclinación espectral al decodificador del libro de códigos innovador. Esto se hace filtrando los códigos con el siguiente filtro:
Figure imgf000003_0001
El factor p generalmente está relacionado con la sonorización de la trama anterior y es dependiente, es decir, varía. La sonorización puede estimarse a partir de la contribución de energía del libro de códigos adaptativo. Si la trama anterior es vocal, se espera que la trama actual también sea vocal y que los códigos tendrán más energía en las frecuencias bajas, es decir, mostrarán una inclinación negativa. Por el contrario, la inclinación espectral agregada será positiva para las tramas no vocales y se distribuirá más energía hacia las frecuencias altas.
El uso de la conformación espectral para la mejora de la voz y la reducción del ruido de la salida del decodificador es una práctica habitual. Lo que se llama mejora de formantes como postfiltración consiste en una postfiltración adaptativa para la cual los coeficientes se derivan de los parámetros de LPC del decodificador. El postfiltro resulta similar al (fe(n)) usado para conformar la excitación innovadora en determinados codificadores de c ElP tal como se comentó anteriormente. Sin embargo, en tal caso, la postfiltración solo se aplica al final del procedimiento decodificador y no en el lado del codificador.
En la CELP convencional (CELP = predicción lineal excitada por libro (de códigos)), la conformación de frecuencia se modela por el filtro de síntesis de LP (predicción lineal), mientras que la conformación del dominio del tiempo puede ser aproximada por la ganancia de excitación enviada a cada subtrama, aunque la predicción a largo plazo (LTP) y el libro de códigos innovador no suelen ser adecuados para modelar la excitación con características de ruido de las tramas no vocales. La CELP necesita una tasa de bits relativamente alta para alcanzar una buena calidad de la voz no vocal.
Una caracterización vocal o no vocal puede relacionarse con la segmentación de la voz en partes y asociar cada una de ellas a un modelo de origen de voz diferente. Los modelos de origen, tal como se usan en el esquema de codificación de la voz de CELP, se basan en una excitación armónica adaptativa que simula el flujo de aire que sale por la glotis y un filtro de resonancia que modela el aparato vocal excitado por el flujo de aire producido. Tales modelos pueden proporcionar buenos resultados para fonemas tales como las vocales, pero pueden dar como resultado un modelado incorrecto para las partes de voz que no se generan por la glotis, en particular cuando las cuerdas vocales no vibran tal como sucede con los fonemas no vocales "s" o "f".
Por otra parte, los codificadores de voz paramétricos también se llaman vocodificadores y adoptan un modelo de origen único para tramas no vocales. Puede alcanzar tasas de bits muy bajas, consiguiendo al mismo tiempo una denominada calidad sintética no tan natural como la calidad que se logra con los esquemas de codificación de CELP a tasas mucho más altas.
En el documento US 6.611.800 B1 se describe un método de cuantificación de vectores en el que se compara un vector de entrada con vectores de códigos almacenados en un libro de códigos para generar un índice de uno óptimo de los vectores de códigos.
Por ende, existe una necesidad de mejorar las señales de audio.
Un objeto de la presente invención es aumentar la calidad del sonido a tasas de bits bajas y/o reducir las tasas de bits para conseguir una buena calidad de sonido.
La invención se define por las reivindicaciones adjuntas.
Posteriormente, se describen las realizaciones preferidas de la presente invención con respecto a los dibujos adjuntos, en los que:
la figura 1 muestra un diagrama de bloques esquemático de un codificador para codificar una señal de audio según una realización del primer aspecto;
la figura 2 muestra un diagrama de bloques esquemático de un decodificador para decodificar una señal de entrada recibida según una realización del primer aspecto;
la figura 3 muestra un diagrama de bloques esquemático de un codificador adicional para codificar la señal de audio según una realización del primer aspecto;
la figura 4 muestra un diagrama de bloques esquemático de un codificador que comprende una calculadora de parámetros de ganancia variada cuando se compara con la figura 3 según una realización del primer aspecto; la figura 5 muestra un diagrama de bloques esquemático de una calculadora de parámetros de ganancia configurada para calcular una primera información de parámetros de ganancia y para conformar una señal excitada por código según una realización del segundo aspecto;
la figura 6 muestra un diagrama de bloques esquemático de un codificador para codificar la señal de audio y que comprende la calculadora de parámetros de ganancia descrita en la figura 5 según una realización del segundo aspecto;
la figura 7 muestra un diagrama de bloques esquemático de una calculadora de parámetros de ganancia que comprende un conformador adicional configurado para conformar una señal con características de ruido cuando se compara con la figura 5 según una realización del segundo aspecto;
la figura 8 muestra un diagrama de bloques esquemático de un esquema de codificación no vocal para CELP según una realización del segundo aspecto;
la figura 9 muestra un diagrama de bloques esquemático de una codificación no vocal paramétrica según una realización del primer aspecto;
la figura 10 muestra un diagrama de bloques esquemático de un decodificador para decodificar una señal de audio codificada según una realización del segundo aspecto;
la figura 11a muestra un diagrama de bloques esquemático de un conformador que implementa una estructura alternativa cuando se compara con un conformador mostrado en la figura 2 según una realización del primer aspecto;
la figura 11b muestra un diagrama de bloques esquemático de un conformador adicional que implementa una alternativa adicional cuando se compara con el conformador mostrado en la figura 2 según una realización del primer aspecto;
la figura 12 muestra un diagrama de flujo esquemático de un método para codificar una señal de audio según una realización del primer aspecto;
la figura 13 muestra un diagrama de flujo esquemático de un método para decodificar una señal de audio recibida que comprende coeficientes de predicción y un parámetro de ganancia, según una realización del primer aspecto; la figura 14 muestra un diagrama de flujo esquemático de un método para codificar una señal de audio según una realización del segundo aspecto; y
la figura 15 muestra un diagrama de flujo esquemático de un método para decodificar una señal de audio recibida según una realización del segundo aspecto.
Los elementos iguales o equivalentes o los elementos con funcionalidad igual o equivalente se indican en la siguiente descripción con números de referencia iguales o equivalentes, aunque aparezcan en figuras diferentes. En la siguiente descripción, se expone una pluralidad de detalles para proporcionar una explicación más completa de las realizaciones de la presente invención. Sin embargo, los expertos en la técnica observarán que las realizaciones de la presente invención pueden llevarse a la práctica sin estos detalles específicos. En otros casos, se muestran estructuras y dispositivos muy conocidos en forma de diagrama de bloques en lugar de en detalle con el fin de no entorpecer las realizaciones de la presente invención. Además, las características de las diferentes realizaciones descritas a continuación en el presente documento pueden combinarse entre sí, a menos que se indique específicamente lo contrario.
A continuación, se hará referencia a la modificación de una señal de audio. Una señal de audio puede modificarse mediante la amplificación y/o atenuación de partes de la señal de audio. Una parte de la señal de audio puede ser, por ejemplo, una secuencia de la señal de audio en el dominio del tiempo y/o un espectro de la misma en el dominio de la frecuencia. Con respecto al dominio de la frecuencia, el espectro puede modificarse mediante la amplificación o atenuación de los valores espectrales dispuestos en frecuencias o intervalos de frecuencias. La modificación del espectro de la señal de audio puede comprender una secuencia de operaciones tales como una amplificación y/o atenuación de una primera frecuencia o intervalo de frecuencias y posteriormente una amplificación y/o una atenuación de una segunda frecuencia o intervalo de frecuencias. Las modificaciones en el dominio de la frecuencia pueden representarse como un cálculo, por ejemplo, una multiplicación, división, suma o similar, de valores espectrales y valores de ganancia y/o valores de atenuación. Las modificaciones pueden realizarse secuencialmente tal como primero multiplicando los valores espectrales con un primer valor de multiplicación y luego con un segundo valor de multiplicación. Hacer la multiplicación con el segundo valor de multiplicación y luego con el primer valor de multiplicación puede permitir llegar a un resultado idéntico o casi idéntico. Por otra parte, el primer valor de multiplicación y el segundo valor de multiplicación pueden combinarse en primer lugar y luego aplicarse en términos de un valor de multiplicación combinado a los valores espectrales, mientras se llega al mismo resultado, o similar, de la operación. Por consiguiente, las etapas de modificación configuradas para formar o modificar un espectro de la señal de audio descrita cuantificadaa continuación no se limitan al orden descrito, sino que también pueden llevarse a cabo en un orden diferente, mientras se llega al mismo resultado y/o efecto.
La figura 1 muestra un diagrama de bloques esquemático de un codificador 100 para codificar una señal de audio 102. El codificador 100 comprende un constructor de tramas 110 configurado para generar una secuencia de tramas 112 basándose en la señal de audio 102. La secuencia 112 comprende una pluralidad de tramas, en la que cada trama de la señal de audio 102 comprende una longitud (duración de tiempo) en el dominio del tiempo. Por ejemplo, cada trama puede comprender una longitud de 10 ms, 20 ms o 30 ms.
El codificador 100 comprende un analizador 120 configurado para derivar coeficientes de predicción (LPC = coeficientes de predicción lineal) 122 y una señal residual 124 a partir de una trama de la señal de audio. El constructor de tramas 110 o el analizador 120 están configurados para determinar una representación de la señal de audio 102 en el dominio de la frecuencia. Alternativamente, la señal de audio 102 puede ser ya una representación en el dominio de la frecuencia.
Los coeficientes de predicción 122 pueden ser, por ejemplo, coeficientes de predicción lineal. Alternativamente, también puede aplicarse predicción no lineal, de manera que el predictor 120 está configurado para determinar coeficientes de predicción no lineal. Una ventaja de la predicción lineal consiste en una reducción del esfuerzo computacional para determinar los coeficientes de predicción.
El codificador 100 comprende un determinador vocal/no vocal 130 configurado para determinar si la señal residual 124 se determinó a partir de una trama de audio no vocal. El determinador 130 está configurado para proporcionar la señal residual a un codificador de tramas vocales 140, si la señal residual 124 se determinó a partir de una trama de señal vocal y para proporcionar la señal residual a una calculadora de parámetros de ganancia 150 si la señal residual 124 se determinó a partir de una trama de audio no vocal. Para determinar si la señal residual 122 se determinó a partir de una trama de señal vocal o no vocal, el determinador 130 puede usar diferentes enfoques, tales como una autocorrelación de muestras de la señal residual. Se proporciona un método para decidir si una trama de señal era vocal o no vocal, por ejemplo, en la norma G.718 de la ITU (Unión Internacional de Telecomunicaciones) - T (Sector de Normalización de las Telecomunicaciones). Una alta cantidad de energía dispuesta a frecuencias bajas puede indicar una parte vocal de la señal. Alternativamente, una señal no vocal puede dar como resultado grandes cantidades de energía a frecuencias altas.
El codificador 100 comprende una calculadora de información de formantes 160 configurada para calcular una información de conformación espectral relacionada con la voz a partir de los coeficientes de predicción 122.
La información de conformación espectral relacionada con la voz puede considerar la información de formantes, por ejemplo, mediante la determinación de las frecuencias o intervalos de frecuencias de la trama de audio procesada que comprenden una cantidad de energía más alta que en la proximidad. La información de conformación espectral puede segmentar el espectro de magnitud de la voz en regiones de frecuencia de formantes, es decir, picos, y no formantes, es decir, valle. Las regiones de formantes del espectro pueden derivarse, por ejemplo, usando la representación de frecuencias espectrales de inmitancia (ISF) o frecuencias espectrales de líneas (LSF) de los coeficientes de predicción 122. De hecho, las ISF o LSF representan las frecuencias para las cuales resuena el filtro de síntesis que usa los coeficientes de predicción 122.
La información de conformación espectral relacionada con la voz 162 y las residuales no vocales se transmiten a la calculadora de parámetros de ganancia 150 que está configurada para calcular un parámetro de ganancia gn a partir de la señal residual no vocal y la información de conformación espectral 162. El parámetro de ganancia gn puede ser un valor escalar o una pluralidad de los mismos, es decir, el parámetro de ganancia puede comprender una pluralidad de valores relacionados con una amplificación o atenuación de los valores espectrales en una pluralidad de intervalos de frecuencia de un espectro de la señal que va a amplificarse o atenuarse. Un decodificador puede configurarse para aplicar el parámetro de ganancia gn a la información de una señal de audio codificada recibida de manera que las partes de las señales de audio codificadas recibidas se amplifiquen o atenúen basándose en el parámetro de ganancia durante la decodificación. La calculadora de parámetros de ganancia 150 puede configurarse para determinar el parámetro de ganancia gn mediante una o varias expresiones matemáticas o reglas de determinación que dan como resultado un valor continuo. Las operaciones realizadas de manera digital, por ejemplo, por medio de un procesador, que expresa el resultado en una variable con un número limitado de bits, puede dar como resultado una ganancia cuantificada gn Como alternativa, el resultado puede cuantificarse adicionalmente según un esquema de cuantificación de manera que se obtenga una información de ganancia cuantificada. Por tanto, el codificador 100 puede comprender un cuantificador 170. El cuantificador 170 puede configurarse para cuantificar la ganancia determinada gn hasta un valor digital más cercano soportado por las operaciones digitales del codificador 100. Alternativamente, el cuantificador 170 puede configurarse para aplicar una función de cuantificación (lineal o no lineal) a un factor de ganancia gn ya digitalizado y por lo tanto cuantificado. Una función de cuantificación no lineal puede considerar, por ejemplo, dependencias logarítmicas del oído humano altamente sensibles a niveles de presión de sonido bajos y menos sensibles a niveles de presión elevados.
El codificador 100 comprende además una unidad derivadora de información 180 configurada para derivar una información relacionada con los coeficientes de predicción 182 a partir de los coeficientes de predicción 122. Los coeficientes de predicción, tales como los coeficientes de predicción lineal usados para excitar libros de códigos innovadores, comprenden una baja robustez contra distorsiones o errores. Por lo tanto, por ejemplo, es conocida la conversión de coeficientes de predicción lineal a frecuencias interespectrales (ISF) y/o la derivación de pares espectrales de líneas (LSP) y la transmisión de una información relacionada con los mismos con la señal de audio codificada. La información de LSP y/o ISF comprende una mayor robustez contra las distorsiones en el medio de transmisión, por ejemplo, error, o errores de calculadora. La unidad derivadora de información 180 puede comprender además un cuantificador configurado para proporcionar una información cuantificada con respecto a LSF y/o ISP.
Alternativamente, la unidad derivadora de información puede configurarse para transmitir los coeficientes de predicción 122. Alternativamente, el codificador 100 puede realizarse sin la unidad derivadora de información 180. Alternativamente, el cuantificador puede ser un bloque funcional de la calculadora de parámetros de ganancia 150 o del formador de corrientes de bits 190, de manera que el formador de corrientes de bits 190 se configura para recibir el parámetro de ganancia gn y derivar la ganancia cuantificada basada en el mismo. Alternativamente, cuando el parámetro de ganancia gn ya está cuantificado, el codificador 100 puede realizarse sin el cuantificador 170.
El codificador 100 comprende un formador de corrientes de bits 190 configurado para recibir una señal vocal, una información vocal 142 relacionada con una trama vocal de una señal de audio codificada respectivamente proporcionada por el codificador de tramas vocales 140 para recibir la ganancia cuantificada y la información relacionada con los coeficientes de predicción 182 y formar una señal de salida 192 basada en la misma.
El codificador 100 puede ser parte de un aparato de codificación de voz tal como un teléfono fijo o móvil o un aparato que comprende un micrófono para transmitir señales de audio, tal como un ordenador, un PC de tableta o similares. La señal de salida 192 o una señal derivada de la misma pueden transmitirse, por ejemplo, mediante comunicaciones móviles (inalámbricas) o mediante comunicaciones cableadas tales como una señal de red.
Una ventaja del codificador 100 es que la señal de salida 192 comprende información derivada de una información de conformación espectral convertida a la ganancia cuantificada '. Por lo tanto, la decodificación de la señal de salida 192 puede permitir conseguir u obtener información adicional relacionada con la voz y, por lo tanto, decodificar la señal de manera que la señal decodificada obtenida comprende una alta calidad con respecto a un nivel percibido de calidad de voz.
La figura 2 muestra un diagrama de bloques esquemático de un decodificador 200 para decodificar una señal de entrada recibida 202. La señal de entrada recibida 202 puede corresponder, por ejemplo, a la señal de salida 192 proporcionada por el codificador 100, en el que la señal de salida 192 puede codificarse a través de codificadores de capas de alto nivel, transmitirse a través de un medio, recibirse por un aparato de recepción decodificado en capas altas, produciendo la señal de entrada 202 para el decodificador 200.
El decodificador 200 comprende un deformador de corrientes de bits (demultiplexor; DE-MUX) para recibir la señal de entrada 202. El deformador de corrientes de bits 210 está configurado para proporcionar los coeficientes de predicción 122, la ganancia cuantificada &n y la información vocal 142. Para obtener los coeficientes de predicción 122, el deformador de corrientes de bits puede comprender una unidad derivadora de información inversa que realiza una operación inversa cuando se compara con la unidad derivadora de información 180. Alternativamente, el decodificador 200 puede comprender una unidad derivadora de información inversa no mostrada configurada para ejecutar la operación inversa con respecto a la unidad derivadora de información 180. En otras palabras, los coeficientes de predicción se decodifican, es decir, se restauran.
El decodificador 200 comprende una calculadora de información de formantes 220 configurada para calcular una información de conformación espectral relacionada con la voz a partir de los coeficientes de predicción 122 tal como se describió para la calculadora de información de formantes 160. La calculadora de información de formantes 220 está configurada para proporcionar información de conformación espectral relacionada con la voz 222. Alternativamente, la señal de entrada 202 también puede comprender la información de conformación espectral relacionada con la voz 222, en el que la transmisión de los coeficientes de predicción o información relacionada con los mismos, tal como, por ejemplo, LSF y/o ISF cuantificadas en lugar de la información de conformación espectral relacionada con la voz 222 permite una tasa de bits inferior de la señal de entrada 202.
El decodificador 200 comprende un generador de ruido aleatorio 240 configurado para generar una señal con características de ruido, que puede indicarse simplemente como señal de ruido. El generador de ruido aleatorio 240 puede configurarse para reproducir una señal de ruido obtenida, por ejemplo, al medir y almacenar una señal de ruido. Una señal de ruido puede medirse y registrarse, por ejemplo, mediante la generación de ruido térmico en una resistencia u otro componente eléctrico y el almacenamiento de datos registrados en una memoria. El generador de ruido aleatorio 240 está configurado para proporcionar la señal (con características) de ruido n(n).
El decodificador 200 comprende un conformador 250 que comprende un procesador de conformación 252 y un amplificador variable 254. El conformador 250 está configurado para conformar espectralmente un espectro de la señal de ruido n(n). El procesador de conformación 252 está configurado para recibir la información de conformación espectral relacionada con la voz y para conformar el espectro de la señal de ruido n(n), por ejemplo, multiplicando valores espectrales del espectro de la señal de ruido n(n) y valores de la información de conformación espectral. La operación también puede realizarse en el dominio del tiempo por medio de la convolución de la señal de ruido n(n) con un filtro dado por la información de conformación espectral. El procesador de conformación 252 está configurado para proporcionar una señal de ruido conformada 256, un espectro de la misma respectivamente al amplificador variable 254. El amplificador variable 254 está configurado para recibir el parámetro de ganancia gn y para amplificar el espectro de la señal de ruido conformada 256 para obtener una señal de ruido conformada amplificada 258. El amplificador puede configurarse para multiplicar los valores espectrales de la señal de ruido conformada 256 con valores del parámetro de ganancia gn. Tal como se indicó anteriormente, el conformador 250 puede implementarse de manera que el amplificador variable 254 se configura para recibir la señal de ruido n(n) y para proporcionar una señal de ruido amplificada al procesador de conformación 252 configurado para conformar la señal de ruido amplificada. Alternativamente, el procesador de conformación 252 puede configurarse para recibir la información de conformación espectral relacionada con la voz 222 y el parámetro de ganancia gn y para aplicar secuencialmente, uno después del otro, ambas informaciones a la señal de ruido n(n) o para combinar ambas informaciones, por ejemplo, mediante multiplicación u otros cálculos y para aplicar un parámetro combinado a la señal de ruido n(n). La señal con características de ruido n(n) o la versión amplificada de la misma conformada con la información de conformación espectral relacionada con la voz da lugar a la señal de audio decodificada 282 que comprende una calidad de sonido (natural) más relacionada con la voz. Esto permite obtener señales de audio de alta calidad y/o reducir las tasas de bits del lado del codificador, manteniendo o mejorando a la vez la señal de salida 282 en el decodificador con un alcance reducido.
El decodificador 200 comprende un sintetizador 260 configurado para recibir los coeficientes de predicción 122 y la señal de ruido conformada amplificada 258 y para sintetizar una señal sintetizada 262 a partir de la señal con características de ruido conformada amplificada 258 y los coeficientes de predicción 122. El sintetizador 260 puede comprender un filtro y puede configurarse para adaptar el filtro con los coeficientes de predicción. El sintetizador puede configurarse para filtrar la señal con características de ruido conformada amplificada 258 con el filtro. El filtro puede implementarse como software o como una estructura de hardware y puede comprender una estructura de respuesta a impulso infinita (IIR) o de respuesta a impulso finita (FIR).
La señal sintetizada corresponde a una trama decodificada no vocal de una señal de salida 282 del decodificador 200. La señal de salida 282 comprende una secuencia de tramas que puede convertirse a una señal de audio continua.
El deformador de corrientes de bits 210 está configurado para separar y proporcionar la señal de información vocal 142 a partir de la señal de entrada 202. El decodificador 200 comprende un decodificador de tramas vocales 270 configurado para proporcionar una trama vocal basándose en la información vocal 142. El decodificador de tramas vocales (procesador de tramas vocal) está configurado para determinar una señal vocal 272 basándose en la información vocal 142. La señal vocal 272 puede corresponder a la trama de audio vocal y/o el residual vocal del decodificador 100.
El decodificador 200 comprende un combinador 280 configurado para combinar la trama decodificada no vocal 262 y la trama vocal 272 para obtener la señal de audio decodificada 282.
Alternativamente, el conformador 250 puede realizarse sin un amplificador de manera que el conformador 250 se configura para conformar el espectro de la señal con características de ruido n(n) sin amplificar más la señal obtenida. Esto puede dar lugar a una reducción de la cantidad de información transmitida por la señal de entrada 222 y, por lo tanto, una reducción de la tasa de bits o una duración más corta de una secuencia de la señal de entrada 202. Alternativa o adicionalmente, el decodificador 200 puede configurarse para decodificar solamente tramas no vocales o para procesar tramas vocales y no vocales, tanto por la conformación espectral de la señal de ruido n(n) como por la sintetización de la señal sintetizada 262 para tramas vocales y no vocales. Esto puede permitir la implementación del decodificador 200 sin el decodificador de tramas vocales 270 y/o sin un combinador 280 y, de esa manera, se da lugar a una reducción de la complejidad del decodificador 200.
La señal de salida 192 y/o la señal de entrada 202 comprenden información relacionada con los coeficientes de predicción 122, una información para una trama vocal y una trama no vocal tal como una bandera que indica si la trama procesada es vocal o no vocal, e información adicional relacionada con la trama de señal vocal tal como una señal vocal codificada. La señal de salida 192 y/o la señal de entrada 202 comprenden además un parámetro de ganancia o un parámetro de ganancia cuantificada para la trama no vocal de manera que la trama no vocal puede
decodificarse basándose en los coeficientes de predicción 122 y el parámetro de ganancia gn; respectivamente.
La figura 3 muestra un diagrama de bloques esquemático de un codificador 300 para codificar la señal de audio 102. El codificador 300 comprende el constructor de tramas 110, un predictor 320 configurado para determinar los coeficientes de predicción lineal 322 y una señal residual 324, aplicando un filtro A(z) a la secuencia de tramas 112 proporcionada por el constructor de tramas 110. El codificador 300 comprende el determinador 130 y el codificador de tramas vocales 140 para obtener la información de señal vocal 142. El codificador 300 comprende además la calculadora de información de formantes 160 y una calculadora de parámetros de ganancia 350.
La calculadora de parámetros de ganancia 350 está configurada para proporcionar un parámetro de ganancia gn tal como se describió anteriormente. La calculadora de parámetros de ganancia 350 comprende un generador de ruido aleatorio 350a para generar una señal con características de ruido codificadora 350b. La calculadora de ganancia 350 comprende además un conformador 350c que tiene un procesador de conformación 350d y un amplificador variable 350e. El procesador de conformación 350d está configurado para recibir la información de conformación relacionada con la voz 162 y la señal con características de ruido 350b, y para conformar un espectro de la señal con características de ruido 350b con la información de conformación espectral relacionada con la voz 162, tal como se describió para el conformador 250. El amplificador variable 350e está configurado para amplificar una señal con características de ruido conformada 350f con un parámetro de ganancia gn(temp) que es un parámetro de ganancia temporal recibido de un controlador 350k. El amplificador variable 350e está configurado asimismo para proporcionar una señal con características de ruido conformada amplificada 350g tal como se describió para la señal con características de ruido amplificada 258. Tal como se describió para el conformador 250, puede combinarse o modificarse un orden de conformación y amplificación de la señal con características de ruido en comparación con la figura 3.
La calculadora de parámetros de ganancia 350 comprende un comparador 350h configurado para comparar la residual no vocal proporcionada por el determinador 130 y la señal con características de ruido conformada amplificada 350g. El comparador está configurado para obtener una medición para una similitud de la residual no vocal y la señal con características de ruido conformada amplificada 350g. Por ejemplo, el comparador 350h puede configurarse para determinar una correlación cruzada de ambas señales. Alternativa o adicionalmente, el comparador 350h puede configurarse para comparar valores espectrales de ambas señales en algunos o todos los intervalos de frecuencia. El comparador 350h está configurado además para obtener un resultado comparativo 350i.
La calculadora de parámetros de ganancia 350 comprende el controlador 350k configurado para determinar el parámetro de ganancia gn(temp) basándose en el resultado comparativo 350i. Por ejemplo, cuando el resultado comparativo 350i indica que la señal con características de ruido conformada amplificada comprende una amplitud o magnitud inferior a una amplitud o magnitud correspondiente de la residual no vocal, el controlador puede configurarse para aumentar uno o más valores del parámetro de ganancia gn(temp) para algunas o todas las frecuencias de la señal con características de ruido amplificada 350g. Alternativa o adicionalmente, el controlador puede configurarse para reducir uno o más valores del parámetro de ganancia gn(temp) cuando el resultado comparativo 350i indica que la señal con características de ruido conformada amplificada comprende una magnitud o amplitud demasiado alta, es decir, que la señal con características de ruido conformada amplificada es demasiado alta. El generador de ruido aleatorio 350a, el conformador 350c, el comparador 350h y el controlador 350k pueden configurarse para implementar una optimización de bucle cerrado para determinar el parámetro de ganancia gn(temp). Cuando la medición para la similitud de la residual no vocal con la señal con características de ruido conformada amplificada 350g, por ejemplo, expresada como una diferencia entre ambas señales, indica que la similitud se encuentra por encima de un valor de umbral, el controlador 350k está configurado para proporcionar el parámetro de ganancia gn determinado. Un cuantificador 370 está configurado para cuantificar el parámetro de
ganancia gn para obtener el parámetro de ganancia cuantificada '
El generador de ruido aleatorio 350a puede configurarse para producir un ruido de índole gaussiana. El generador de ruido aleatorio 350a puede configurarse para hacer funcionar (llamar a) un generador aleatorio con un número de n distribuciones uniformes entre un límite inferior (valor mínimo) tal como -1 y un límite superior (valor máximo) tal como 1. Por ejemplo, el generador de ruido aleatorio 350 está configurado para llamar tres veces al generador aleatorio. Dado que los generadores de ruido aleatorio implementados digitalmente pueden producir valores pseudoaleatorios, la adición o superposición de una pluralidad o una multitud de funciones pseudoaleatorias pueden permitir la obtención de una función distribuida de manera suficientemente aleatoria. Este procedimiento se basa en el teorema del límite central. El generador de ruido aleatorio 350a puede configurarse para llamar al generador aleatorio al menos dos, tres o más veces, tal como indica el siguiente pseudocódigo:
para(i=0;i<Ls;i++){
n[i]=uniform_random();
n[i]+=uniform_random();
n[i]+=uniform_random();
} _
Alternativamente, el generador de ruido aleatorio 350a puede generar la señal con características de ruido a partir de una memoria tal como se describió para el generador de ruido aleatorio 240. Alternativamente, el generador de ruido aleatorio 350a puede comprender, por ejemplo, una resistencia eléctrica o algún otro medio para generar una señal de ruido mediante la ejecución de un código o a través de la medición de efectos físicos tales como el ruido térmico.
El procesador de conformación 350b puede configurarse para agregar una estructura formántica y una inclinación a las señales con características de ruido 350b mediante la filtración de la señal con características de ruido 350b con fe(n), tal como se indicó anteriormente. La inclinación puede añadirse mediante la filtración de la señal con un filtro t(n) que comprende una función de transferencia basándose en:
P t(z ) = 1 - pz -1
en el que el factor (3 puede deducirse de la sonorización de la subtrama anterior:
ón de gía (contribución de ¡C) sonorizaci energía(cor) tribuci ón ~ ............................................. A .. C) - ener —— --------- .------ -------------— ——
energía(suma de contribuciones)
en el que AC es una abreviatura de libro de códigos adaptativo e IC es una abreviatura de libro de códigos innovador.
/? = 0.25 ■ ( 1 + sonorización)
El parámetro de ganancia gn, el parámetro de ganancia cuantificada permiten respectivamente proporcionar una información adicional que puede reducir un error o un desajuste entre la señal codificada y la señal decodificada correspondiente, decodificada en un decodificador tal como el decodificador 200.
Con respecto a la regla de determinación
A(z/wl)
Ffe(z) =
A(z ¡w l)
el parámetro w1 puede comprender un valor positivo distinto de cero de 1,0 como máximo, preferiblemente de al menos 0,7 y como máximo 0,8 y más preferiblemente un valor de 0,75. El parámetro w2 puede comprender un valor escalar positivo distinto de cero de 1,0 como máximo, preferiblemente de al menos 0,8 y como máximo 0,93 y más preferiblemente un valor de 0,9. El parámetro w2 es preferiblemente mayor que w1.
La figura 4 muestra un diagrama de bloques esquemático de un codificador 400. El codificador 400 está configurado para proporcionar la información de señal vocal 142 tal como se describió para los codificadores 100 y 300. Comparado con el codificador 300, el codificador 400 comprende una calculadora de parámetros de ganancia variada 350’. Un comparador 350h’ está configurado para comparar la trama de audio 112 y una señal sintetizada 350l’ para obtener un resultado comparativo 350i’. La calculadora de parámetros de ganancia 350’ comprende un sintetizador 350m’ configurado para sintetizar la señal sintetizada 350l’ basándose en la señal con características de ruido conformada amplificada 350g y los coeficientes de predicción 122.
Básicamente, la calculadora de parámetros de ganancia 350’ implementa al menos parcialmente un decodificador mediante la sintetización de la señal sintetizada 350l’. Cuando se compara con el codificador 300 que comprende el comparador 350h configurado para comparar la residual no vocal y la señal con características de ruido conformada amplificada, el codificador 400 comprende el comparador 350h’, que está configurado para comparar la trama de audio (probablemente completa) y la señal sintetizada. Esto da lugar a una precisión mucho mayor pues se comparan las tramas de la señal entre sí y no solamente sus parámetros. Esa mayor precisión puede requerir un aumento del esfuerzo computacional, dado que la trama de audio 122 y la señal sintetizada 350l’ pueden comprender una mayor complejidad cuando se compara con la señal residual y con la información con características de ruido conformada amplificada de manera que la comparación de ambas señales también resulta más compleja. Además, debe calcularse la síntesis que requiere esfuerzos computacionales por parte del sintetizador 350m'.
La calculadora de parámetros de ganancia 350’ comprende una memoria 350n’ configurada para registrar una <r información codificadora que comprende el parámetro de ganancia de codificación gn o una versión cuantificada del mismo. Esto le permite al controlador 350k obtener el valor de ganancia almacenado cuando se procesa una trama de audio posterior. Por ejemplo, el controlador puede configurarse para determinar un primer (conjunto de) valor(es), es decir, una primera instancia del factor de ganancia gn(temp) basado o igual al valor de gn para la trama de audio anterior.
La figura 5 muestra un diagrama de bloques esquemático de una calculadora de parámetros de ganancia 550 configurada para calcular una primera información de parámetros de ganancia gn según el segundo aspecto. La calculadora de parámetros de ganancia 550 comprende un generador de señales 550a configurado para generar una señal de excitación c(n). El generador de señales 550a comprende un libro de códigos determinista y un índice dentro del libro de códigos para generar la señal c(n). Es decir, una información de entrada tal como los coeficientes de predicción 122 da como resultado una señal de excitación determinista c(n). El generador de señales 550a puede configurarse para generar la señal de excitación c(n) según un libro de códigos innovador de un esquema de codificación de CELP. El libro de códigos puede determinarse o entrenarse según datos de voz medidos en etapas de calibración previas. La calculadora de parámetros de ganancia comprende un conformador 550b configurado para conformar un espectro de la señal de código c(n) basándose en una información de conformación relacionada con la voz 550c para la señal de código c(n). La información de conformación relacionada con la voz 550c puede obtenerse del controlador de información de formantes 160. El conformador 550b comprende un procesador de conformación 550d configurado para recibir la información de conformación 550c para conformar la señal de código. El conformador 550b comprende además un amplificador variable 550e configurado para amplificar la señal de código conformada c(n) para obtener una señal de código conformada amplificada 550f. Así, el parámetro de ganancia de código está configurado para definir la señal de código c(n) que se refiere a un libro de códigos determinista.
La calculadora de parámetros de ganancia 550 comprende el generador de ruido 350a configurado para proporcionar la señal (con características) de ruido n(n) y un amplificador 550g configurado para amplificar la señal de ruido n(n) basándose en el parámetro de ganancia de ruido gn para obtener una señal de ruido amplificada 550h. La calculadora de parámetros de ganancia comprende un combinador 550i configurado para combinar la señal de código conformada amplificada 550f y la señal de ruido amplificada 550h para obtener una señal de excitación combinada 550k. El combinador 550i puede configurarse, por ejemplo, para agregar o multiplicar espectralmente valores espectrales de la señal de código conformada amplificada y la señal de ruido amplificada 550f y 550h. Alternativamente, el combinador 550i puede configurarse para convolucionar ambas señales 550f y 550h.
Tal como se describió anteriormente para el conformador 350c, el conformador 550b puede implementarse de manera que en primer lugar la señal de código c(n) se amplifique por el amplificador variable 550e y luego se conforme por el procesador de conformación 550d. Alternativamente, la información de conformación 550c para la señal de código c(n) puede combinarse con la información de parámetros de ganancia de código gc de manera que se aplique una información combinada a la señal de código c(n).
La calculadora de parámetros de ganancia 550 comprende un comparador 5501 configurado para comparar la señal de excitación combinada 550k y la señal residual no vocal obtenida para el determinador vocal/no vocal 130. El comparador 550l puede ser el comparador 550h y está configurado para proporcionar un resultado comparativo, es decir, una medición 550m para una similitud de la señal de excitación combinada 550k y la señal residual no vocal. La calculadora de ganancia de código comprende un controlador 550n configurado para controlar la información de parámetros de ganancia de código gc y la información de parámetros de ganancia de ruido gn. El parámetro de ganancia de código gc y la información de parámetros de ganancia de ruido gn pueden comprender una pluralidad o una multitud de valores escalares o imaginarios que pueden estar relacionados con un intervalo de frecuencias de la señal de ruido n(n) o una señal derivada de la misma o con un espectro de la señal de código c(n) o una señal derivada de la misma.
Alternativamente, la calculadora de parámetros de ganancia 550 puede implementarse sin el procesador de conformación 550d. Alternativamente, el procesador de conformación 550d puede configurarse para conformar la señal de ruido n(n) y proporcionar una señal de ruido conformada al amplificador variable 550g.
Así, controlando ambas informaciones de parámetros de ganancia gc y gn, puede aumentarse una similitud de la señal de excitación combinada 550k cuando se compara con la residual no vocal, de manera que un decodificador que recibe información a la información de parámetros de ganancia de código gc y la información de parámetros de ganancia de ruido gn puede reproducir una señal de audio que comprende una buena calidad de sonido. El controlador 550n está configurado para proporcionar una señal de salida 550o que comprende información relacionada con la información de parámetros de ganancia de código gc y la información de parámetros de ganancia de ruido gn. Por ejemplo, la señal 550o puede comprender ambas informaciones de parámetros de ganancia gn y gc como valores escalares o cuantificados o como valores derivados de los mismos, por ejemplo, valores codificados.
La figura 6 muestra un diagrama de bloques esquemático de un codificador 600 para codificar la señal de audio 102 y que comprende la calculadora de parámetros de ganancia 550 descrita en la figura 5. El codificador 600 puede obtenerse, por ejemplo, modificando el codificador 100 o 300. El codificador 600 comprende un primer cuantificador 170-1 y un segundo cuantificador 170-2. El primer cuantificador 170-1 se configura para cuantificar la información de
parámetros de ganancia gc para obtener una información de parámetros de ganancia cuantificada 8 - f El segundo cuantificador 170-2 se configura para cuantificar la información de parámetros de ganancia de ruido gn para obtener
una información de parámetros de ganancia de ruido cuantificada &n' Un formador de corrientes de bits 690 se configura para generar una señal de salida 692 que comprende la información de señal vocal 142, la información
relacionada con LPC 122 y ambas informaciones de parámetros de ganancia cuantificada <5C y ' Cuando se compara con la señal de salida 192, la señal de salida 692 se extiende o se actualiza por la información de
parámetros de ganancia cuantificada £c ’ Alternativamente, el cuantificador 170-1 y/o 170-2 puede ser parte de la calculadora de parámetros de ganancia 550. Asimismo, uno de los cuantificadores 170-1 y/o 170-2 puede
configurarse para obtener ambos parámetros de ganancia cuantificada y
Alternativamente, el codificador 600 puede configurarse para comprender un cuantificador configurado para cuantificar la información de parámetros de ganancia de código gc y el parámetro de ganancia de ruido gn para
obtener la información de parámetros cuantificada y '. Ambas informaciones de parámetros de ganancia pueden cuantificarse, por ejemplo, secuencialmente.
La calculadora de información de formantes 160 está configurada para calcular la información de conformación espectral relacionada con la voz 550c a partir de los coeficientes de predicción 122.
La figura 7 muestra un diagrama de bloques esquemático de una calculadora de parámetros de ganancia 550’ que está modificada en comparación con la calculadora de parámetros de ganancia 550. La calculadora de parámetros de ganancia 550’ comprende el conformador 350 descrito en la figura 3 en lugar del amplificador 550g. El conformador 350 está configurado para proporcionar la señal de ruido conformada amplificada 350g. El combinador 550i está configurado para combinar la señal de código conformada amplificada 550f y la señal de ruido conformada amplificada 350g para proporcionar una señal de excitación combinada 550k’. La calculadora de información de formantes 160 está configurada para proporcionar ambas informaciones de formantes relacionadas con la voz 162 y 550c. Las informaciones de formantes relacionadas con la voz 550c y 162 pueden ser iguales. Alternativamente, ambas informaciones 550c y 162 pueden diferir entre sí. Esto permite un modelado separado, es decir, la conformación de la señal generada por códigos c(n) y n(n).
El controlador 550n puede configurarse para determinar la información de parámetros de ganancia gc y gn para cada subtrama de una trama de audio procesada. El controlador puede configurarse para determinar, es decir, calcular, la información de parámetros de ganancia gc y gn basándose en los detalles expuestos a continuación.
En primer lugar, la energía promedio de la subtrama puede calcularse en la señal residual de predicción a corto plazo original disponible durante el análisis de LPC, es decir, en la señal residual no vocal. La energía se promedia sobre las cuatro subtramas de la trama actual en el dominio logarítmico según:
Figure imgf000011_0001
En el que Lsf es el tamaño de una subtrama en muestras. En este caso, la trama se divide en 4 subtramas. La energía promediada entonces puede codificarse en una cantidad de bits, por ejemplo, tres, cuatro o cinco, usando un libro de códigos estocástico previamente entrenado. El libro de códigos estocástico puede comprender un número de entradas (tamaño) según un número de valores diferentes que pueden representarse por el número de bits, por ejemplo, un tamaño de 8 para un número de 3 bits, un tamaño de 16 para un número de 4 bits o un número
de 32 para un número de 5 bits. Una ganancia cuantificada n r9 puede determinarse a partir de la palabra de código seleccionada del libro de códigos. Para cada subtrama, se calculan las dos informaciones de ganancia gc y gn. La ganancia de código gc puede calcularse, por ejemplo, basándose en:
- Snfo ' xw(n) ■ CW()I)
Figure imgf000012_0001
h n=tt cw(n) ■ cw(n)
donde cw(n) es, por ejemplo, la innovación fija seleccionada del libro de códigos fijo, comprendida por el generador de señales 550a filtrado por el filtro ponderado perceptual. La expresión xw(n) corresponde a la excitación diana perceptual convencional, calculada en codificadores de CELP. La información de ganancia de código gc puede normalizarse entonces para obtener una ganancia normalizada gnc basándose en:
Figure imgf000012_0002
La ganancia normalizada gnc puede cuantificarse, por ejemplo, por el cuantificador 170-1. La cuantificación puede realizarse según una escala lineal o logarítmica. Una escala logarítmica puede comprender una escala de tamaño de 4, 5 o más bits. Por ejemplo, la escala logarítmica comprende un tamaño de 5 bits. La cuantificación puede realizarse basándose en:
lndexnc = [20 * log10((gnc + 20)/1.25) 0.5J
en el que el índice lndexnc puede estar limitado entre 0 y 31, si la escala logarítmica comprende 5 bits. El índice
lndexnc puede ser la información de parámetros de ganancia cuantificada. La ganancia cuantificada del código puede expresarse entonces basándose en:
Figure imgf000012_0003
La ganancia de código puede calcularse a fin de minimizar el error cuadrático medio de la raíz o error cuadrático medio (MSE)
Figure imgf000012_0004
en el que Lsf corresponde a frecuencias espectrales de líneas determinadas a partir de los coeficientes de predicción 122.
La información de parámetros de ganancia de ruido puede determinarse en términos de desajuste de energía mediante la minimización de un error basándose en
Figure imgf000012_0005
La variable k es un factor de atenuación que puede variarse dependiendo de o basándose en los coeficientes de predicción, en el que los coeficientes de predicción pueden permitir la determinación de si la voz comprende una parte de ruido de fondo baja o incluso ningún ruido de fondo (voz clara). Alternativamente, la señal también puede determinarse como una voz ruidosa, por ejemplo, cuando la señal de audio o una trama de la misma comprende cambios entre las tramas no vocales y las no ‘no vocales’. La variable k puede fijarse en un valor de al menos 0,85, de al menos 0,95 o incluso hasta un valor de 1 para voz clara, donde la elevada dinámica de energía es perceptualmente importante. La variable k puede fijarse en un valor de al menos 0,6 y como máximo 0,9, preferiblemente un valor de al menos 0,7 y como máximo 0,85 y más preferiblemente un valor de 0,8 para voz ruidosa, donde la excitación del ruido se hace más conservadora para evitar la fluctuación en la energía de salida entre las tramas no vocales y las no ‘no vocales’. El error (desajuste de energía) puede calcularse para cada uno de O
estos candidatos de ganancia cuantificada ' Una trama dividida en cuatro subtramas puede dar como resultado
cuatro candidatos de ganancia cuantificada ' El candidato que minimiza el error puede producirse por el controlador. La ganancia de ruido cuantificada (información de parámetros de ganancia de ruido) puede calcularse basándose en:
cfn)
Figure imgf000013_0001
■ n(n)
en el que el índice Indexn está limitado entre 0 y 3 según los cuatro candidatos. Una señal de excitación combinada resultante, tal como la señal de excitación 550k o 550k’, puede obtenerse basándose en:
e(n) = Te ' c(n) + g~n • n(n)
en el que e(n) es la señal de excitación combinada 550k o 550k’.
Un codificador 600 o un codificador modificado 600 que comprende la calculadora de parámetros de ganancia 550 o 550’ pueden permitir una codificación no vocal basándose en un esquema de codificación de la CELP. El esquema de codificación de la CELP puede modificarse basándose en los siguientes detalles representativos para la manipulación de tramas no vocales:
• No se transmiten los parámetros de LTP, ya que casi no hay periodicidad en las tramas no vocales y la ganancia de codificación resultante es muy baja. La excitación adaptativa se fija en cero.
• Los bits de ahorro se notifican al libro de códigos fijo. Pueden codificarse más pulsos para la misma tasa de bits y puede mejorarse entonces la calidad.
• A tasas bajas, es decir, para tasas de entre 6 y 12 kbps, la codificación de pulsos no es suficiente para modelar de manera apropiada la excitación diana con características de ruido de la trama no vocal. Se agrega un libro de códigos gaussiano al libro de códigos fijo para construir la excitación final.
La figura 8 muestra un diagrama de bloques esquemático de un esquema de codificación no vocal para CELP según el segundo aspecto. Un controlador modificado 810 comprende ambas funciones del comparador 550l y el controlador 550n. El controlador 810 está configurado para determinar la información de parámetros de ganancia de código gc y la información de parámetros de ganancia de ruido gn basándose en análisis por síntesis, es decir, comparando una señal sintetizada con la señal de entrada indicada como s(n) que es, por ejemplo, la residual no vocal. El controlador 810 comprende un filtro de análisis por síntesis 820 configurado para generar una excitación para el generador de señales (excitación innovadora) 550a y para proporcionar la información de parámetros de ganancia gc y gn. El bloque de análisis por síntesis 810 está configurado para comparar la señal de excitación combinada 550k’ mediante una señal internamente sintetizada mediante la adaptación de un filtro según los parámetros y la información proporcionados.
El controlador 810 comprende un bloque de análisis configurado para obtener los coeficientes de predicción, tal como se describe para el analizador 320, para obtener los coeficientes de predicción 122. El controlador comprende además un filtro de síntesis 840 para filtrar la señal de excitación combinada 550k con el filtro de síntesis 840, en el que el filtro de síntesis 840 se adapta por los coeficientes de filtro 122. Puede configurarse un comparador adicional para comparar la señal de entrada s(n) y la señal sintetizadá(n), por ejemplo, la señal de audio decodificada (restaurada). Asimismo, se dispone la memoria 350n, en la que el controlador 810 está configurado para almacenar la señal predicha y/o los coeficientes predichos en la memoria. Un generador de señales 850 está configurado para proporcionar una señal de excitación adaptativa basándose en las predicciones almacenadas en la memoria 350n, lo que permite la mejora de la excitación adaptativa basándose en una señal de excitación combinada anterior.
La figura 9 muestra un diagrama de bloques esquemático de una codificación paramétrica no vocal según el primer aspecto. La señal de ruido conformada amplificada puede ser una señal de entrada de un filtro de síntesis 910 que se adapta por los coeficientes de filtro determinados (coeficientes de predicción) 122. Una señal sintetizada 912 producida por el filtro de síntesis puede compararse con la señal de entrada s(n) que puede ser, por ejemplo, la señal de audio. La señal sintetizada 912 comprende un error cuando se compara con la señal de entrada s(n). Modificando el parámetro de ganancia de ruido gn mediante el bloque de análisis 920 que puede corresponder a la calculadora de parámetros de ganancia 150 o 350, el error puede reducirse o minimizarse. Almacenando la señal de ruido conformada amplificada 350f en la memoria 350n, puede llevarse a cabo una actualización del libro de códigos adaptativo, de manera que el procesamiento de tramas de audio vocales también puede mejorarse basándose en la codificación mejorada de la trama de audio no vocal.
La figura 10 muestra un diagrama de bloques esquemático de un decodificador 1000 para decodificar una señal de audio codificada, por ejemplo, la señal de audio codificada 692. El decodificador 1000 comprende un generador de señales 1010 y un generador de ruido 1020 configurado para generar una señal con características de ruido 1022. La señal recibida 1002 comprende información relacionada con la LPC, en la que un deformador de corrientes de bits 1040 está configurado para proporcionar los coeficientes de predicción 122 basándose en la información relacionada con los coeficientes de predicción. Por ejemplo, el decodificador 1040 está configurado para extraer los coeficientes de predicción 122. El generador de señales 1010 está configurado para generar una señal de excitación excitada por código 1012 tal como se describe para el generador de señales 558. Un combinador 1050 del decodificador 1000 está configurado para combinar la señal excitada por código 1012 y la señal con características de ruido 1022 tal como se describe para el combinador 550 para obtener una señal de excitación combinada 1052. El decodificador 1000 comprende un sintetizador 1060 que tiene un filtro para adaptarse con los coeficientes de predicción 122, en el que el sintetizador está configurado para filtrar la señal de excitación combinada 1052 con el filtro adaptado para obtener una trama decodificada no vocal 1062. El decodificador 1000 también comprende el combinador 284 que combina la trama decodificada no vocal y la trama vocal 272 para obtener la secuencia de señales de audio 282. Cuando se compara con el decodificador 200, el decodificador 1000 comprende un segundo generador de señales configurado para proporcionar la señal de excitación excitada por código 1012. La señal de excitación con características de ruido 1022 puede ser, por ejemplo, la señal con características de ruido n(n) representada en la figura 2.
La secuencia de señales de audio 282 puede comprender una buena calidad y una elevada similitud cuando se compara con una señal de entrada codificada.
Realizaciones adicionales proporcionan decodificadores que mejoran el decodificador 1000 mediante la conformación y/o amplificación de la señal de excitación generada por código (excitada por código) 1012 y/o la señal con características de ruido 1022. Así, el decodificador 1000 puede comprender un procesador de conformación y/o un amplificador variable dispuesto entre el generador de señales 1010 y el combinador 1050, entre el generador de ruido 1020 y el combinador 1050, respectivamente. La señal de entrada 1002 puede comprender información relacionada con la información de parámetros de ganancia de código gc y/o la información de parámetros de ganancia de ruido, en el que el decodificador puede configurarse para adaptar un amplificador para amplificar la señal de excitación generada por código 1012 o una versión conformada de la misma usando la información de parámetros de ganancia de código gc. Alternativa o adicionalmente, el decodificador 1000 puede configurarse para adaptar, es decir, para controlar un amplificador a fin de amplificar la señal con características de ruido 1022 o una versión conformada de la misma, con un amplificador, usando la información de parámetros de ganancia de ruido. Alternativamente, el decodificador 1000 puede comprender un conformador 1070 configurado para conformar la señal de excitación excitada por código 1012 y/o un conformador 1080 configurado para conformar la señal con características de ruido 1022 tal como se indica por las líneas de puntos. Los conformadores 1070 y/o 1080 pueden recibir los parámetros de ganancia gc y/o gn y/o información de conformación relacionada con la voz. Los conformadores 1070 y/o 1080 pueden formarse tal como se describe para los conformadores 250, 350c y/o 550b descritos anteriormente.
El decodificador 1000 puede comprender una calculadora de información formántica 1090 para proporcionar una información de conformación relacionada con la voz 1092 para los conformadores 1070 y/o 1080, tal como se describió para la calculadora de información de formantes 160. La calculadora de información de formantes 1090 puede configurarse para proporcionar diferente información de conformación relacionada con la voz (1092a; 1092b) a los conformadores 1070 y/o 1080.
La figura 11a muestra un diagrama de bloques esquemático de un conformador 250' que implementa una estructura alternativa cuando se compara con el conformador 250. El conformador 250' comprende un combinador 257 para combinar la información de conformación 222 y el parámetro de ganancia relacionada con el ruido gn para obtener una información combinada 259. Un procesador de conformación modificado 252' está configurado para conformar la señal con características de ruido n(n) usando la información combinada 259 para obtener la señal con características de ruido conformada amplificada 258. Ya que tanto la información de conformación 222 como el parámetro de ganancia gn pueden interpretarse como factores de multiplicación, ambos factores de multiplicación pueden multiplicarse usando el combinador 257 y luego aplicarse de forma combinada a la señal con características de ruido n(n).
La figura 11b muestra un diagrama de bloques esquemático de un conformador 250'' que implementa una alternativa adicional cuando se compara con el conformador 250. Cuando se compara con el conformador 250, primero se dispone el amplificador variable 254 y se configura para generar una señal con características de ruido amplificada mediante la amplificación de la señal con características de ruido n(n) usando el parámetro de ganancia gn. El procesador de conformación 252 está configurado para conformar la señal amplificada usando la información de conformación 222 para obtener la señal conformada amplificada 258.
Aunque las figuras 11a y 11b se refieren al conformador 250 que representa implementaciones alternativas, las descripciones anteriores también se aplican a los conformadores 350c, 550b, 1070 y/o 1080.
La figura 12 muestra un diagrama de flujo esquemático de un método 1200 para codificar una señal de audio según el primer aspecto. El método 1210 comprende derivar coeficientes de predicción y una señal residual desde una trama de señal de audio. El método 1200 comprende una etapa 1230 en la que se calcula un parámetro de ganancia a partir de una señal residual no vocal y la información de conformación espectral y una etapa 1240 en la que se forma una señal de salida basándose en una información relacionada con una trama de señal vocal, el parámetro de ganancia o un parámetro de ganancia cuantificada y los coeficientes de predicción.
La figura 13 muestra un diagrama de flujo esquemático de un método 1300 para decodificar una señal de audio recibida que comprende coeficientes de predicción y un parámetro de ganancia, según el primer aspecto. El método 1300 comprende una etapa 1310 en la que se calcula una información de conformación espectral relacionada con la voz a partir de los coeficientes de predicción. En una etapa 1320 se genera una señal con características de ruido decodificadora. En una etapa 1330, se conforma un espectro de la señal con características de ruido decodificadora o una representación amplificada de la misma usando la información de conformación espectral para obtener una señal con características de ruido decodificadora conformada. En una etapa 1340 del método 1300, se sintetiza una señal sintetizada a partir de la señal con características de ruido codificadora conformada amplificada y los coeficientes de predicción.
La figura 14 muestra un diagrama de flujo esquemático de un método 1400 para codificar una señal de audio según el segundo aspecto. El método 1400 comprende una etapa 1410 en la que se derivan los coeficientes de predicción y una señal residual a partir de una trama no vocal de la señal de audio. En una etapa 1420 del método 1400, se calculan una primera información de parámetros de ganancia para definir una primera señal de excitación relacionada con un libro de códigos determinista y una segunda información de parámetros de ganancia para definir una segunda señal de excitación relacionada con una señal con características de ruido para la trama no vocal. En una etapa 1430 del método 1400 se forma una señal de salida basándose en una información relacionada con una trama de señal vocal, la primera información de parámetros de ganancia y la segunda información de parámetros de ganancia.
La figura 15 muestra un diagrama de flujo esquemático de un método 1500 para decodificar una señal de audio recibida según el segundo aspecto. La señal de audio recibida comprende una información relacionada con los coeficientes de predicción. El método 1500 comprende una etapa 1510 en la que se genera una primera señal de excitación a partir de un libro de códigos determinista para una parte de una señal sintetizada. En una etapa 1520 del método 1500, se genera una segunda señal de excitación a partir de una señal con características de ruido para la parte de la señal sintetizada. En una etapa 1530 del método 1000, se combinan la primera señal de excitación y la segunda señal de excitación para generar una señal de excitación combinada para la parte de la señal sintetizada. En una etapa 1540 del método 1500, se sintetiza la parte de la señal sintetizada a partir de la señal de excitación combinada y los coeficientes de predicción.
En otras palabras, los aspectos de la presente invención proponen una nueva manera de codificar las tramas no vocales por medio de la conformación de un ruido gaussiano generado aleatoriamente y conformarlo espectralmente mediante la adición al mismo de una estructura formántica y una inclinación espectral. La conformación espectral se hace en el dominio de la excitación antes de excitar el filtro de síntesis. Como consecuencia, la excitación conformada será actualizada en la memoria de la predicción a largo plazo para generar libros de códigos adaptativos posteriores.
Las tramas posteriores, que no son no vocales, también se beneficiarán de la conformación espectral. A diferencia de la mejora de formantes en la postfiltración, la conformación de ruido propuesta se lleva a cabo tanto en el lado del codificador como en el del decodificador.
Una excitación de este tipo puede usarse directamente en un esquema de codificación paramétrica para apuntar a tasas de bits muy bajas. Sin embargo, también se propone la asociación de una excitación de este tipo en combinación con un libro de códigos innovador convencional dentro de un esquema de codificación de CELP.
Para ambos métodos, se propone una nueva codificación de ganancia especialmente eficaz tanto para voz nítida como para voz con ruido de fondo. Se proponen algunos mecanismos para aproximarse lo más posible a la energía original, pero evitando al mismo tiempo las transiciones demasiado ásperas con las tramas que no son no vocales y evitando también las inestabilidades indeseadas debidas a la cuantificación de ganancia.
El primer aspecto apunta a una codificación no vocal con una tasa de 2,8 y 4 kilobits por segundo (kbps). Las tramas no vocales se detectan primero. Esto puede hacerse mediante una clasificación de voz habitual tal como se hace en el ancho de banda multimodo de tasa variable (VMR-WB) tal como se conoce a partir de [3].
Hacer la conformación espectral en esta fase presenta dos ventajas principales. En primer lugar, la conformación espectral se tiene en cuenta para el cálculo de ganancia de la excitación. Dado que el cálculo de la ganancia es el único módulo no ciego durante la generación de excitación, es una enorme ventaja tenerlo al final de la cadena después de la conformación. En segundo lugar, permite guardar la excitación mejorada en la memoria de la LTP. La mejora también servirá entonces para las tramas que no son no vocales posteriores.
Aunque los cuantificadores 170, 170-1 y 170-2 se describieron como configurados para obtener los parámetros Is- g r ,
Scy los parámetros cuantificados pueden proporcionarse como información relacionada con el mismo, por ejemplo, un índice o un identificador de una entrada de una base de datos, comprendiendo la entrada los parámetros de ganancia cuantificada y '
Aunque algunos aspectos se han descrito en el contexto de un aparato, es evidente que tales aspectos representan también una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa de método o una característica de una etapa de método. De manera análoga, los aspectos descritos en el contexto de una etapa de método representan también una descripción de un bloque o artículo o característica correspondiente de un aparato correspondiente.
La señal de audio codificada de la invención puede almacenarse en un medio de almacenamiento digital o puede transmitirse en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión cableado tal como Internet.
Dependiendo de determinados requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disco blando, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas señales de control electrónicamente legibles, que actúan conjuntamente (o que pueden actuar conjuntamente) con un sistema informático programable, de manera que se realiza el método respectivo.
Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control electrónicamente legibles, que pueden actuar conjuntamente con un sistema informático programable, de manera que se realiza uno de los métodos descritos en el presente documento.
En general, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los métodos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede almacenarse, por ejemplo, en un soporte legible por máquina.
Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenados en un soporte legible por máquina.
En otras palabras, una realización del método de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.
Una realización adicional de los métodos de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los métodos descritos en el presente documento.
Una realización adicional del método de la invención es, por lo tanto, una corriente de datos o una secuencia de señales que representan el programa informático para realizar uno de los métodos descritos en el presente documento. La corriente de datos o la secuencia de señales pueden configurarse, por ejemplo, para transferirse a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo lógico programable, configurados o adaptados para realizar uno de los métodos descritos en el presente documento. Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los métodos descritos en el presente documento.
En algunas realizaciones, puede utilizarse un dispositivo lógico programable (por ejemplo, una matriz de puertas de campo programable) para realizar algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, una matriz de puertas de campo programable puede actuar conjuntamente con un microprocesador con el fin de realizar uno de los métodos descritos en el presente documento. En general, los métodos se realizan preferiblemente por cualquier aparato de hardware.
Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento resultarán evidentes para los expertos en la técnica. Por lo tanto, se pretende que solamente estén limitados por el alcance de las reivindicaciones de patente inminente y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.
Bibliografía
[1] Recomendación G.718 de la ITU-T: “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s”
[2] Patenteestadounidensenúmero US 5.444.816, “Dynamic codebook for efficient speech coding based on algebraic codes”
[3] Jelinek, M.; Salami, R., "Wideband Speech Coding Advances in VMR-WB Standard," Audio, Speech, and Language Processing, IEEE Transactions on, vol.15, n.° 4, págs. 1167, 1179, mayo de 2007

Claims (1)

  1. REIVINDICACIONES
    Codificador (100; 200; 300) para codificar una señal de audio (102), comprendiendo el codificador un analizador (120; 320) configurado para derivar coeficientes de predicción (122; 322) y una señal residual (124; 324) a partir de una trama de la señal de audio (102);
    una calculadora de información de formantes (160) configurada para calcular una información de conformación espectral relacionada con la voz (162) a partir de los coeficientes de predicción (122; 322); una calculadora de parámetros de ganancia (150; 350; 350’; 550) configurada para calcular un parámetro de ganancia (gn; gc) a partir de una señal residual no vocal y la información de conformación espectral (162); y
    un formador de corrientes de bits (190; 690) configurado para formar una señal de salida (192; 692) basándose en una información (142) relacionada con una trama de señal vocal, el parámetro de ganancia (g„; gc) o un parámetro de ganancia cuantificada
    Figure imgf000018_0001
    ^ y los coeficientes de predicción (122; 322); en el que la calculadora de parámetros de ganancia (150; 350; 350'; 550) comprende un generador de ruido (350a) configurado para generar una señal con características de ruido codificadora (n(n));
    en el que la calculadora de parámetros de ganancia (150; 350; 350'; 550) comprende un procesador de conformación (350d) configurado para conformar el espectro de la señal con características de ruido (n(n)) usando la información de conformación espectral relacionada con la voz (162) y un amplificador variable (350e) configurado para amplificar el espectro de la señal con características de ruido conformada (350f) para obtener una señal con características de ruido conformada amplificada (350g) y un controlador (350k; 550n) para calcular un parámetro de ganancia (gn; gc) basándose en la señal con características de ruido conformada amplificada (350g);
    en el que la calculadora de parámetros de ganancia (150; 350; 350'; 550) comprende un comparador (350h; 350'; 550l) configurado para comparar la señal residual no vocal y la señal con características de ruido conformada amplificada (350g) para obtener un resultado comparativo (350), en el que el controlador (350k; 550n) está configurado para determinar el parámetro de ganancia (gn(temp)) basándose en el resultado comparativo (350i); y
    en el que la calculadora de parámetros de ganancia (350; 350’) está configurada para combinar un espectro de la señal con características de ruido codificadora (n(n)) o un espectro derivado de la misma y una función de transferencia (Ffe(z)) que comprende
    A(z/w 1)
    F/e(z) = A(z /w2)
    en el que A(z) corresponde a un polinomio de filtro del filtro codificador para filtrar la señal con características de ruido codificadora conformada adaptada ponderada mediante los factores de ponderación w1 o w2, en el que w1 comprende un valor escalar positivo no cero de 1,0 como máximo y en el que w2 comprende un valor escalar positivo no cero de 1,00 como máximo, en el que w2 es mayor que w1.
    Codificador según la reivindicación 1, que comprende además un determinador (130) configurado para determinar si la señal residual se determinó a partir de una trama de audio de señal no vocal.
    Codificador según la reivindicación 1 o 2, en el que la calculadora de parámetros de ganancia (150; 350; 350’; 550) comprende:
    un controlador (350k) configurado para determinar el parámetro de ganancia (gn) y para adaptar el parámetro de ganancia temporal (gn(temp)) basándose en el resultado comparativo;
    en el que el controlador (350k; 550n) está configurado para proporcionar el parámetro de ganancia de codificación (gn) al formador de corrientes de bits, cuando un valor de la medición para la similitud se encuentra por encima de un valor umbral.
    Codificador según la reivindicación 1 o 2, en el que la calculadora de parámetros de ganancia (150; 350; 350’; 550) comprende:
    un sintetizador (350m’) configurado para sintetizar una señal sintetizada (3501’) a partir de la señal con características de ruido codificadora conformada amplificada (350g) y los coeficientes de predicción (122; 322) y para proporcionar la señal sintetizada (350l’);
    un comparador (350h’) configurado para comparar la señal de audio (102) y la señal sintetizada (350l’) para obtener una medición para una similitud entre la señal de audio (102) y la señal sintetizada (350l’); y un controlador (350k) configurado para determinar el parámetro de ganancia (gn) y para adaptar el parámetro de ganancia temporal (gn(temp)) basándose en el resultado comparativo;
    en el que el controlador (350k) está configurado para proporcionar el parámetro de ganancia de codificación (gn) al formador de corrientes de bits, cuando un valor de la medición para la similitud se encuentra por encima de un valor umbral.
    5. Codificador según la reivindicación 4, que comprende además una memoria de ganancia (350n’) configurada para registrar una información codificadora que comprende el parámetro de ganancia de g
    codificación (gn; gc) o una información " relacionada con el mismo, en el que el controlador (350k) está configurado para registrar la información codificadora durante el procesamiento de la trama de audio y para determinar el parámetro de ganancia (gn; gc) para una trama posterior de la señal de audio (102) basándose en la información codificadora de la trama anterior de la señal de audio (102).
    6. Codificador según una de las reivindicaciones 3 a 5, en el que el generador de ruido (350a) está configurado para generar una pluralidad de señales aleatorias y para combinar la pluralidad de señales aleatorias para obtener la señal con características de ruido codificadora (n(n)).
    7. Codificador según una de las reivindicaciones anteriores, que comprende además un cuantificador (170) configurado para recibir el parámetro de ganancia (gn; gc), para cuantificar el parámetro de ganancia (gn; gc) para obtener el parámetro de ganancia cuantificada ^ c'
    8. Codificador según una de las reivindicaciones anteriores, en el que la calculadora de parámetros de ganancia (350; 350’) está configurada para combinar un espectro de la señal con características de ruido codificadora o un espectro derivado de la misma con una función de transferencia (Ft(z)) que comprende Ft(z) = 1 - pz"1
    en el que z indica una representación en el dominio z, en el qu|3 representa una m edición (sonorización) para una sonorización determinada relacionando una energía de una trama pasada de la señal de audio y una energía de una trama presente de la señal de audio, en el que la medición se determina en funcó n de un valor de sonorización.
    9. Sistema que comprende:
    un codificador según una de las reivindicaciones 1 a 8; y
    un decodificador (200) para decodificar una señal recibida (202) que comprende información relacionada con los coeficientes de predicción (122; 322), comprendiendo el decodificador (200)
    una calculadora de información de formantes (220; 1090) configurada para calcular una información de conformación espectral relacionada con la voz (222; 1092, 1092a, 1092b) a partir de los coeficientes de predicción;
    un generador de ruido (240; 1020) configurado para generar una señal con características de ruido decodificadora (n(n); 1022);
    un conformador (250; 1080) configurado para conformar (252) un espectro de la señal con características de ruido decodificadora (n(n); 1022) usando la información de conformación espectral relacionada con la voz (222; 1092, 1092b) y para amplificar (254) el espectro de la señal con características de ruido decodificadora conformada (256) para obtener una señal con características de ruido decodificadora conformada amplificada (258; 1022'); y
    un sintetizador (260; 1060) configurado para sintetizar una señal sintetizada (262) a partir de la señal con características de ruido decodificadora conformada amplificada (258; 1022') y los coeficientes de predicción (122; 322).
    10. Sistema según la reivindicación 9, en el que el decodificador comprende un generador de señales (1010) configurado para generar una señal de excitación excitada por código (1012) usando los coeficientes de predicción y que comprende un conformador adicional (1070) configurado para conformar la señal de excitación excitada por código usando la información de conformación relacionada con la voz (1092, 1092b) y para amplificar (254) el espectro de la señal de excitación excitada por código conformada para obtener una señal de excitación excitada por código conformada amplificada (258; 1022').
    11. Sistema según la reivindicación 10, en el que la calculadora de información de formantes (1090) del decodificador está configurada para proporcionar diferente información de conformación relacionada con la voz (1092a; 1092b) al conformador (1080) y al conformador adicional (1070).
    12. Sistema según una de las reivindicaciones 9 a 11, en el que la señal recibida (202) comprende una información relacionada con un parámetro de ganancia (gn; gc) y en el que el conformador (250) del decodificador comprende un amplificador (254) configurado para amplificar la señal con características de ruido decodificadora (n(n)) o la señal con características de ruido decodificadora conformada (256).
    13. Sistema según una de las reivindicaciones 9 a 12, en el que la señal recibida (202) comprende además una información vocal (142) relacionada con una trama vocal de una señal de audio codificada (102) y en el que el decodificador (200) comprende además un procesador de tramas vocales (270) configurado para determinar una señal vocal (272) basándose en la información vocal (142), en el que el decodificador (200) comprende además un combinador (280) configurado para combinar la señal sintetizada (262) y la señal vocal (272) para obtener una trama de una secuencia de señales de audio (282).
    14. Método (1200) para codificar una señal de audio (102), que comprende
    derivar (1210) los coeficientes de predicción (122; 322) y una señal residual a partir de una trama de señal de audio (102);
    calcular (1220) una información de conformación espectral relacionada con la voz (162) a partir de los coeficientes de predicción (122; 322);
    calcular (1230) un parámetro de ganancia (gn; gc) a partir de una señal residual no vocal y la información de conformación espectral (162); y
    formar (1240) una señal de salida (192; 692) basándose en una información (142) relacionada con una trama de señal vocal, el parámetro de ganancia (gn; gc) o un parámetro de ganancia cuantificada ^ ’ &n) y los coeficientes de predicción (122; 322); y
    generar una señal con características de ruido codificadora (n(n)), que comprende:
    conformar el espectro de la señal con características de ruido (n(n)) usando la información de conformación espectral relacionada con la voz (162);
    amplificar el espectro de la señal con características de ruido conformada (350f) para obtener una señal con características de ruido conformada amplificada (350g); y
    calcular un parámetro de ganancia (gn; gc) basándose en la señal con características de ruido conformada amplificada (350g);
    comprendiendo el método además: comparar la señal residual no vocal y la señal con características de ruido conformada amplificada (350g) para obtener un resultado comparativo (350), en el que el controlador (350k; 550n) está configurado para determinar el parámetro de ganancia (gn(temp)) basándose en el resultado comparativo (350i);
    comprendiendo el método además: combinar un espectro de la señal con características de ruido codificadora (n(n)) o un espectro derivado de la misma y una función de transferencia (Ffe(z)) que comprende
    A (z /w l )
    F fe (z ) =
    A(z /w2)
    en el que A(z) corresponde a un polinomio de filtro del filtro codificador para filtrar la señal con características de ruido codificadora conformada adaptada ponderada mediante los factores de ponderación w1 o w2, en el que w1 comprende un valor escalar positivo no cero de 1,0 como máximo y en el que w2 comprende un valor escalar positivo no cero de 1,00 como máximo, en el que w2 es mayor que w1.
    Método (1300) para decodificar una señal de audio recibida (202) que se codifica con un método según la reivindicación 14 y que comprende una información relacionada con los coeficientes de predicción y un parámetro de ganancia (gn; gc), comprendiendo el método
    calcular (1310) una información de conformación espectral relacionada con la voz (222) a partir de los coeficientes de predicción (122; 322);
    generar (1320) una señal con características de ruido decodificadora (n(n));
    conformar (1330) un espectro de la señal con características de ruido decodificadora (n(n)) usando la información de conformación espectral relacionada con la voz (222; 1092, 1092b);
    amplificar (254) el espectro de la señal con características de ruido conformada (256) para obtener una señal con características de ruido decodificadora conformada amplificada (258; 1022'); y
    sintetizar (1340) una señal sintetizada (262) a partir de la señal con características de ruido codificadora conformada amplificada (258) y los coeficientes de predicción (122; 322).
    Programa informático que tiene un código de programa para realizar, cuando se ejecuta en un ordenador, un método según la reivindicación 14 o 15.
ES14783821T 2013-10-18 2014-10-10 Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz Active ES2856199T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13189392 2013-10-18
EP14178788 2014-07-28
PCT/EP2014/071767 WO2015055531A1 (en) 2013-10-18 2014-10-10 Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information

Publications (1)

Publication Number Publication Date
ES2856199T3 true ES2856199T3 (es) 2021-09-27

Family

ID=51691033

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14783821T Active ES2856199T3 (es) 2013-10-18 2014-10-10 Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz

Country Status (17)

Country Link
US (3) US10373625B2 (es)
EP (2) EP3058568B1 (es)
JP (1) JP6366706B2 (es)
KR (1) KR101849613B1 (es)
CN (2) CN111370009B (es)
AU (1) AU2014336356B2 (es)
BR (1) BR112016008662B1 (es)
CA (1) CA2927716C (es)
ES (1) ES2856199T3 (es)
MX (1) MX355091B (es)
MY (1) MY180722A (es)
PL (1) PL3058568T3 (es)
RU (1) RU2646357C2 (es)
SG (1) SG11201603000SA (es)
TW (1) TWI575512B (es)
WO (1) WO2015055531A1 (es)
ZA (1) ZA201603158B (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX347316B (es) * 2013-01-29 2017-04-21 Fraunhofer Ges Forschung Aparato y método para sintetizar una señal de audio, decodificador, codificador, sistema y programa de computación.
JP6366705B2 (ja) * 2013-10-18 2018-08-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念
JP6366706B2 (ja) * 2013-10-18 2018-08-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スピーチ関連のスペクトル整形情報を使用したオーディオ信号符号化と復号化の概念
ES2876184T3 (es) * 2014-05-01 2021-11-12 Nippon Telegraph & Telephone Dispositivo de codificación de señal de sonido, método de codificación de señal de sonido, programa y soporte de registro
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
WO2020164753A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
CN113129910A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 音频信号的编解码方法和编解码装置

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
JP3099852B2 (ja) * 1993-01-07 2000-10-16 日本電信電話株式会社 励振信号の利得量子化方法
US5864797A (en) * 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
JP3747492B2 (ja) 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
JP3707153B2 (ja) 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
JPH11122120A (ja) * 1997-10-17 1999-04-30 Sony Corp 符号化方法及び装置、並びに復号化方法及び装置
EP1734512B1 (en) * 1997-10-22 2015-09-09 Godo Kaisha IP Bridge 1 CELP encoder and a method of CELP encoding
WO1999034354A1 (en) 1997-12-24 1999-07-08 Mitsubishi Denki Kabushiki Kaisha Sound encoding method and sound decoding method, and sound encoding device and sound decoding device
US6415252B1 (en) 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
CN1167048C (zh) 1998-06-09 2004-09-15 松下电器产业株式会社 语音编码设备和语音解码设备
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6192335B1 (en) 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
US6463410B1 (en) 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
JP3451998B2 (ja) * 1999-05-31 2003-09-29 日本電気株式会社 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
DE10124420C1 (de) 2001-05-18 2002-11-28 Siemens Ag Verfahren zur Codierung und zur Übertragung von Sprachsignalen
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
CN100583241C (zh) 2003-04-30 2010-01-20 松下电器产业株式会社 音频编码设备、音频解码设备、音频编码方法和音频解码方法
RU2316059C2 (ru) 2003-05-01 2008-01-27 Нокиа Корпорейшн Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи
KR100651712B1 (ko) * 2003-07-10 2006-11-30 학교법인연세대학교 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
JP4899359B2 (ja) * 2005-07-11 2012-03-21 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US8271274B2 (en) 2006-02-22 2012-09-18 France Telecom Coding/decoding of a digital audio signal, in CELP technique
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
PL2165328T3 (pl) 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
JP2011518345A (ja) 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
JP5148414B2 (ja) * 2008-08-29 2013-02-20 株式会社東芝 信号帯域拡張装置
RU2400832C2 (ru) 2008-11-24 2010-09-27 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФCО России) Способ формирования сигнала возбуждения в низкоскоростных вокодерах с линейным предсказанием
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
LT2676271T (lt) 2011-02-15 2020-12-10 Voiceage Evs Llc Prietaisas ir metodas adaptacinio fiksuoto sužadinimo prieaugio kiekiui įvertinti mobiliojo celp kodeke
US9972325B2 (en) 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
CN103295578B (zh) 2012-03-01 2016-05-18 华为技术有限公司 一种语音频信号处理方法和装置
PT3058569T (pt) 2013-10-18 2021-01-08 Fraunhofer Ges Forschung Conceito para codificar um sinal de áudio e descodificar um sinal de áudio usando informação determinística e similar a ruído
JP6366705B2 (ja) * 2013-10-18 2018-08-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念
JP6366706B2 (ja) * 2013-10-18 2018-08-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スピーチ関連のスペクトル整形情報を使用したオーディオ信号符号化と復号化の概念

Also Published As

Publication number Publication date
CN111370009B (zh) 2023-12-22
EP3058568A1 (en) 2016-08-24
CN111370009A (zh) 2020-07-03
BR112016008662A2 (es) 2017-08-01
RU2646357C2 (ru) 2018-03-02
CN105745705A (zh) 2016-07-06
CA2927716A1 (en) 2015-04-23
MX355091B (es) 2018-04-04
US20210098010A1 (en) 2021-04-01
KR101849613B1 (ko) 2018-04-18
MY180722A (en) 2020-12-07
WO2015055531A1 (en) 2015-04-23
RU2016119010A (ru) 2017-11-23
CN105745705B (zh) 2020-03-20
BR112016008662B1 (pt) 2022-06-14
CA2927716C (en) 2020-09-01
TW201528255A (zh) 2015-07-16
EP3058568B1 (en) 2021-01-13
MX2016004923A (es) 2016-07-11
US20190333529A1 (en) 2019-10-31
JP6366706B2 (ja) 2018-08-01
EP3806094A1 (en) 2021-04-14
SG11201603000SA (en) 2016-05-30
PL3058568T3 (pl) 2021-07-05
US20160232909A1 (en) 2016-08-11
JP2016533528A (ja) 2016-10-27
KR20160073398A (ko) 2016-06-24
TWI575512B (zh) 2017-03-21
US10909997B2 (en) 2021-02-02
US11881228B2 (en) 2024-01-23
AU2014336356B2 (en) 2017-04-06
ZA201603158B (en) 2017-11-29
AU2014336356A1 (en) 2016-05-19
US10373625B2 (en) 2019-08-06

Similar Documents

Publication Publication Date Title
ES2856199T3 (es) Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz
ES2839086T3 (es) Concepto para codificar una señal de audio y decodificar una señal de audio usando información determinista y con características de ruido
BR112016008544B1 (pt) Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio.