ES2881672T3 - Método de descodificación, aparato de descodificación, programa, y soporte de registro para ello - Google Patents

Método de descodificación, aparato de descodificación, programa, y soporte de registro para ello Download PDF

Info

Publication number
ES2881672T3
ES2881672T3 ES13832346T ES13832346T ES2881672T3 ES 2881672 T3 ES2881672 T3 ES 2881672T3 ES 13832346 T ES13832346 T ES 13832346T ES 13832346 T ES13832346 T ES 13832346T ES 2881672 T3 ES2881672 T3 ES 2881672T3
Authority
ES
Spain
Prior art keywords
signal
noise
filter
synthesis
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13832346T
Other languages
English (en)
Inventor
Yusuke Hiwasaki
Takehiro Moriya
Noboru Harada
Yutaka Kamamoto
Masahiro Fukui
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Application granted granted Critical
Publication of ES2881672T3 publication Critical patent/ES2881672T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un método de descodificación, que comprende: un paso (S113) de generación de vector de fuente de sonido de activación de obtención de un vector de fuente de sonido de activación desde un código de entrada; un paso (S110) de descodificación de coeficiente de predicción de descodificación de código de coeficiente de predicción lineal, y obtención de un coeficiente de filtrado de síntesis que es un coeficiente de predicción lineal cuantificado; un paso (S111) de filtrado de síntesis de realización del procesamiento de filtrado de síntesis en el vector de fuente de sonido de activación usando el coeficiente de filtro de síntesis como un coeficiente de filtro para generar una señal de voz descodificada; un paso (SS2161C) de generación de ruido de generación de una señal de ruido que es una señal de ruido aleatoria; un paso (SS2163) de adición de ruido de emisión de una señal de ruido añadido, siendo la señal de ruido añadido obtenida sumando dicha señal de voz descodificada y una señal, la señal obtenida realizando, en dicha señal de ruido, una señal de procesamiento que está basada en el coeficiente de filtro de síntesis, caracterizado por que el procesamiento de señal con base en el coeficiente de filtro de síntesis es un procesamiento de filtrado con un filtro A^(Z/γn), el filtro A^(Z/γn) es el filtro que se obtiene ponderando el filtro A^(z) de síntesis por γn, el filtro A^(z) tiene el coeficiente de filtro de síntesis como el coeficiente de filtro; y γn es un parámetro para aproximar la forma del filtro A^(Z/γn) desde el filtro A^(z) a la forma general del ruido.

Description

DESCRIPCIÓN
Método de descodificación, aparato de descodificación, programa, y soporte de registro para ello
[CAMPO TÉCNICO]
La presente invención se refiere a un método de descodificación de descodificación de un código digital codificando digitalmente una secuencia de señales de audio, tal como voz o música, con una cantidad reducida de información, un aparato de descodificación, un programa, y un soporte de registro para ello.
[TÉCNICA ANTECEDENTE]
Hoy en día, se propone como un método de codificación de voz eficiente que procesa una secuencia de señales de entrada (en concreto, voz) en unidades de sección (tramas) que tienen una cierta duración de aproximadamente 5 a 20 ms incluidas en una señal de entrada, por ejemplo. El método implica separar una trama de voz en dos tipos de información, es decir, las características de filtro lineal que representan las características de envolvente de un espectro de frecuencia y una señal de fuente de sonido de activación para activar el filtro, y de manera separada codifica los dos tipos de información. Un método conocido de codificar la señal de fuente de sonido de activación en este método es una predicción lineal excitada por código (CELP) que separa la voz en una componente periódica que se considera corresponde a una frecuencia de tono (frecuencia fundamental) de la voz y la otra componente (véase la bibliografía 1 de No patente).
Con referencia a las Figura 1 y 2, se describirá un aparato 1 de codificación según la técnica anterior. La Figura 1 es un diagrama de bloques que muestra una configuración del aparato 1 de codificación según la técnica anterior. La Figura 2 es un diagrama de flujo que muestra una operación del aparato 1 de codificación según la técnica anterior. Como se muestra en la Figura 1, el aparato 1 de codificación comprende una parte 101 de análisis de predicción lineal, una parte 102 de codificación de coeficiente de predicción lineal, una parte 103 de filtro de síntesis, una parte 104 de cálculo de distorsión de forma de onda, una parte 105 de control de búsqueda de libro de códigos, una parte 106 de libro de códigos de ganancia, una parte 107 de generación de vector de fuente de sonido de activación, y una parte 108 de síntesis. A continuación, se describirá una operación de cada componente del aparato 1 de codificación.
<Parte 101 de análisis de predicción lineal>
La parte 101 de análisis de predicción lineal recibe una secuencia xF(n) de señales de entrada en unidades de tramas que están compuestas de una pluralidad de muestras consecutivas incluidas en una señal x(n) de entrada en el dominio del tiempo (n = 0, ..., L-1, donde L representa un número entero igual o mayor que 1).La parte 101 de análisis de predicción lineal recibe la secuencia xF(n) de señales de entrada y calcula un coeficiente a(i) de predicción lineal que representa las características de envolvente de espectro de frecuencia de una voz de entrada (i representa un orden de predicción, i = 1, ..., P, donde P representa un número entero igual o mayor que 1) (S101). La parte 101 de análisis de predicción lineal se puede reemplazar con una no lineal.
<Parte 102 de codificación de coeficientes de predicción lineal>
La parte 102 de codificación de coeficientes de predicción lineal recibe el coeficiente a(i) de predicción lineal, cuantifica y codifica el coeficiente a(i) de predicción lineal para generar un coeficiente aA(i) de filtro de síntesis y un código de coeficiente de predicción lineal, y emite el coeficiente aA(i) de filtro de síntesis y el código de coeficiente de predicción lineal (S102). Observe que aA(i) implica un gorro superíndice de a(i). La parte 102 de codificación de coeficientes de predicción puede ser reemplazada con una no lineal.
<Parte 103 de filtro de síntesis>
La parte 103 de filtro de síntesis recibe el coeficiente aA(i) de filtro de síntesis y un candidato c(n) de vector de fuente de sonido de activación generado por la parte 107 de generación de vector de fuente de sonido de activación descrita más adelante. La parte 103 de filtro de síntesis realiza un procesamiento de filtrado lineal en el candidato c(n) de vector de fuente de sonido de activación usando el coeficiente aA(i) de filtro de síntesis como un coeficiente de filtro para generar un candidato XF(n) de señal de entrada y emite el candidato XFA(n) de señal de entrada. Se ha de observar que xa implica un gorro superíndice de x. La parte 103 de filtro de síntesis puede ser reemplazada con una no lineal.
<Parte 104 de cálculo de distorsión de forma de onda>
La parte 104 de cálculo de distorsión de forma de onda recibe la secuencia xF(n) de señales de entrada, el coeficiente a(i) de predicción lineal, y el candidato xFA(n) de señal de entrada. La parte 104 de cálculo de distorsión de forma de onda calcula una distorsión d para la secuencia xF(n) de señales de entrada y el candidato xFA(n) de señal de entrada (S104). En muchos casos, el cálculo de la distorsión es realizado tomando el coeficiente a(i) de predicción lineal (o el coeficiente aA(i) de filtro de síntesis)) en consideración.
<Parte 105 de control de búsqueda de libro de códigos>
La parte 105 de control de búsqueda de libro de códigos recibe la distorsión d, y selecciona y emite los códigos de fuente de sonido de activación, es decir, un código de ganancia, un código periódico y un código fijo (ruido) usado por la parte 106 de libro de códigos de ganancia y la parte 107 de generación de vector de fuente de sonido de activación descrita más adelante (S105A). Si la distorsión d es un valor mínimo o un valor casi mínimo (S105BY) el proceso procede al Paso S108, y la parte 108 de síntesis descrita más adelante empieza a operar. Por otro lado, si la distorsión d no es el valor mínimo ni el valor cuasimínimo (S105BN), los Pasos S106, S107, S103 y S104 se realizan de manera secuencial, y entonces el proceso vuelve al Paso S105A, el cual es una operación realizada por este componente. Por lo tanto, en cuanto el proceso proceda a la ramificación del Paso S105BN, los Pasos S106, 107, S103, S104 y S105 se realizan de manera repetida, y finalmente la parte 105 de control de búsqueda de libro de códigos selecciona y emite los códigos de fuente de sonido de activación para los que la distorsión d para la secuencia XF(n) de señales de entrada y el candidato XFA(n) de señal de entrada es mínima o casi mínima (S105BY).
<Parte 106 de libro de códigos de ganancia>
La parte 106 de libro de códigos de ganancia recibe los códigos de fuente de sonido de activación, genera una ganancia ga , gr cuantificada (candidato de ganancia) a partir del código de ganancia en los códigos de fuente de sonido de activación y emite la ganancia ga, gr cuantificada (S106).
<Parte 107 de generación de vector de fuente de sonido de activación>
La parte 107 de generación de vector de fuente de sonido de activación recibe los códigos de fuente de sonido y la ganancia ga, gr cuantificada (candidato de ganancia) y genera un candidato c(n) de vector de fuente de sonido de activación que tiene un longitud equivalente a una trama del código de periodo y el código fijo incluido en los códigos de fuente de sonido de activación (S107). En general, la parte 107 de generación de vector de fuente de sonido de activación está compuesta a menudo de un libro de códigos adaptativo y un libro de códigos fijo. El libro de códigos adaptativo genera un candidato de un vector de series de tiempo que corresponde a una componente periódica de la voz cortando el vector de fuente de sonido de activación anterior de manera inmediata (de una a varias tramas de vectores de fuente de sonido de activación que han sido cuantificadas) almacenadas en una memoria intermedia en un segmento de vector que tiene una longitud equivalente a un cierto periodo con base en el código de periodo y que repite el segmento de vector hasta que se consigue la longitud de la trama, y emite el candidato del vector de series de tiempo. Como el “cierto periodo” descrito anteriormente, el libro de códigos adaptativo selecciona un periodo para el que la distorsión d calculada por la parte 104 de cálculo de distorsión de forma de onda es pequeña. En muchos casos, el periodo seleccionado es equivalente al periodo de tono de la voz. El libro de códigos fijo genera un candidato de un vector de código de series de tiempo que tiene una longitud equivalente a una trama que corresponde a una componente no periódica de la voz con base en el código fijo, y emite el candidato del vector de código de series de tiempo. Estos candidatos pueden ser uno de un número específico de vectores candidatos almacenados independientemente de la voz de entrada según el número de bits para codificar, o uno de los vectores generados disponiendo pulsos según una regla de generación predeterminada. El libro de código fijo corresponde intrínsicamente a la componente no periódica de la voz. Sin embargo, en una sección de voz con una alta periodicidad de tono, en concreto, un vector de código fijo puede ser producido aplicando un filtro en peine que tiene un periodo de tono o un periodo que corresponde al tono usado en el libro de códigos adaptativo al vector candidato preparado anteriormente o cortando un segmento de vector y repitiendo el segmento de vector como en el procesamiento para el libro de código adaptativo. La parte 107 de generación de vector de fuente de sonido de activación genera el candidato c(n) de vector de fuente de sonido de activación multiplicando los candidatos ca(n) y cr(n) del vector de series de tiempo emitido desde el libro de códigos adaptativo y el libro de códigos fijo por el candidato ga, gr de ganancia emitido desde la parte 23 de libro de códigos de ganancia y sumando los productos entre sí. Alguna operación real puede implicar sólo uno de entre el libro de códigos adaptativo y el libro de códigos fijo
<Parte 108 de síntesis>
La parte 108 de síntesis recibe el código de predicción lineal y los códigos de fuente de sonido de activación, y genera y emite un código sintético del código de coeficiente de predicción lineal y los códigos de fuente de sonido de activación (S108). El código resultante es transmitido a un aparato 2 de descodificación.
A continuación, con referencia a las Figura 3 y 4, se describirá el aparato 2 de descodificación según la técnica anterior. La Figura 3 es un diagrama de bloques que muestra una configuración del aparato 2 de descodificación según la técnica anterior que corresponde al aparato 1 de codificación. La Figura 4 es un diagrama de flujo que muestra una operación del aparato 2 de descodificación según la técnica anterior. Tal y como se muestra en la Figura 3, el aparato 2 de descodificación comprende una parte 109 de separación, una parte 110 de descodificación de coeficiente de predicción lineal, una parte 111 de filtro de síntesis, una parte 112 de libro de códigos de ganancia, una parte 113 de generación de vector de fuente de sonido de activación, y una parte 114 de postprocesamiento de componente. A continuación, se describirá una operación de cada componente del aparato 2 de descodificación.
<Parte 109 de separación>
El código transmitido desde el aparato 1 de codificación se introduce al aparato 2 de descodificación. La parte 109 de separación recibe el código y separa y recupera el código de coeficiente de predicción lineal y el código de fuente de sonido de activación a partir del código (S109).
<Parte 110 de descodificación de coeficiente de predicción lineal>
La parte 110 de descodificación de coeficiente de predicción lineal recibe el código de coeficiente de predicción lineal y descodifica el código de coeficiente de predicción lineal en el coeficiente aA(i) de filtro de síntesis en un método de descodificación correspondiente al método de codificación realizado por la parte 102 de codificación de coeficiente de predicción lineal (S110).
<Parte 111 de filtro de síntesis>
La parte 111 de filtro de síntesis opera igual que la parte 103 de filtro de síntesis descrita anteriormente. Es decir, la parte 111 de filtro de síntesis recibe el coeficiente aA(i) de filtro de síntesis y el candidato c(n) de vector de fuente de sonido de activación. La parte 111 de filtro de síntesis realiza el procesamiento de filtrado lineal en el candidato c(n) de vector de fuente de sonido de activación usando el coeficiente aA(i) de filtro de síntesis como un coeficiente de filtro para genera xpA(n) (referido como una secuencia xpA(n) de señales de síntesis en el aparato de descodificación) y emite la secuencia xpA(n) de señales de síntesis (S111).
<Parte 112 de libro de códigos de ganancia>
La parte 112 de libro de códigos de ganancia opera igual que la parte 106 de libro de códigos de ganancia descrita anteriormente. Es decir, la parte 112 de libro de códigos de ganancia recibe los códigos de fuente de sonido de activación, genera ga, gr (referidos como una ganancia ga, gr descodificada en el aparato de descodificación) a partir del código de ganancia en los códigos de fuente de sonido de activación y emite la ganancia ga, gr descodificada (S112).
<Parte 113 de generación de vector de fuente de sonido de activación>
La parte 113 de generación de vector de fuente de sonido de activación opera igual que la parte 107 de generación de vector de fuente de sonido de activación descrita anteriormente. Es decir, la parte 113 de generación de vector de fuente de sonido de activación recibe los código de fuente de sonido de activación y la ganancia ga, gr descodificada y genera c(n) (referido como vector c(n) de fuente de sonido de activación en el aparato de descodificación) que tiene una longitud equivalente a una trama a partir del código de periodo y el código fijo incluido en los códigos de fuente de sonido de activación y emite el c(n) (S113).
<Parte 114 de postprocesamiento>
La parte 114 de postprocesamiento recibe la secuencia xpA(n). La parte 114 de postprocesamiento realiza un procesamiento de mejora espectral o mejora de tono en la secuencia xpA(n) de señales de síntesis para generar una secuencia ZF(n) de señales de salida con un ruido cuantificado menos audible y emite la secuencia ZF(n) de señales de salida (S114).
Para ejemplos adicionales de métodos de descodificación de código digital de descodificación producido codificando de manera digital voz o música, se hace referencia a las bibliografía 1 a 4 de Patente.
La bibliografía 1 de Patente se refiere a un método de codificación de voz tipo CELP. Un generador de ruido pseudoestacionario genera una señal de ruido pseudoestacionaria. Un ajustador de ganancia recibe la información de decisión de sección de ruido enviada desde el lado de codificación para calcular un coeficiente de ganancia con el que se multiplica la señal de ruido pseudoestacionaria. Un multiplicador multiplica el ruido pseudoestacionario por la ganancia determinada por el ajustador de ganancia y emite el resultado a un sumador. El sumador suma la señal de ruido pseudoestacionaria después del ajuste de ganancia a la salida de un dispositivo de descodificación de voz. Una parte de escala usa la señal de voz descodificada después de que la señal de ruido pseudoestacionaria se sume y la señal de voz descodificada antes de que se sume a señal de ruido pseudoestacionaria para realizar un procesamiento de escala de manera que ambas señales resultan aproximadamente iguales en energía. Una parte de extracción de característica de ruido estacionario calcula un parámetro LSP medio y la energía de señal en una sección de ruido estacionario.
La bibliografía 2 de Patente se refiere a determinar un modo de voz. Una calculadora de suma cuadrada calcula una suma cuadrada de evolución en parámetros LS cuantificados suavizados para cada orden. De este modo se obtiene un primer parámetro dinámico. La calculadora de suma cuadrada calcula una suma cuadrada usando un valor cuadrado de cada orden. La suma cuadrada es un segundo parámetro dinámico. Una calculadora valor máximo selecciona un valor máximo de entre los valores cuadrados para cada orden. El valor máximo es un tercer parámetro dinámico. Del primer al tercer parámetro dinámico son emitidos a un determinador de modo, que determina un modo de voz juzgando los parámetros con los respectivos umbrales para emitir la información de modo.
La bibliografía 3 de Patente se refiere a mejorar la calidad de comunicación en entornos de mucho ruido. Se proporciona un dispositivo con una sección de estimación de nivel de ruido y una sección de cálculo de potencia de ruido separadas de una sección de codificación y se proporciona además con una sección de estimación LPC de ruido. Estas secciones calculan continuamente y de manera respectiva una potencia de ruido y los coeficientes LPC de ruido en las últimas tramas de ruido plurales de la voz transmitida. Los resultados del cálculo de la potencia de ruido y los coeficientes LPC de ruido se suministran a la sección de codificación, mediante la cual se codifican los resultados en el momento de codificar las tramas de ruido actuales en la sección de codificación.
La bibliografía 4 de Patente se refiere a un dispositivo de descodificación de audio que puede ajustar un grado de énfasis de alto rango de acuerdo con un nivel de ruido de fondo. El dispositivo de descodificación de audio incluye una unidad de descodificación de señal de fuente de sonido que realiza un proceso de descodificación usando unos datos de codificación de fuente de sonido separados por una unidad de separación para obtener una señal de fuente de sonido, un filtro de síntesis LPC que realiza un proceso de filtrado de síntesis LPC usando una señal de fuente de sonido y un LPC generado por una unidad de descodificación LPC para obtener una señal de sonido descodificada, una unidad de evaluación de modo que determina si una señal de sonido descodificada es una sección de ruido estacionaria usando un LSP descodificado introducido desde la unidad de descodificación LPC, una unidad de cálculo de potencia que calcula la potencia de la señal de audio descodificada, una unidad de cálculo de SNR que calcula una SNR de la señal de audio descodificada usando la potencia de la señal de audio descodificada y un resultado de evaluación de modo en la unidad de evaluación de modo, y un filtro posterior que realiza un proceso de postfiltrado usando la SNR de la señal de audio descodificada.
[BIBLIOGRAFÍA DE TÉCNICA ANTERIOR]
[BIBLIOGRAFÍA DE NO PATENTE}
Bibliografía 1 de No patente: M. R. Schroeder y B. S. Atal, “Code-Excited Linear Prediction (CELP): High Quality Speech at Very Low Bit Rates”, Proc. IEEE ICASSP-85, pp.937-940, 1985
[BIBLIOGRAFÍA DE PATENTE]
Bibliografía 1 de Patente: Publicación de Solicitud de Patente Japonesa N.° JP 2004-302258 A
Bibliografía 2 de Patente: Publicación de Patente de los EE.UU. N.° US 7577567 B2
Bibliografía 3 de Patente: Publicación de Solicitud de Patente Japones N.° JP H09-54600 A
Bibliografía 4 de Patente: Publicación de Solicitud de Patente Internacional N.° WO 2008/108082 A1
[COMPENDIO DE LA INVENCIÓN]
[PROBLEMAS A SER RESUELTOS POR LA INVENCIÓN]
El esquema de codificación basado en el modelo de producción de voz, tal como el esquema de codificación basado en CELP, puede conseguir una codificación de alta calidad con una cantidad reducida de información. Sin embargo, si se introduce una voz registrada en un entorno con ruido de fondo tal como una oficina o una calle (referido como voz con ruido superpuesto, de aquí en adelante), surge un problema de sonido incómodo perceptible ya que el modelo no se puede aplicar al ruido de fondo, que tiene una propiedades diferentes de la voz, y por lo tanto se produce una distorsión de cuantificación. En vista de dicha circunstancia, un objetivo de la presente invención es proporcionar un método de descodificación que pueda reproducir un sonido natural incluido si la señal de entrada es una voz con ruido superpuesto en un esquema de codificación de voz basado en un modelo de producción de voz tal como un esquema basado en CELP.
[MEDIOS PARA SOLUCIONAR LOS PROBLEMAS]
En vista de los problemas anteriores, la presente invención proporciona un método de descodificación, un aparato de descodificación, un programa. Y un soporte de registro legible por ordenador, que tienen las características de las respectivas reivindicaciones independientes. Las realizaciones preferidas de la invención se describen en las reivindicaciones dependientes.
[EFECTOS DE LA INVENCIÓN]
Según el método de descodificación según la presente invención, en un esquema de codificación de voz basado en un modelo de producción de voz, tal como un esquema basado en CELP, incluso si la señal de entrada es voz con ruido superpuesto, la distorsión de cuantificación provocada porque el modelo no es aplicable a la voz con ruido superpuesto es enmascarada de manera que el sonido incómodo resulta menos perceptible, y se puede reproducir un sonido más natural
[BREVE DESCRIPCIÓN DE LOS DIBUJOS]
La Figura 1 es un diagrama de bloques que muestra una configuración de un aparato de codificación según la técnica anterior;
La Figura 2 es un diagrama de flujo que muestra una operación del aparato de codificación según la técnica anterior;
La Figura 3 es un diagrama de bloques que muestra una configuración de un aparato de descodificación según la técnica anterior;
La Figura 4 es un diagrama de flujo que muestra una operación del aparato de descodificación según la técnica anterior;
La Figura 5 es un diagrama de bloques que muestra una configuración de un aparato de codificación según una primera realización;
La Figura 6 es un diagrama de flujo que muestra una operación del aparato de codificación según la primera realización;
La Figura 7 es un diagrama de bloques que muestra una configuración de una parte de control del aparato de codificación según la primera realización;
La Figura 8 es un diagrama de flujo que muestra una operación de la parte de control del aparato de codificación según la primera realización;
La Figura 9 es un diagrama de bloques que muestra una configuración de un aparato de descodificación según la primera realización y una modificación del mismo;
La Figura 10 es un diagrama de flujo que muestra una operación del aparato de descodificación según la primera realización y la modificación del mismo;
La Figura 11 es un diagrama de bloques que muestra una configuración de una parte de adición de ruido del aparato de descodificación según la primera realización y la modificación del mismo;
La Figura 12 es un diagrama de flujo que muestra una operación de la parte de adición de ruido del aparato de descodificación según la primera realización y la modificación del mismo.
[DESCRIPCIÓN DETALLADA DE LAS REALIZACIONES]
A continuación, se describirá una realización de la presente invención en detalle. Los componentes que tienen la misma función serán representados por el mismo número de referencia, y se omitirán las descripciones redundantes de los mismos.
[PRIMERA REALIZACIÓN]
Con referencia a las Figura 5 a 8, se describirá un aparato 3 de codificación según una primera realización. La Figura 5 es un diagrama de bloques que muestra una configuración del aparato 3 de codificación según esta realización. La Figura 6 es un diagrama de flujo que muestra una operación del aparato 3 de codificación según esta realización. La Figura 7 es un diagrama de bloques que muestra una configuración de una parte 215 de control del aparato 3 de codificación según esta realización. La Figura 8 es un diagrama de flujo que muestra una operación de la parte 215 de control del aparato 3 de codificación según esta realización.
Tal y como se muestra en la Figura 5, el aparato 3 de codificación según esta realización comprende una parte 101 de análisis de predicción lineal, una parte 102 de codificación de coeficiente de predicción lineal, una parte 103 de filtro de síntesis, una parte 104 de cálculo de distorsión de forma de onda, una parte 105 de control de búsqueda de libro de códigos, una parte 106 de libro de códigos de ganancia, una parte 107 de generación de vector de fuente de sonido de activación, una parte 208 de síntesis, y una parte 215 de control. El aparato 3 de codificación difiere del aparato 1 de codificación según la técnica anterior sólo en que la parte 108 de síntesis en el ejemplo de la técnica anterior se reemplaza con la parte 208 de síntesis en esta realización, y el aparato 3 de codificación se proporciona de manera adicional con la parte 215 de control. Las operaciones de los componentes representados por los mismos números de referencia que aquellos del aparato 1 de codificación según la técnica anterior son las mismas que las descritas anteriormente y por lo tanto no se describirán más. A continuación, se describirán las operaciones de la parte 215 de control y la parte 208 de síntesis, que diferencia el aparato 3 de codificación del aparato 1 de codificación según la técnica anterior.
<Parte 215 de control>
La parte 215 de control recibe una secuencia xF(n) de señales de entrada en unidades de trama y genera un código de información de control (S215). Más específicamente, tal como se muestra en la Figura 7, la parte 215 de control comprende una parte 2151 de filtro paso bajo, una parte 2152 de suma de potencias, una memoria 2153, una parte 2154 de aplicación de bandera, y una parte 2155 de detección de sección de voz. La parte 2151 de filtro paso bajo recibe una secuencia xF(n) de señales de entrada en unidades de tramas que se componen de una pluralidad de muestras consecutivas (bajo la suposición de que una trama es una secuencia de L señales de 0 a L-1), realiza un procesamiento de filtrado en la secuencia xF(n) de señales de entrada usando un filtro paso bajo para generar una secuencia xLPF(n) de señales de entrada paso bajo, y emite la secuencia xLPF(n) de señales de entrada paso bajo (S2151). Para el procesamiento de filtrado, se puede usar un filtro de respuesta al impulso infinita (IIR) o un filtro de respuesta al impulso finita (FIR). De manera alternativa, se pueden usar otros procesamientos de filtrado.
Entonces, la parte 2152 de suma de potencia recibe la secuencia xLPF(n) de señales de entrada paso bajo, y calcula una suma de la potencia de la secuencia xLPF(n) de señales de entrada paso bajo como una energía eLPF(0) de señales paso bajo según la siguiente fórmula, por ejemplo (SS2152).
[Fórmula 1]
Figure imgf000006_0001
La parte 2152 de suma de potencia almacena las energías de señal paso bajo calculadas para un número M predeterminado de tramas anteriores (M=5, por ejemplo) en la memoria 2153 (SS2152). Por ejemplo, la parte 2152 de suma de potencias almacena, en la memoria 2153, las energías eLPF(1) a eLPF(M) de señales paso bajo para tramas desde la primera trama antes de la trama actual a la M-ésima trama antes de la trama actual.
Entonces, la parte 2154 de aplicación de bandera detecta si la trama actual es una sección que incluya voz o no (referido como sección de voz, de aquí en adelante), y sustituye un valor dentro de una bandera clas(0) de detección de sección de voz (SS2154). Por ejemplo, si la trama actual es una sección de voz, clas(0) = 1, y si la trama actual no es una sección de voz, clas(0) = 0. La sección de voz puede ser detectada en un método de detección de actividad de voz (VAD) comúnmente usado o cualquier otro método que pueda detectar una sección de voz. De manera alternativa, la detección de sección de voz puede ser una detección de sección de vocal. El método VAD se usa para detecta una sección de silencio para la compresión de información en la ITU-T G.729 Anexo B (Bibliografía 1 de referencia de no patente), por ejemplo.
La parte 2154 de aplicación de bandera almacena las banderas clas de detección de sección de voz para un número N predeterminado de tramas anteriores (N=5, por ejemplo) en la memoria 2153 (SS2152). Por ejemplo, la parte 2154 de aplicación de bandera almacena, en la memoria 2153, las banderas clas(1) a clas(N) para las tramas desde la primera trama antes de la trama actual a la N-ésima trama antes de la trama actual.
(Bibliografía 1 de referencia de No patente) A Benyassine, E Shlomot, H-Y Su, D Massaloux, C Lambling, J-P Petit, recomendación ITU-T H.729 Anexo B: un esquema de compresión de silencio para usar con G.729 optimizado para aplicaciones de voz y datos simultáneos V.70, Revista de Comunicaciones IEEE 35(9), 64-73 (1997)
Entonces, la parte 2155 de detección de sección de voz realiza la detección de sección de voz usando las energías eLPF(0) a eLPF(M) de señales paso bajo y las banderas clas(0) a clas(N) (SS2155). Más específicamente, si todas las energías eLPF(0) a eLPF(M) de señales paso bajo como parámetros son mayores que un umbral predeterminado, y todas las banderas clas(0) a clas(N) como parámetros son 0 (es decir, la trama actual no es una sección de voz ni una sección de vocal), la parte 2155 de detección de sección de genera, como el código de información de control, un valor (información de control) que indica que las señales de la trama actual se categorizan como voz con ruido superpuesto, y emite el valor de la parte 208 de síntesis (SS2155). En otro caso, se traslada la información de control para la trama inmediatamente anterior. Es decir, si la secuencia de señales de entrada de la trama inmediatamente anterior es voz con ruido superpuesto, la trama actual es también voz con ruido superpuesto, y si la trama inmediatamente anterior no es voz con ruido superpuesto, la trama actual tampoco es voz con ruido superpuesto. Un valor inicial de la información de control puede ser o no un valor que indique la voz con ruido superpuesto. Por ejemplo, la información de control se emite como información binaria (1 bit) que indica si la secuencia de señales de entrada es voz con ruido superpuesto o no.
<Parte 208 de síntesis>
La parte 208 de síntesis opera básicamente igual que la parte 108 de síntesis excepto en que el código de información de control se introduce adicionalmente a la parte 208 de síntesis. Es decir, la parte 208 de síntesis recibe el código de información de control, el código de predicción lineal y el código de fuente de sonido de activación y genera un código sintético del mismo (S208).
A continuación, con referencia a las Figura 9 a 12, se describirá un aparato 4 de descodificación según la primera realización. La Figura 9 es un diagrama de bloques que muestra una configuración del aparato 4(4’) de descodificación según esta realización y una modificación de la misma. La Figura 10 es un diagrama de flujo que muestra una operación del aparato 4(4') de descodificación según esta realización y la modificación de la misma. La Figura 11 es un diagrama de bloques que muestra una configuración de una parte 216 de adición de ruido del aparato 4 de descodificación según esta realización y la modificación de la misma. La Figura 12 es un diagrama de flujo que muestra una operación de la parte 216 de adición de ruido del aparato 4 de descodificación según esta realización y la modificación de la misma.
Tal y como se muestra en la Figura 9, el aparato 4 de descodificación según esta realización comprende una parte 209 de separación, una parte 110 de descodificación de coeficiente de predicción lineal, una parte 111 de filtro de síntesis, una parte 112 de libro de códigos de ganancia, una parte 113 de generación de vector de fuente de sonido de activación, una parte 214 de postprocesamiento, una parte 216 de adición de ruido, y una parte 217 de cálculo de ganancia de ruido. El aparato 3 de descodificación difiere del aparato 2 de descodificación según la técnica anterior sólo en que la parte 109 de separación en el ejemplo de la técnica anterior es reemplazada con la parte 209 de separación en esta realización, la parte 114 de postprocesamiento en el ejemplo de la técnica anterior es reemplazada con la parte 214 de postprocesamiento en esta realización, y el aparato 4 de descodificación se proporciona de manera adicional con la parte 216 de adición de ruido y la parte 217 de cálculo de ganancia de ruido. Las operaciones de los componentes representados por los mismos números de referencia que aquellos del aparato 2 de descodificación según la técnica anterior son los mismos que los descritos anteriormente y por lo tanto no se describirán adicionalmente. A continuación, se describirán las operaciones de la parte 209 de separación, la parte 217 de cálculo de ganancia de ruido, la parte 216 de adición de ruido y la parte 214 de postprocesamiento, que diferencian el aparato 4 de descodificación del aparato 2 de descodificación según la técnica anterior.
<Parte 209 de separación>
La parte 209 de separación opera básicamente igual que la parte 109 de separación excepto en que la parte 209 de separación emite de manera adicional el código de información de control. Es decir, la parte 209 de separación recibe el código desde el aparato 3 de codificación, y separa y recupera el código de información de control, el código de coeficiente de predicción lineal y el código de fuente de sonido de activación del código (S209). Después, se realizan los Pasos S112, S113, S110, y S111.
<Parte 217 de cálculo de ganancia de ruido>
Después, la parte 217 de cálculo de ganancia de ruido recibe la secuencia XFA(n) de señales de síntesis y calcula una ganancia gn de ruido según la siguiente fórmula si la trama actual es una sección que no es una sección de voz, tal como una sección de ruido (S217).
[Fórmula 2]
Figure imgf000008_0001
La ganancia gn de ruido puede ser actualizada mediante promedio exponencial usando la ganancia de ruido determinada para una trama anterior según la siguiente fórmula
[Fórmula 3]
Figure imgf000008_0002
Un valor inicial de la ganancia gn de ruido puede ser un valor predeterminado, tal como 0, o un valor determinado a partir de la secuencia XFA(n) de señales de síntesis para una cierta trama. £ representa un coeficiente de olvido que satisface una condición de que 0 < £ < 1 y determina una constante de tiempo de una atenuación exponencial. Por ejemplo, la ganancia gn de ruido se actualiza bajo la suposición de que £ = 0,6. La ganancia gn de ruido se puede calcular también según la fórmula (4) o (5).
[Fórmula 4]
Figure imgf000008_0003
Si la trama actual es una sección que no es la sección de voz, tal como una sección de ruido, o no se puede detectar en el método de detección de actividad de voz (VAD) comúnmente usado descrito en la bibliografía 1 de referencia de No patente o cualquier otro método que pueda detectar una sección que no sea una sección de voz.
<Parte 216 de adición de ruido>
La parte 216 de adición de ruido recibe el coeficiente aA(i) de filtro de síntesis, el código de información de control, la secuencia XFA(n) de señales de síntesis, y la ganancia gn de ruido, genera una secuencia XFA’(n) de señales de ruido añadido, y emite la secuencia XFA’(n) de señales de ruido añadido (S216).
Más específicamente, tal y como se muestra en la Figura 11, la parte 216 de adición de ruido comprende una parte 2161 de determinación de voz con ruido superpuesto, una parte 2162 de filtro paso alto de síntesis, y una parte 2163 de generación de señal de ruido añadido. La parte 2161 de determinación de voz con ruido superpuesto descodifica el código de información de control en la información de control, determina si la trama actual se categoriza como la voz de ruido superpuesto o no, y si la trama actual es voz de ruido superpuesto (S2161BY), genera una secuencia de L señales de ruido blanco generadas aleatoriamente cuyas amplitudes suponen valores que oscilan de -1 a 1 como una secuencia p(n) de señales de ruido blanco normalizado (SS2161C). Después, la parte 2162 de filtro paso alto de síntesis recibe la secuencia p(n) de señales de ruido blanco normalizado, realiza un procesamiento de filtrado sobre la secuencia p(n) de señales de ruido blanco normalizado usando un filtro compuesto del filtro paso alto y el filtro de síntesis matizado para acercarse más a la forma general del ruido para generar una secuencia pHPF(n) de señales de ruido normalizado paso alto, y emite la secuencia pHPF(n) de señales de ruido normalizado paso alto (SS2162). Para el procesamiento de filtrado, se puede usar un filtro de respuesta al impulso infinita (IIR) o un filtro de respuesta al impulso finita (FIR). De manera alternativa, se puede usar otros procesamientos de filtrado. Por ejemplo, el filtro compuesto del filtro paso alto y el filtro de síntesis matizado, que se expresa mediante H(z), puede ser definido mediante la siguiente fórmula.
[Fórmula 5]
H (z) = H HPF (z)f Á(z / y„ )• • • (6)
^w=i-£Lá(Oz~,*"(7)
En estas fórmulas, Hhpf(z ) representa el filtro paso alto, y AA(Z/Yn) representa el filtro de síntesis matizado. q representa un orden de predicción lineal y es 16, por ejemplo. Yn es un parámetro que matiza el filtro de síntesis para aproximarse a la forma general del ruido y es 0,8, por ejemplo.
Una razón para usar el filtro paso alto es la siguiente. En el esquema de codificación basado en el modelo de producción de voz, tal como el esquema de codificación basado en CELP, se asignan un mayor número de bits a las bandas de frecuencia de alta energía, de manera que la calidad de sonido tiende intrínsicamente a deteriorarse en las bandas de frecuencia más altas. Si se usa el filtro paso alto, sin embargo, se puede añadir más ruido a las bandas de sonido más altas en las que la calidad de sonido se ha deteriorado mientras que no se añade ruido a las bandas de frecuencia bajas en las que la calidad del sonido no se ha deteriorado significativamente. De esta manera, se puede producir un sonido más natural que no está auditivamente deteriorado.
La parte 2163 de generación de señal de ruido añadido recibe la secuencia XFA(n) de señales de síntesis, la secuencia pHPF(n) de señales de ruido normalizado paso alto, y la ganancia gn de ruido descrita anteriormente, y calcula una secuencia XFA’(n) de señales de ruido añadido según la siguiente fórmula, por ejemplo (SS2163).
[Fórmula 6]
Figure imgf000009_0001
En esta fórmula, Cn representa una constante predeterminado que ajusta la magnitud del ruido a ser añadido, tal como a 0,04.
Por otro lado, si en el Subpaso SS2161B la parte 2161 de determinación de voz de ruido superpuesto determina que la trama actual no es voz de ruido superpuesto (SS2161BN), no se realizan los Subpasos SS2161C, SS2162, y SS2163. En este caso, la parte 2161 de determinación de voz de ruido superpuesto recibe la secuencia XFA(n) de señales de síntesis, y emite la secuencia XFA(n) de señales de síntesis como la secuencia XFA’(n) de señales de ruido añadido sin cambio (SS2161D). La secuencia XFA(n) de señales de ruido añadido emitidas desde la parte 2161 de determinación de voz de ruido superpuesto se emite desde la parte 216 de adición de ruido sin cambio.
<Parte 214 de postprocesamiento>
La parte 214 de postprocesamiento opera básicamente igual que la parte 114 de postprocesamiento excepto en que lo que se introduce a la parte 214 de post procesamiento no es la secuencia de señales de síntesis sino la secuencia de señales de ruido añadido. Es decir, la parte 214 de postprocesamiento recibe la secuencia XFA’(n) de señales de ruido añadido, realiza un procesamiento de mejora espectral o mejora de tono sobre la secuencia XFA’(n) de señales de ruido añadido para generar una secuencia ZF(n) de señales de salida con un ruido cuantificado menos audible y emite la secuencia ZF(n) de señales de salida (S214).
[Primera modificación]
A continuación, con referencia a las Figura 9 y 10, se describirá un aparato 4’ de descodificación según una modificación de la primera realización. Tal y como se muestra en la Figura 9, el aparato 4’ de descodificación según esta modificación comprende una parte 209 de separación, una parte 110 de descodificación de coeficiente de predicción lineal, una parte 111 de filtro de síntesis, una parte 112 de libro de códigos de ganancia, una parte 113 de generación de vector de fuente de sonido de activación, un postprocesamiento 214, una parte 216 de adición de ruido, y una parte 217’ de cálculo de ganancia de ruido. El aparato 4’ de descodificación difiere del aparato 4 de descodificación según la primera realización sólo en que la parte 217 de cálculo de ganancia de ruido en la primera realización se reemplaza con la parte 217’ de cálculo de ganancia de ruido en esta modificación.
<Parte 217’ de cálculo de ganancia de ruido>
La parte 217’ de cálculo de ganancia de ruido recibe la secuencia XFA’(n) de señales de ruido añadido en lugar de la secuencia XFA(n) de señales de síntesis, y calcula la ganancia gn de ruido según la siguiente fórmula, por ejemplo, si la trama actual es una sección que no es una sección de voz, tal como una sección de ruido (S217’).
[Fórmula 7]
Figure imgf000010_0001
Como con este caso descrito anteriormente, la ganancia gn de ruido se puede calcular según la siguiente fórmula (3').
[Fórmula 8]
Figure imgf000010_0002
Como con este caso descrito anteriormente, la ganancia gn de ruido se puede calcular según la siguiente fórmula (4') o (5').
[Fórmula 9]
Figure imgf000010_0003
Como se describe anteriormente, con el aparato 3 de codificación y el aparato 4(4') de descodificación según esta realización y la modificación de la misma, en el esquema de codificación de voz basado en el modelo de producción de voz, tal como el esquema basado en CELP, incluso si la señal de entrada es voz con ruido superpuesto, la distorsión de cuantificación provocada porque el modelo no es aplicable a la voz con ruido superpuesto es enmascarada de manera que el sonido incómodo resulta menos perceptible, y se puede reproducir un sonido más natural.
En la primera realización y la modificación de la misma, han sido descritos métodos específicos de cálculo y emisión para el aparato de codificación y el aparato de descodificación. Sin embargo, el aparato de codificación (método de codificación) y el aparato de descodificación (método de descodificación) según la presente invención no se limitan a los métodos específicos ilustrado en la primera realización y la modificación de la misma. A continuación, se describirá de otra manera la operación del aparato de descodificación según la presente invención. El procedimiento de producir la señal de voz descodificada (descrita como la secuencia XFA(n) de señales de síntesis en la primera realización, como un ejemplo) según la presente invención (descrita como los Pasos S209, S112, S113, S110, y S111 en la primera realización) puede considerarse como un único paso de descodificación de voz. Además, el paso de generación de una señal de ruido (descrito como Subpaso SS2161C en la primera realización, como un ejemplo) será referido como un paso de generación de ruido. Además, el paso de generación de una señal de ruido añadido (descrito como Subpaso SS2163 en la primera realización, como un ejemplo) será referido como un paso de adición de ruido.
En este caso, se puede proporcionar un método de descodificación más general que incluye el paso de descodificación de voz y el paso de generación de ruido. El paso de descodificación de voz es para obtener la señal de voz descodificada (descrita como XFA(n), como un ejemplo) a partir del código de entrada. El paso de generación de ruido es para generar una señal de ruido que es una señal aleatoria (descrita como la secuencia p(n) de señales de ruido blanco normalizado en la primera realización, como un ejemplo). El paso de adición de ruido es para emitir una señal de ruido añadido (descrita como XFA'(n), en la primera realización, como un ejemplo). El paso de adición de ruido es para emitir una señal de ruido añadido (descrita como XFA'(n) en la primera realización, como un ejemplo), siendo obtenida la señal de ruido añadido sumando la señal de voz descodificada (descrita como XFA(n), como un ejemplo) y una señal obtenida realizando, sobre la señal de ruido (descrita como p(n), como un ejemplo), un procesamiento de señal en base a al menos una de entre una potencia correspondiente a una señal de voz descodificada para una trama anterior (descrita como la ganancia gn en la primera realización, como un ejemplo) y una envolvente de espectro correspondiente a la señal de voz descodificada para la trama actual (filtro AA(n) o AA(Z/Yn) en la primera realización).
En el método de descodificación según la presente invención, la envolvente de espectro correspondiente a la señal de voz descodificada para la trama actual descrita anteriormente es una filtro AA(z/Yn) obtenido matizando una envolvente de espectro correspondiente a un parámetro de envolvente de espectro (descrito como aA(¡) en la primera realización, como un ejemplo) para la trama actual proporcionado en el paso de descodificación de voz. Además, según un ejemplo, la envolvente de espectro correspondiente a la señal de voz descodificada para la trama actual descrita anteriormente puede ser una envolvente de espectro (descrita como AA(z) en la primera realización, como un ejemplo) que está basada en un parámetro de envolvente de espectro (descrito como aA(i), como un ejemplo) para la trama actual proporcionada en el paso de descodificación de voz.
Además, el paso de adición de ruido del método de descodificación según la presente invención, descrito anteriormente, emite una señal de ruido añadido, siendo la señal de ruido añadido obtenida sumando la señal de voz descodificada y una señal obtenida impartiendo la envolvente de espectro (descrita como el filtro AA(z/Yn)) correspondiente a la señal de voz descodificada para la trama actual a la señal de ruido (descrita como p(n), como un ejemplo) y multiplicando la señal resultante por la potencia (descrita como gn, como un ejemplo) correspondiente a la señal de voz descodificada para la trama anterior.
El paso de adición de ruido descrito anteriormente puede ser para emitir una señal de ruido añadido, siendo la señal de ruido añadido obtenida sumando la señal de voz descodificada y una señal con una banda de baja frecuencia suprimida o una banda de alta frecuencia enfatizada (ilustrada en la fórmula (6) en la primera realización, por ejemplo) obtenida impartiendo la envolvente de espectro correspondiente a la señal de voz descodificada para la trama actual a la señal de ruido.
El paso de adición de ruido descrito anteriormente puede ser para emitir una señal de ruido añadido, siendo la señal de ruido añadido obtenida sumando la señal de voz descodificada y una señal con una banda de baja frecuencia suprimida o una banda de alta frecuencia enfatizada (ilustrada en la fórmula (6) u (8), por ejemplo) obtenida impartiendo la envolvente de espectro correspondiente a la señal de voz descodificada para la trama actual a la señal de ruido y multiplicando la señal resultante por la potencia correspondiente a la señal de voz descodificada para la trama anterior.
El paso de adición de ruido descrito anteriormente puede ser para emitir una señal de ruido añadido, siendo la señal de ruido añadido obtenida sumando la señal de voz descodificada y una señal obtenida impartiendo la envolvente de espectro correspondiente a la señal de voz descodificada para la trama actual a la señal de ruido.
El paso de adición de ruido descrito anteriormente puede ser para emitir una señal de ruido añadido, siendo la señal de ruido añadido obtenida sumando la señal de voz descodificada y una señal obtenida multiplicando la señal de ruido por la potencia correspondiente a la señal de voz descodificada para la trama anterior.
Los diversos procesamientos descritos anteriormente pueden ser realizados no sólo secuencialmente en el orden descrito anteriormente sino también en paralelo con cada uno o de manera individual como se requiera o dependiendo de la potencia de procesamiento del aparato que realiza los procesamientos. Además, el alcance de la invención está definido por las reivindicaciones adjuntas y las diversas modificaciones de los procesamientos descritas anteriormente se pueden hacer de manera apropiada dentro de este alcance.
En el caso en que las configuraciones descritas anteriormente sean implementadas por un ordenador, los procesamientos específicos de los aparatos se describen en un programa. El ordenador ejecuta el programa para implementar los procesamientos descritos anteriormente.
El programa que describe los procesamientos específicos se puede registrar en un soporte de registro legible por ordenador. El soporte de registro legible por ordenador puede ser cualquier tipo de soporte de registro, tal como un dispositivo de registro magnético, un disco óptico, un soporte de registro magnetoóptico o una memoria semiconductora.
El programa puede ser distribuido vendiendo, transfiriendo o prestando un soporte de registro portátil, tal como un DVD o un CD-ROM, en el que se registra el programa, por ejemplo. De manera alternativa, el programa puede ser distribuido almacenando el programa en un dispositivo de almacenamiento en un ordenador servidor y transfiriendo el programa desde el ordenador servidor a los otros ordenadores a través de una red.
El ordenador que ejecuta el programa primero almacena de manera temporal, en un dispositivo de almacenamiento del mismo, el programa registrado en un soporte de registro portátil o transferido desde un ordenador servidor, por ejemplo. Después, al realizar los procesamientos, el ordenador lee el programa desde el soporte de registro y realiza los procesamientos según el programa leído. En una implementación alternativa, el ordenador puede leer el programa directamente desde el soporte de registro portátil y realizar los procesamientos según el programa. Como una alternativa adicional, el ordenador puede realizar los procesamientos según el programa cada vez que el ordenador reciba el programa transferido desde el ordenador servidor. Como una alternativa adicional, los procesamientos descritos anteriormente pueden ser realizados en base a un proveedor de servicio de aplicación (ASP), en el que el ordenador servidor no transmite el programa al ordenador, y los procesamientos se implementan sólo a través la instrucción de ejecución y la adquisición de resultados.
Los programas según la realización de la presente invención incluyen un cuasiprograma que es información proporcionada para su procesamiento por un ordenador (tal como datos que no son una instrucción directa a un ordenador pero que tienen una propiedad que define los procesamientos realizados por el ordenador). Aunque el aparato según la presente invención en la realización descrito anteriormente es implementado por un ordenador que ejecuta un programa predeterminado, al menos parte del procesamiento específico puede ser implementado por hardware.

Claims (10)

REIVINDICACIONES
1. Un método de descodificación, que comprende:
un paso (S113) de generación de vector de fuente de sonido de activación de obtención de un vector de fuente de sonido de activación desde un código de entrada;
un paso (S110) de descodificación de coeficiente de predicción de descodificación de código de coeficiente de predicción lineal, y obtención de un coeficiente de filtrado de síntesis que es un coeficiente de predicción lineal cuantificado;
un paso (S111) de filtrado de síntesis de realización del procesamiento de filtrado de síntesis en el vector de fuente de sonido de activación usando el coeficiente de filtro de síntesis como un coeficiente de filtro para generar una señal de voz descodificada;
un paso (SS2161C) de generación de ruido de generación de una señal de ruido que es una señal de ruido aleatoria;
un paso (SS2163) de adición de ruido de emisión de una señal de ruido añadido, siendo la señal de ruido añadido obtenida sumando dicha señal de voz descodificada y una señal, la señal obtenida realizando, en dicha señal de ruido, una señal de procesamiento que está basada en el coeficiente de filtro de síntesis, caracterizado por que el procesamiento de señal con base en el coeficiente de filtro de síntesis es un procesamiento de filtrado con un filtro AA(Z/Yn), el filtro AA(Z/Yn) es el filtro que se obtiene ponderando el filtro AA(z) de síntesis por Yn, el filtro AA(z) tiene el coeficiente de filtro de síntesis como el coeficiente de filtro; y Yn es un parámetro para aproximar la forma del filtro AA(Z/Yn) desde el filtro AA(z) a la forma general del ruido.
2. El método de descodificación según la reivindicación 1, en donde dicho paso (SS2163) de adición de ruido es para emitir una señal de ruido añadido, siendo la señal de ruido añadido obtenida sumando dicha señal de voz descodificada y una señal, obtenida la señal filtrando dicha señal de ruido y multiplicando la señal resultante por la potencia correspondiente a la señal de voz descodificada para dicha trama anterior.
3. El método de descodificación según la reivindicación 1, en donde el procesamiento de señal comprende además aplicar un filtrado paso alto.
4. El método de descodificación según la reivindicación 3, en donde el procesamiento de señal comprende además multiplicar la señal filtrada paso alto sintetizada por la potencia correspondiente a la señal de voz descodificada para dicha trama anterior.
5. Un aparato (4, 4’) de descodificación, que comprende:
una parte (113) de generación de vector de fuente de sonido de activación que obtiene un vector de fuente de sonido de activación desde un código de entrada;
una parte (110) de descodificación de coeficiente de predicción lineal para descodificar el código de coeficiente de predicción lineal, y obtener un coeficiente de filtrado de síntesis que es un coeficiente de predicción lineal cuantificado;
una parte (111) de filtro de síntesis para realizar el procesamiento de filtrado de síntesis sobre el vector de fuente de sonido de activación usando el coeficiente de filtro de síntesis como un coeficiente de filtro para generar una señal de voz descodificada;
una parte (2161) de generación de ruido que genera una señal de ruido que es una señal aleatoria; una parte (2163) de adición de ruido que emite una señal de ruido añadido, siendo la señal de ruido añadido obtenida sumando dicha señal de voz descodificada y una señal, obtenida la señal realizando, en dicha señal de ruido, un procesamiento de señal que está basado en el coeficiente de filtro de síntesis, caracterizado por que el aparato (4, 4’) de descodificación está adaptado de manera que el procesamiento de señal basado en el coeficiente de filtro de síntesis es un procesamiento de filtrado con un filtro AA(Z/Yn), el filtro AA(Z/Yn) es el filtro que se obtiene ponderando el filtro AA(z) de síntesis por Yn, el filtro AA(z) tiene el coeficiente de filtro de síntesis como el coeficiente de filtro; y
Yn es un parámetro para aproximar la forma del filtro AA(Z/Yn) desde el filtro AA(z) a la forma general del ruido.
6. El aparato (4, 4’) de descodificación según la reivindicación 5, en donde dicha parte (2163) de adición de ruido emite una señal de ruido añadido, siendo la señal de ruido añadido obtenida sumando dicha señal de voz descodificada y una señal, obtenida la señal filtrando dicha señal de ruido y multiplicando la señal resultante por la potencia correspondiente a la señal de voz descodificada para dicha trama anterior.
7. El aparato (4, 4’) de descodificación según la reivindicación 5, en donde el procesamiento de señal comprende además aplicar un filtrado paso alto.
8. El aparato (4, 4’) de descodificación según la reivindicación 7, en donde, en donde el procesamiento de señal comprende además multiplicar la señal filtrada paso alto sintetizada por la potencia correspondiente a la señal de voz descodificada para dicha trama anterior.
9. Un programa que hace a un ordenador realizar cada paso del método de descodificación según cualquiera de las reivindicaciones 1 a 4.
10. Un soporte de registro legible por ordenador en el que se registra un programa que a un ordenador realizar cada paso del método de descodificación según cualquiera de las reivindicaciones 1 a 4.
ES13832346T 2012-08-29 2013-08-28 Método de descodificación, aparato de descodificación, programa, y soporte de registro para ello Active ES2881672T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012188462 2012-08-29
PCT/JP2013/072947 WO2014034697A1 (ja) 2012-08-29 2013-08-28 復号方法、復号装置、プログラム、及びその記録媒体

Publications (1)

Publication Number Publication Date
ES2881672T3 true ES2881672T3 (es) 2021-11-30

Family

ID=50183505

Family Applications (1)

Application Number Title Priority Date Filing Date
ES13832346T Active ES2881672T3 (es) 2012-08-29 2013-08-28 Método de descodificación, aparato de descodificación, programa, y soporte de registro para ello

Country Status (8)

Country Link
US (1) US9640190B2 (es)
EP (1) EP2869299B1 (es)
JP (1) JPWO2014034697A1 (es)
KR (1) KR101629661B1 (es)
CN (3) CN107945813B (es)
ES (1) ES2881672T3 (es)
PL (1) PL2869299T3 (es)
WO (1) WO2014034697A1 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
WO2019107041A1 (ja) * 2017-12-01 2019-06-06 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
CN109286470B (zh) * 2018-09-28 2020-07-10 华中科技大学 一种主动非线性变换信道加扰传输方法
JP7218601B2 (ja) * 2019-02-12 2023-02-07 日本電信電話株式会社 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01261700A (ja) * 1988-04-13 1989-10-18 Hitachi Ltd 音声符号化方式
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
JP3568255B2 (ja) * 1994-10-28 2004-09-22 富士通株式会社 音声符号化装置及びその方法
JP2806308B2 (ja) * 1995-06-30 1998-09-30 日本電気株式会社 音声復号化装置
JPH0954600A (ja) 1995-08-14 1997-02-25 Toshiba Corp 音声符号化通信装置
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
JP4826580B2 (ja) * 1995-10-26 2011-11-30 ソニー株式会社 音声信号の再生方法及び装置
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
GB2322778B (en) * 1997-03-01 2001-10-10 Motorola Ltd Noise output for a decoded speech signal
FR2761512A1 (fr) * 1997-03-25 1998-10-02 Philips Electronics Nv Dispositif de generation de bruit de confort et codeur de parole incluant un tel dispositif
US6301556B1 (en) * 1998-03-04 2001-10-09 Telefonaktiebolaget L M. Ericsson (Publ) Reducing sparseness in coded speech signals
US6122611A (en) * 1998-05-11 2000-09-19 Conexant Systems, Inc. Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise
CN1149534C (zh) * 1998-12-07 2004-05-12 三菱电机株式会社 声音解码装置和声音解码方法
JP3490324B2 (ja) * 1999-02-15 2004-01-26 日本電信電話株式会社 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JP3478209B2 (ja) * 1999-11-01 2003-12-15 日本電気株式会社 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
WO2001052241A1 (en) * 2000-01-11 2001-07-19 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
JP2001242896A (ja) * 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
US6529867B2 (en) * 2000-09-15 2003-03-04 Conexant Systems, Inc. Injecting high frequency noise into pulse excitation for low bit rate CELP
US6691085B1 (en) 2000-10-18 2004-02-10 Nokia Mobile Phones Ltd. Method and system for estimating artificial high band signal in speech codec using voice activity information
US7478042B2 (en) * 2000-11-30 2009-01-13 Panasonic Corporation Speech decoder that detects stationary noise signal regions
EP1339040B1 (en) * 2000-11-30 2009-01-07 Panasonic Corporation Vector quantizing device for lpc parameters
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP4657570B2 (ja) * 2002-11-13 2011-03-23 ソニー株式会社 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体
JP4365610B2 (ja) * 2003-03-31 2009-11-18 パナソニック株式会社 音声復号化装置および音声復号化方法
WO2005041170A1 (en) * 2003-10-24 2005-05-06 Nokia Corpration Noise-dependent postfiltering
JP4434813B2 (ja) * 2004-03-30 2010-03-17 学校法人早稲田大学 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
JP5189760B2 (ja) * 2006-12-15 2013-04-24 シャープ株式会社 信号処理方法、信号処理装置及びプログラム
JP5164970B2 (ja) * 2007-03-02 2013-03-21 パナソニック株式会社 音声復号装置および音声復号方法
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
CN101304261B (zh) * 2007-05-12 2011-11-09 华为技术有限公司 一种频带扩展的方法及装置
CN101308658B (zh) * 2007-05-14 2011-04-27 深圳艾科创新微电子有限公司 一种基于片上系统的音频解码器及其解码方法
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
CN100550133C (zh) * 2008-03-20 2009-10-14 华为技术有限公司 一种语音信号处理方法及装置
CN101582263B (zh) * 2008-05-12 2012-02-01 华为技术有限公司 语音解码中噪音增强后处理的方法和装置
WO2010003544A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft Zur Förderung Der Angewandtern Forschung E.V. An apparatus and a method for generating bandwidth extension output data
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
ES2681429T3 (es) * 2011-02-14 2018-09-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generación de ruido en códecs de audio

Also Published As

Publication number Publication date
KR20150032736A (ko) 2015-03-27
CN104584123B (zh) 2018-02-13
JPWO2014034697A1 (ja) 2016-08-08
EP2869299A1 (en) 2015-05-06
CN107945813A (zh) 2018-04-20
US20150194163A1 (en) 2015-07-09
EP2869299A4 (en) 2016-06-01
US9640190B2 (en) 2017-05-02
CN108053830B (zh) 2021-12-07
PL2869299T3 (pl) 2021-12-13
EP2869299B1 (en) 2021-07-21
WO2014034697A1 (ja) 2014-03-06
CN104584123A (zh) 2015-04-29
CN107945813B (zh) 2021-10-26
KR101629661B1 (ko) 2016-06-13
CN108053830A (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
JP6682683B2 (ja) 復号方法、コンピュータプログラム及び復号システム
TW497335B (en) Method and apparatus for variable rate coding of speech
JP6289508B2 (ja) ノイズフィリング概念
KR102217709B1 (ko) 노이즈 신호 처리 방법, 노이즈 신호 생성 방법, 인코더, 디코더, 및 인코딩/디코딩 시스템
JP2019074762A (ja) 信号分類方法および信号分類デバイス、ならびに符号化/復号化方法および符号化/復号化デバイス
JP6181773B2 (ja) Celp状コーダのためのサイド情報を用いないノイズ充填
RU2646357C2 (ru) Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием информации формирования речевого спектра
ES2881672T3 (es) Método de descodificación, aparato de descodificación, programa, y soporte de registro para ello
JP5544370B2 (ja) 符号化装置、復号装置およびこれらの方法
JP3578933B2 (ja) 重み符号帳の作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体
JP6001451B2 (ja) 符号化装置及び符号化方法
KR20100006491A (ko) 무성음 부호화 및 복호화 방법 및 장치
WO2004010416A1 (ja) 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体
JP2004151123A (ja) 符号変換方法、符号変換装置、プログラム及びその記憶媒体
Tosun Dynamically adding redundancy for improved error concealment in packet voice coding
Moreno Variable frame size for vector quantization and application to speech coding