ES2959667T3 - Dispositivo de procesamiento de señales de audio, método de procesamiento de señales de audio y programa de procesamiento de señales de audio - Google Patents

Dispositivo de procesamiento de señales de audio, método de procesamiento de señales de audio y programa de procesamiento de señales de audio Download PDF

Info

Publication number
ES2959667T3
ES2959667T3 ES19167229T ES19167229T ES2959667T3 ES 2959667 T3 ES2959667 T3 ES 2959667T3 ES 19167229 T ES19167229 T ES 19167229T ES 19167229 T ES19167229 T ES 19167229T ES 2959667 T3 ES2959667 T3 ES 2959667T3
Authority
ES
Spain
Prior art keywords
isf
audio
parameters
lsf
discontinuity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19167229T
Other languages
English (en)
Inventor
Kimitaka Tsutsumi
Kei Kikuiri
Atsushi Yamaguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Application granted granted Critical
Publication of ES2959667T3 publication Critical patent/ES2959667T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/135Vector sum excited linear prediction [VSELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0078Avoidance of errors by organising the transmitted data in a format specifically designed to deal with errors, e.g. location
    • H04L1/0085Formatting with cells
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Circuits Of Receivers In General (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

Un dispositivo de procesamiento de señales de audio comprende un detector de discontinuidad configurado para determinar la aparición de una discontinuidad a partir de un aumento repentino de una amplitud de audio decodificado obtenido al decodificar el primer paquete de audio que se recibe correctamente después de que se produzca una pérdida de paquete, y un corrector de discontinuidad. para corregir la discontinuidad del audio decodificado. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Dispositivo de procesamiento de señales de audio, método de procesamiento de señales de audio y programa de procesamiento de señales de audio
Campo técnico
La presente invención se refiere a un dispositivo de procesamiento de señales de audio, a un método de procesamiento de señales de audio y a un programa de procesamiento de señales de audio para procesar una señal de audio.
Técnica anterior
En la transmisión de una señal de audio codificada y paquetizada a través de una red de Internet con un teléfono de IP (protocolo de Internet), puede perderse un paquete debido a una congestión de la red o similares (este fenómeno se denominará a continuación en el presente documento “pérdida de paquete”). Con una aparición de una pérdida de paquete, se pierden códigos de audio necesarios dando como resultado un fallo en la decodificación de audio, provocando por tanto una discontinuidad de audio. Una tecnología para impedir una discontinuidad de audio provocada por una pérdida de paquete es una tecnología de ocultamiento de pérdida de paquete de audio. La tecnología de ocultamiento de pérdida de paquete de audio está diseñada para detectar una pérdida de paquete y generar una seudoseñal de audio correspondiente al paquete perdido (que se denominará a continuación en el presente documento “señal de ocultamiento”).
Cuando una técnica de codificación de audio usada es una técnica de realización de codificación de audio mientras se actualizan estados internos de codificador/decodificador, no se obtienen parámetros de codificación que van a recibirse originalmente y por tanto la tecnología de ocultamiento de pérdida de paquete de audio incluye realizar una actualización de los estados internos del decodificador mediante el uso también de parámetros artificialmente generados.
La codificación por CELP (predicción lineal con excitación por código) se usa ampliamente como técnica para realizar la codificación de audio mientras se actualizan los estados internos de codificador/decodificador. En la codificación por CELP, se supone un modelo autorregresivo, y se filtra una señal de excitación e(n) mediante un filtro de síntesis omnipolar a(i) para sintetizar una señal de audio. Concretamente, la señal de audio s(n) se sintetiza según la siguiente ecuación. En la siguiente ecuación, a(i) representa coeficientes de predicción lineal (coeficientes de LP (predicción lineal)) y el grado que va a usarse es un valor tal como P=16.
[Ecuación matemática 1]
En la codificación por CELP, los estados internos almacenados incluyen parámetros de ISF (frecuencia espectral de inmitancia) como representación matemáticamente equivalente de los coeficientes de predicción lineal, y una señal de excitación pasada. Con una aparición de una pérdida de paquete, éstos se generan artificialmente, y surge una desviación con respecto a los parámetros originales que se obtendrían mediante decodificación. Una incoherencia de un audio sintetizado provocada por una desviación de los parámetros se percibe como ruido por un oyente, lo cual degrada significativamente la calidad subjetiva.
Los siguientes párrafos describirán una configuración y un funcionamiento de un decodificador de audio para realizar el ocultamiento de pérdida de paquete de audio, usando un ejemplo en el que se usa la codificación por CELP como técnica de codificación de audio.
En la figura 1 y la figura 2 se muestran un diagrama de configuración y un funcionamiento del decodificador de audio. Tal como se muestra en la figura 1, un decodificador 1 de audio tiene un detector 11 de pérdida de paquete, un decodificador 12 de código de audio, un generador 13 de señal de ocultamiento y una memoria 14 intermedia de estados internos.
El detector 11 de pérdida de paquete, cuando recibe un paquete de audio correctamente, envía una señal de control, y códigos de audio incluidos en el paquete de audio, al decodificador 12 de código de audio (recepción normal: SÍ en la etapa S100 en la figura 2). Después de eso, el decodificador 12 de código de audio realiza la decodificación de los códigos de audio y la actualización de los estados internos tal como se describe a continuación (etapas S200 y S400 en la figura 2). Por otro lado, el detector 11 de pérdida de paquete, cuando no logra recibir un paquete de audio correctamente, envía una señal de control al generador 13 de señal de ocultamiento (pérdida de paquete: NO en la etapa S100 en la figura 2). Después de eso, el generador 13 de señal de ocultamiento genera una señal de ocultamiento y actualiza los estados internos tal como se describe a continuación (etapas S300 y S400 en la figura 2). Los procedimientos de etapas S100 a S400 en la figura 2 se repiten hasta el final de la comunicación (o hasta que la etapa S500 da como resultado una determinación de SÍ).
Los códigos de audio incluyen al menos parámetros de ISF codificados.
[Ecuación matemática 2]
retardos de altura Tjp codificados de las subtramas primera a cuarta, ganancias de libro de códigos adaptivas gjp codificadas de las subtramas primera a cuarta, ganancias de libro de códigos fijas gjc codificadas de las subtramas primera a cuarta, y vectores de libro de códigos fijos cj(n) codificados de las subtramas primera a cuarta. Los parámetros de ISF pueden sustituirse por parámetros de LSF (frecuencia espectral lineal) que son una representación matemáticamente equivalente de los mismos. Aunque la siguiente discusión usa los parámetros de ISF, la misma discusión también puede ser cierta para el caso de usar los parámetros de LSF.
La memoria intermedia de estados internos incluye parámetros de ISF pasados
[Ecuación matemática 3]
y, como representación equivalente de
[Ecuación matemática 4]
parámetros de ISP (par espectral de inmitancia)
[Ecuación matemática 5]
í
parámetros residuales de ISF
[Ecuación matemática 6]
s
retardos de altura Tjp pasados, ganancias de libro de códigos adaptivas gjp pasadas, ganancias de libro de códigos fijas glc pasadas, y un libro de códigos adaptativo u(n). Dependiendo de un principio de diseño, se determina cuántas subtramas de los parámetros pasados deben incluirse. En la presente memoria descriptiva se supone que una trama incluye cuatro subtramas, pero puede adoptarse otro valor dependiendo del principio de diseño.
<Caso de recepción normal>
La figura 3 muestra una configuración funcional a modo de ejemplo del decodificador 12 de código de audio. Tal como se muestra en esta figura 3, el decodificador 12 de código de audio tiene un decodificador 120 de ISF, un procesador 121 de estabilidad, un calculador 122 de coeficientes de LP, un calculador 123 de libro de códigos adaptativo, un decodificador 124 de libro de códigos fijo, un decodificador 125 de ganancia, un sintetizador 126 de vector de excitación, un filtro 127 posterior y un filtro 128 de síntesis. Sin embargo, debe observarse que el filtro 127 posterior no es un elemento constituyente indispensable. En la figura 3, por conveniencia para la explicación, la memoria 14 intermedia de estados internos se indica mediante una línea de puntos dobles dentro del decodificador 12 de código de audio. Sin embargo, la memoria 14 intermedia de estados internos no está incluida dentro del decodificador 12 de código de audio, sino que de hecho es la propia memoria 14 intermedia de estados internos mostrada en la figura 1. Lo mismo también es cierto en los diagramas de configuración del decodificador de código de audio a continuación en el presente documento.
En la figura 4 se muestra un diagrama de configuración del calculador 122 de coeficientes de LP y en la figura 5 se muestra un flujo de procesamiento del cálculo de coeficientes de LP a partir de los parámetros de ISF codificados. Tal como se muestra en la figura 4, el calculador 122 de coeficientes de LP tiene un convertidor 122A de ISF-ISP, un interpolador 122B de ISP y un convertidor 122C de ISP-LPC.
En primer lugar se describen una configuración funcional y su funcionamiento asociado con el procedimiento de calcular los coeficientes de LP a partir de los parámetros de ISF codificados (figura 5).
El decodificador 120 de ISF decodifica los parámetros de ISF codificados para obtener los parámetros residuales de ISF
[Ecuación matemática 7]
y calcula los parámetros de ISF
[Ecuación matemática 8]
según la siguiente ecuación (etapa S1 en la figura 5). En este caso, mediai representa vectores medios obtenidos por adelantado mediante aprendizaje o similar.
[Ecuación matemática 9]
En el presente documento se describe el ejemplo de usar una predicción de MA para el cálculo de los parámetros de ISF, pero también es posible adoptar una configuración para realizar el cálculo de los parámetros de<i>S<f>usando una predicción de AR tal como se describe a continuación. En este caso, los parámetros de ISF de la trama inmediatamente anterior se designan mediante
[Ecuación matemática 10]
y factores de peso de la predicción de AR mediante p.
[Ecuación matemática 11]
El procesador 121 de estabilidad realiza un procedimiento según la siguiente ecuación para poner una distancia de no menos de 50 Hz entre elementos de los parámetros de ISF con el fin de garantizar la estabilidad del filtro (etapa S2 en la figura 5). Los parámetros de ISF son indicativos de un espectro lineal que representa la forma de una envolvente de espectro de audio, y a medida que la distancia entre los mismos se vuelve más corta, los picos del espectro se vuelven más grandes, provocando resonancia. Por este motivo, el procedimiento para garantizar la estabilidad se vuelve necesario para prevenir que las ganancias se vuelvan demasiado grandes en los picos del espectro. En este caso, min_dist representa una distancia de ISF mínima, e isf_min representa un mínimo de ISF necesario para garantizar la distancia de min_dist. isf_min se actualiza sucesivamente añadiendo la distancia de min_dist a un valor de ISF vecina. Por otro lado, isf_max representa un máximo de ISF necesario para garantizar la distancia de min_dist. isf_max se actualiza sucesivamente restando la distancia de min_dist de un valor de ISF vecina.
[Ecuación matemática 12]
isf_min = min_dist = 50
para i = 0 a 14
isf min
isf max = 6400 - min dist
si ^14 > isf_max
para i = 14 hasta 1
isf max entonces *6 = isf max
isf_max =<* * 1>- min_dist
El convertidor 122A de ISF-ISP en el calculador 122 de coeficientes de LP convierte
[Ecuación matemática 13]
en parámetros de ISP
[Ecuación matemática 14]
según la siguiente ecuación (etapa S3 en la figura 5). En este caso, C es una constante determinada por adelantado.
[Ecuación matemática 15]
El interpolador 122B de ISP calcula los parámetros de ISP para las respectivas subtramas a partir de los parámetros de ISP pasados
[Ecuación matemática 16]
incluidos en la memoria 14 intermedia de estados internos y los parámetros de ISP anteriores
[Ecuación matemática 17]
según la siguiente ecuación (etapa S4 en la figura 5). Pueden usarse otros coeficientes para la interpolación.
[Ecuación matemática 18]
El convertidor 122C de ISP-LPC convierte los parámetros de ISP para las respectivas subtramas en coeficientes de LP
[Ecuación matemática 19]
(etapa S5 en la figura 5). Un procedimiento de conversión específico que va a usarse puede ser el procedimiento de procesamiento descrito en el documento no de patente 1. Se supone que el número de subtramas incluidas en una señal de anticipación es de 4 en el presente documento, pero el número de subtramas puede diferir, dependiendo del principio de diseño.
A continuación se describen otras configuraciones y funcionamientos en el decodificador 12 de código de audio. El calculador 123 de libro de códigos adaptativo decodifica retardos de altura codificados para calcular los retardos de altura TjP de las subtramas primera a cuarta. Después, el calculador 123 de libro de códigos adaptativo usa el libro de códigos adaptativo u(n) para calcular vectores de libro de códigos adaptativo para las respectivas subtramas según la siguiente ecuación. Los vectores de libro de códigos adaptativo se calculan interpolando el libro de códigos adaptativo u(n) mediante un filtro de FIR Int(i). En este caso, la longitud del libro de códigos adaptativo se designa mediante Nadapt. El filtro Int(i) usado para la interpolación es un filtro de FIR con una longitud predeterminada2l+ 1, y L' presenta el número de muestras de las subtramas. Usando el filtro de interpolación Int(i), pueden usarse los retardos de altura con una precisión de lugares decimales. Para los detalles del filtro de interpolación, puede consultarse el método descrito en el documento no de patente 1.
[Ecuación matemática 20]
El decodificador 124 de libro de códigos fijo decodifica los vectores de libro de códigos fijos codificados para adquirir los vectores de libro de códigos fijos cj(n) de las subtramas primera a cuarta.
El decodificador 125 de ganancia decodifica las ganancias de libro de códigos adaptivas codificadas y las ganancias de libro de códigos fijas codificadas para adquirir las ganancias de libro de códigos adaptivas y las ganancias de libro de códigos fijas de las subtramas primera a cuarta. Por ejemplo, la decodificación de las ganancias de libro de códigos adaptivas y las ganancias de libro de códigos fijas pueden llevarse a cabo, por ejemplo, mediante la siguiente técnica descrita en el documento no de patente 1. Dado que la siguiente técnica descrita en el documento no de patente 1 no usa la predicción intertramas tal como se usa en la codificación de ganancia de AMR-WB, puede potenciar la resistencia frente a la pérdida de paquete.
Por ejemplo, el decodificador 125 de ganancia adquiere la ganancia de libro de códigos fija según el siguiente flujo de procesamiento.
En primer lugar, el decodificador 125 de ganancia calcula la potencia del vector de libro de códigos fijo. En este caso, la longitud de la subtrama se define como Ns.
[Ecuación matemática 21]
A continuación, el decodificador 125 de ganancia decodifica el parámetro de ganancia cuantificado por vector para adquirir la ganancia de libro de códigos adaptativa
[Ecuación matemática 22]
y la ganancia de libro de códigos fija cuantificada
[Ecuación matemática 23]
Después calcula una ganancia de libro de códigos fija predictiva tal como se describe a continuación a partir de la ganancia de libro de códigos fija cuantificada y la potencia anteriormente mencionada del vector de libro de códigos fijo.
[Ecuación matemática 24]
Finalmente, el decodificador 125 de ganancia decodifica el coeficiente de predicción
[Ecuación matemática 25]
r<A>
y lo multiplica por la ganancia de predicción para adquirir la ganancia de libro de códigos fija.
[Ecuación matemática 26]
El sintetizador 126 de vector de excitación multiplica el vector de libro de códigos adaptativo por la ganancia de libro de códigos adaptativa y multiplica el vector de libro de códigos fijo por la ganancia de libro de códigos fija y calcula una suma de los mismos para adquirir una señal de excitación, tal como se expresa mediante la siguiente ecuación.
[Ecuación matemática 27]
El filtro 127 posterior somete los vectores de señal de excitación, por ejemplo, a procedimientos posteriores tales como procedimientos de potenciación de altura, potenciación de ruido y potenciación de baja frecuencia. La potenciación de altura, la potenciación de ruido y la potenciación de baja frecuencia pueden realizarse mediante el uso de las técnicas descritas en el documento no de patente 1.
El filtro 128 de síntesis sintetiza una señal decodificada con la señal de excitación como fuente de audio de accionamiento, mediante filtrado inverso por predicción lineal.
[Ecuación matemática 28]
Si se realiza un preénfasis en el codificador, se lleva a cabo un deénfasis.
[Ecuación matemática 29]
Por otro lado, si no se realiza un preénfasis en el codificador, no se lleva a cabo un deénfasis.
Los siguientes párrafos describirán el funcionamiento referente a una actualización de estados internos.
Con el fin de interpolar un parámetro tras una aparición de pérdida de paquete, el calculador 122 de coeficientes de LP actualiza los estados internos de los parámetros de ISF mediante vectores calculados mediante la siguiente ecuación.
[Ecuación matemática 30]
En este caso, roi(-j) representa los parámetros de ISF j tramas antes, que están almacenados en la memoria intermedia. roiC representa los parámetros de ISF en intervalos de habla obtenidos por adelantado mediante aprendizaje o similar. p es una constante y puede ser un valor de, por ejemplo, 0,75, al cual no está necesariamente limitado el valor. roiC y p pueden hacerse variar mediante un índice para expresar una propiedad de una trama objetivo de codificación, por ejemplo, como en el ocultamiento de ISF descrito en el documento no de patente 1. Además, el calculador 122 de coeficientes de LP también actualiza los estados internos de los parámetros residuales de ISF según la siguiente ecuación.
[Ecuación matemática 31]
El sintetizador 126 de vector de excitación actualiza los estados internos mediante los vectores de señal de excitación según la siguiente ecuación.
[Ecuación matemática 32]
u ( n ) ~ u ( n L )(0< n < N - L )
eí( í iN — L+] L )=e1(/?) (0^ T K Ü )
Además, el sintetizador 126 de vector de excitación actualiza los estados internos de los parámetros de ganancia mediante la siguiente ecuación.
[Ecuación matemática 33]
El calculador 123 de libro de códigos adaptativo actualiza los estados internos de los parámetros de los retardos de altura mediante la siguiente ecuación.
[Ecuación matemática 34]
J f ( - M U i - j ) _ r p j
P P
El intervalo de j se define como (-2 < j < Mla) pero pueden seleccionarse valores diferentes como intervalo de j, dependiendo del principio de diseño.
<Caso de pérdida de paquete>
La figura 6 muestra una configuración funcional a modo de ejemplo del generador 13 de señal de ocultamiento. Tal como se muestra en esta figura 6, el generador 13 de señal de ocultamiento tiene un interpolador 130 de coeficientes de LP, un interpolador 131 de retardo de altura, un interpolador 132 de ganancia, un generador 133 de señal de ruido, un filtro 134 posterior, un filtro 135 de síntesis, un calculador 136 de libro de códigos adaptativo y un sintetizador 137 de vector de excitación. Sin embargo, debe observarse que el filtro 134 posterior no es un elemento constituyente indispensable.
El interpolador 130 de coeficientes de LP calcula
[Ecuación matemática 35]
mediante la siguiente ecuación. Con respecto a esto, o¡('j) representa los parámetros de ISF j tramas antes, que están almacenados en la memoria intermedia.
[Ecuación matemática 36]
En esta ecuación
[Ecuación matemática 37]
representa los estados internos de los parámetros de ISF calculados tras la recepción normal de un paquete. a también es una constante y puede ser un valor de, por ejemplo, 0,9, al cual no está necesariamente limitado el valor.apuede hacerse variar mediante un índice para expresar una propiedad de una trama objetivo de codificación, por ejemplo, como en el ocultamiento de ISF descrito en el documento no de patente 1.
El procedimiento de obtener los coeficientes de LP a partir de los parámetros de ISF es el mismo que el realizado en el caso de recepción normal de un paquete.
El interpolador 131 de retardo de altura usa los parámetros de estados internos sobre los retardos de altura [Ecuación matemática 38]
para calcular valores predictivos de los retardos de altura
[Ecuación matemática 39]
Un procedimiento de procesamiento específico que va a usarse puede ser la técnica divulgada en el documento no de patente 1.
Con el fin de interpolar las ganancias de libro de códigos fijas, el interpolador 132 de ganancia puede usar la técnica según la siguiente ecuación tal como se describe en el documento no de patente 1.
[Ecuación matemática 40]
El generador 133 de señal de ruido genera ruido blanco para la misma longitud que los vectores de libro de códigos fijos y usa el ruido resultante para los vectores de libro de códigos fijos.
Los funcionamientos del filtro 134 posterior, el filtro 135 de síntesis, el calculador 136 de libro de códigos adaptativo y el sintetizador 137 de vector de excitación son los mismos que los del caso anteriormente mencionado de recepción normal de un paquete.
La actualización de estados internos es la misma que la realizada en el caso de recepción normal de un paquete, excepto por una actualización de los parámetros residuales de ISF. La actualización de los parámetros de<i>S<f>se lleva a cabo según la siguiente ecuación mediante el interpolador 130 de coeficientes de LP.
[Ecuación matemática 41]
.0 .0J .1 . -1<r ¡ = t > j ¡ —>m e d ia i — —
El documento de patente 3 proporciona una tecnología de ocultamiento de error que permite el ocultamiento de alta precisión de una pérdida de paquete en una señal transitoria.
Lista de referencias
Bibliografía de patente
Documento de patente 1: publicación internacional WO 2002/035520
Documento de patente 2: publicación internacional WO 2008/108080
Documento de patente 3: EP 2645366 A1
Bibliografía no de patente
Documento no de patente 1: ITU-T Recommendation G.718, junio de 2008
Sumario de la invención
Problema técnico
Tal como se describió anteriormente, dado que la codificación por CELP implica los estados internos, se produce una degradación de la calidad de audio debido a una desviación entre los parámetros obtenidos mediante interpolaciones implementadas tras una pérdida de paquete y los parámetros que se habrían usado para la decodificación. Particularmente, en cuanto a los parámetros de ISF, se lleva a cabo codificación predictiva intratramas/intertramas, y por tanto existe el problema de que una influencia por una pérdida de paquete continúa incluso después de la recuperación a partir de la pérdida de paquete.
Más específicamente, se identifica un problema de un aumento repentino de potencia en la primera trama tras la recuperación a partir de una pérdida de paquete que se produce en la proximidad de una porción de inicio de audio. Esto está provocado por el siguiente motivo: es decir, en la porción de inicio de audio en la que la potencia de la señal de excitación se vuelve alta, la respuesta de impulso de los coeficientes de LP calculada a partir de los coeficientes de ISF obtenidos mediante el procedimiento de interpolación tras una pérdida de paquete tiene una ganancia mayor que la que se habría esperado originalmente para el decodificador. Esto se percibe, según la norma de calidad subjetiva, como una discontinuidad de audio desagradable.
El método descrito en el documento de patente 1 genera los coeficientes de ISF interpolados para una trama perdida. Sin embargo, dado que los parámetros de ISF se generan mediante un procedimiento de decodificación normal para la primera trama tras la recuperación a partir de la pérdida, no logra suprimir el aumento repentino de potencia.
Por otro lado, el método descrito en el documento de patente 2 transmite un parámetro de ajuste de ganancia (potencia residual de predicción normalizada) obtenido en el lado de codificación y lo usa para un ajuste de potencia en el lado de decodificación, controlando así la potencia de la señal de excitación de una trama de paquete perdido y permitiendo la prevención del aumento repentino de potencia. El método descrito en el documento de patente 3 usa información auxiliar que indica cambios repentinos de potencia codificada y transmitida al decodificador usado para corrección de ocultamiento de error.
La figura 7 muestra una configuración funcional a modo de ejemplo de un decodificador 1X de audio implementado mediante la tecnología del documento de patente 2, y la figura 8 muestra una configuración funcional a modo de ejemplo de un generador 13X de señal de ocultamiento. En el documento de patente 2, un paquete de audio incluye información auxiliar de al menos una potencia residual de predicción normalizada además de los parámetros descritos en la técnica convencional.
Un decodificador 15 de potencia residual de predicción normalizada proporcionado en el generador 1X de señal de audio decodifica la información auxiliar de la potencia residual de predicción normalizada a partir de un paquete de audio recibido para calcular una potencia residual de predicción normalizada de referencia, y la emite al generador 13X de señal de ocultamiento.
Dado que los elementos constituyentes del generador 13X de señal de ocultamiento, aparte del ajustador 138 residual de predicción normalizado, son los mismos que aquellos en la tecnología convencional anteriormente mencionada, a continuación sólo se describirá el ajustador 138 residual de predicción normalizado.
El ajustador 138 residual de predicción normalizado calcula la potencia residual de predicción normalizada a partir de los coeficientes de LP emitidos por el interpolador 130 de coeficientes de LP. A continuación, el ajustador 138 residual de predicción normalizado calcula un coeficiente de ajuste de ganancia de filtro de síntesis, usando la potencia residual de predicción normalizada y la potencia residual de predicción normalizada de referencia. Finalmente, el ajustador 138 residual de predicción normalizado multiplica la señal de excitación por el coeficiente de ajuste de ganancia de filtro de síntesis y emite el resultado al filtro 135 de síntesis.
La tecnología anteriormente descrita del documento de patente 2 puede controlar la potencia de la señal de ocultamiento tras una aparición de una pérdida de paquete de la misma manera que se realiza en la recepción normal. Sin embargo, es difícil garantizar una tasa de transmisión de bits necesaria para la transmisión del parámetro de ajuste de ganancia anterior en el procedimiento de codificación de audio de baja tasa de transmisión de bits. Además, dado que es el procesamiento en el generador de señal de ocultamiento, resulta difícil enfrentarse a un cambio repentino de potencia provocado por un desacuerdo de los parámetros de ISF en una trama de recuperación.
Por tanto, un objetivo de la presente invención es reducir una discontinuidad de audio que puede producirse tras la recuperación a partir de una pérdida de paquete en el punto de partida de audio, y de ese modo mejorar la calidad subjetiva.
Solución al problema
Un dispositivo de procesamiento de señales de audio según una realización de la presente invención comprende: una unidad de procesamiento central, un detector de discontinuidad ejecutado por la unidad de procesamiento central para determinar una aparición de una discontinuidad que se produce con un aumento repentino de la amplitud de un audio decodificado obtenido mediante la decodificación de un primer paquete de audio que se recibe correctamente después de una aparición de una pérdida de paquete, y un corrector de discontinuidad configurado para mitigar el aumento repentino de amplitud del audio decodificado, en el que la unidad de procesamiento central ejecuta adicionalmente el corrector de discontinuidad para cambiar, según un resultado de determinación de una aparición del aumento repentino de amplitud, una distancia entre elementos de los parámetros de frecuencia espectral de inmitancia/frecuencia espectral lineal (lSF/LSF) de manera que las distancias son más anchas, obteniéndose los parámetros de ISF/LSF mediante la decodificación del primer paquete de audio.
El detector de discontinuidad puede determinar una aparición de una discontinuidad del audio decodificado con la potencia de una señal de excitación.
El detector de discontinuidad puede detectar una aparición de una discontinuidad del audio decodificado con ganancias de libro de códigos cuantificadas usadas para el cálculo de una señal de excitación.
El dispositivo de procesamiento de señales de audio puede comprender además: un decodificador de información auxiliar configurado para decodificar información auxiliar para la determinación en una aparición de una discontinuidad transmitida desde un codificador, y el detector de discontinuidad puede determinar una aparición de una discontinuidad del audio decodificado, usando la información auxiliar decodificada y emitida como un código de información auxiliar por el decodificador de información auxiliar.
El corrector de discontinuidad puede corregir parámetros de ISF o parámetros de LSF (denominados a continuación en el presente documento “parámetros de lSF/LSF”) según un resultado de determinación en una aparición de una discontinuidad.
Más específicamente, el corrector de discontinuidad puede cambiar una distancia entre elementos de los parámetros de lSF/LSF dados para asegurar la estabilidad de un filtro de síntesis, según un resultado de determinación en una aparición de una discontinuidad.
En este momento, el corrector de discontinuidad puede extender la distancia entre los elementos de los parámetros de lSF/LSF dados para asegurar la estabilidad del filtro de síntesis para volverse más grande que una distancia ordinaria dada para asegurar la estabilidad.
Para la distancia entre los elementos de los parámetros de lSF/LSF dados para asegurar la estabilidad del filtro de síntesis, el corrector de discontinuidad puede usar una distancia, que se obtiene dividiendo por igual los parámetros de ISF/LSF en aquellos de una longitud predeterminada.
Además, el corrector de discontinuidad puede sustituir una parte o la totalidad de los parámetros de ISF/LSF por vectores predeterminados.
Un dispositivo de procesamiento de señales de audio según una realización de la presente invención comprende: un cuantificador de lSF/LSF configurado para cuantificar parámetros de lSF/LSF de una señal de audio para generar parámetros de lSF/LSF cuantificados; un ocultador de lSF/LSF configurado para generar parámetros de lSF/LSF de ocultamiento representativos de información de ocultamiento sobre los parámetros de lSF/LSF; un detector de discontinuidad configurado para determinar una aparición de un aumento repentino de una amplitud de una señal de audio que se produce en un primer paquete de audio que se recibe correctamente después de una aparición de una pérdida de paquete, usando distancias entre los parámetros de lSF/LSF cuantificados obtenidos en el procedimiento de cuantificación por el cuantificador de lSF/LSF y los parámetros de lSF/LSF de ocultamiento generados por el ocultador de ISF/LSF para determinar una aparición del aumento repentino de la amplitud de la señal de audio; y un codificador de información auxiliar configurado para codificar información auxiliar indicativa de la determinación de la aparición del aumento repentino de la amplitud de la señal de audio.
Un dispositivo de procesamiento de señales de audio según un ejemplo comprende: un detector de discontinuidad configurado para determinar una aparición de una discontinuidad que se produce en un primer paquete de audio que se recibe correctamente después de una aparición de una pérdida de paquete; un codificador de información auxiliar configurado para codificar información auxiliar para la determinación en una aparición de una discontinuidad; y un cuantificador de ISF/LSF configurado para usar parámetros residuales de ISF/LSF pasados cuantificados para la cuantificación de ISF/LSF en una trama dada cuando el detector de discontinuidad no determina una aparición de una discontinuidad, y evita usar los parámetros residuales de ISF/LSF pasados cuantificados para la cuantificación de ISF/LSF en la trama dada cuando el detector de discontinuidad determina una aparición de una discontinuidad. Un dispositivo de procesamiento de señales de audio según un ejemplo comprende: un decodificador de información auxiliar configurado para decodificar y emitir información auxiliar para la determinación en una aparición de una discontinuidad que se produce en un primer paquete de audio que se recibe correctamente después de una aparición de una pérdida de paquete; un corrector de discontinuidad configurado para corregir la discontinuidad de un audio decodificado; y un decodificador de ISF/LSF configurado para usar parámetros residuales de ISF/LSF pasados cuantificados para el cálculo de ISF/LSF en una trama pertinente cuando la información auxiliar desde el decodificador de información auxiliar no indica una aparición de una discontinuidad, y evita usar los parámetros residuales de ISF/LSF pasados cuantificados para el cálculo de ISF/LSF en la trama pertinente cuando la información auxiliar desde el decodificador de información auxiliar indica una aparición de una discontinuidad.
El dispositivo de procesamiento de señales de audio puede adoptar una configuración en la que el dispositivo de procesamiento de señales de audio comprende además: un determinador de estado de recepción configurado para determinar estados de recepción de paquetes de un número predeterminado de tramas pasadas, el corrector de discontinuidad corrige también una discontinuidad basándose en un resultado de determinación de los estados de recepción de paquetes, además de un resultado de determinación en una aparición de una discontinuidad.
Ahora, el dispositivo de procesamiento de señales de audio según una realización de la presente invención puede tomarse como una invención asociada con un método de procesamiento de señales de audio, y como una invención asociada con un programa de procesamiento de señales de audio, y puede describirse como a continuación.
Un método de procesamiento de señales de audio según una realización de la presente invención es un método de procesamiento de señales de audio que va a ejecutarse mediante un dispositivo de procesamiento de señales de audio, que comprende las etapas según la reivindicación 1.
Un método de procesamiento de señales de audio según una realización de la presente invención es un método de procesamiento de señales de audio que va a ejecutarse mediante un dispositivo de procesamiento de señales de audio, que comprende las etapas según la reivindicación 7.
Un método de procesamiento de señales de audio según un ejemplo es un método de procesamiento de señales de audio que va a ejecutarse mediante un dispositivo de procesamiento de señales de audio, que comprende: una etapa de determinar una aparición de una discontinuidad que se produce en un primer paquete de audio que se recibe correctamente después de una aparición de una pérdida de paquete, una etapa de codificar información auxiliar para la determinación en una aparición de una discontinuidad, y una etapa de usar parámetros residuales de ISF/LSF pasados cuantificados para la cuantificación de ISF/LSF en una trama dada cuando no se determina una aparición de una discontinuidad, y evitar el uso de los parámetros residuales de ISF/LSF pasados cuantificados para la cuantificación de ISF/LSF en la trama pertinente cuando se determina una aparición de una discontinuidad.
Un método de procesamiento de señales de audio según un ejemplo es un método de procesamiento de señales de audio que va a ejecutarse mediante un dispositivo de procesamiento de señales de audio, que comprende: una etapa de decodificar y emitir información auxiliar para la determinación en una aparición de una discontinuidad de audio decodificado que se produce en un primer paquete de audio que se recibe correctamente después de una aparición de una pérdida de paquete; una etapa de corregir la discontinuidad de audio decodificado; y una etapa de usar parámetros residuales de<i>S<f>/LSF pasados cuantificados para el cálculo de ISF/LSF en una trama dada cuando la información auxiliar no indica una aparición de una discontinuidad, y evitar el uso de los parámetros residuales de ISF/LSF pasados cuantificados para el cálculo de ISF/LSF en la trama dada cuando la información auxiliar indica una aparición de una discontinuidad.
Un programa de procesamiento de señales de audio según un ejemplo es un programa de procesamiento de señales de audio que programa un ordenador para hacer que funcione como: un detector de discontinuidad que puede hacerse funcionar para determinar una aparición de una discontinuidad de audio decodificado que se produce con un aumento repentino de amplitud de un audio decodificado obtenido mediante la decodificación de un primer paquete de audio que se recibe correctamente después de una aparición de una pérdida de paquete; y un corrector de discontinuidad que puede hacerse funcionar para corregir la discontinuidad del audio decodificado.
Un programa de procesamiento de señales de audio según un ejemplo es un programa de procesamiento de señales de audio que programa un ordenador para hacer que funcione como: un cuantificador de ISF/LSF que puede hacerse funcionar para cuantificar parámetros de ISF/LSF; un ocultador de ISF/LSF que puede hacerse funcionar para generar parámetros de ocultamiento de ISF/LSF que son información de ocultamiento para los parámetros de ISF/LSF; un detector de discontinuidad que puede hacerse funcionar para determinar una aparición de una discontinuidad que se produce en un primer paquete de audio que se recibe correctamente después de una aparición de una pérdida de paquete, usando distancias entre los parámetros de ISF/LSF cuantificados obtenidos en un procedimiento de cuantificación del cuantificador de ISF/LSF y los parámetros de ocultamiento de ISF/LSF generados por el ocultador de ISF/LSF; y un codificador de información auxiliar que puede hacerse funcionar para codificar información auxiliar para la determinación en una aparición de una discontinuidad.
Un programa de procesamiento de señales de audio según un ejemplo es un programa de procesamiento de señales de audio que programa un ordenador para hacer que funcione como: un detector de discontinuidad que puede hacerse funcionar para determinar una aparición de una discontinuidad que se produce en un primer paquete de audio que se recibe correctamente después de una aparición de una pérdida de paquete; un codificador de información auxiliar que puede hacerse funcionar para codificar información auxiliar para la determinación en una aparición de una discontinuidad; y un cuantificador de ISF/LSF que puede hacerse funcionar para usar parámetros residuales de ISF/LSF pasados cuantificados para la cuantificación de ISF/LSF en una trama pertinente cuando el detector de discontinuidad no determina una aparición de una discontinuidad, y evita usar los parámetros residuales de ISF/LSF pasados cuantificados para la cuantificación de ISF/LSF en la trama pertinente cuando el detector de discontinuidad determina una aparición de una discontinuidad.
Un programa de procesamiento de señales de audio según un ejemplo es un programa de procesamiento de señales de audio que programa un ordenador para hacer que funcione como: un decodificador de información auxiliar que puede hacerse funcionar para decodificar y emitir información auxiliar para la determinación en una aparición de una discontinuidad de audio decodificado que se produce en un primer paquete de audio que se recibe correctamente después de una aparición de una pérdida de paquete; un corrector de discontinuidad que puede hacerse funcionar para corregir la discontinuidad de audio decodificado; y un decodificador de ISF/LSF que puede hacerse funcionar para usar parámetros residuales de ISF/LSF pasados cuantificados para el cálculo de<i>S<f>/LSF en una trama dada cuando la información auxiliar desde el decodificador de información auxiliar no indica una aparición de una discontinuidad, y evitar el uso de los parámetros residuales de ISF/LSF pasados cuantificados para el cálculo de lSF/LSF en la trama pertinente cuando la información auxiliar desde el decodificador de información auxiliar indica una aparición de una discontinuidad.
Efecto ventajoso de la invención
La presente invención tal como se describió anteriormente puede reducir una discontinuidad de audio que se produce posiblemente tras una recuperación a partir de una pérdida de paquete en el punto de partida de audio y por tanto mejorar la calidad subjetiva.
Breve descripción de los dibujos
La figura 1 es un diagrama de configuración del decodificador de audio.
La figura 2 es un flujo de procesamiento del decodificador de audio.
La figura 3 es un diagrama de configuración funcional del decodificador de código de audio.
La figura 4 es un diagrama de configuración funcional del calculador de coeficientes de LP.
La figura 5 es un flujo de procesamiento de cálculo de los coeficientes de LP.
La figura 6 es un diagrama de configuración funcional del generador de señal de ocultamiento.
La figura 7 es un diagrama de configuración del decodificador de audio del documento de patente 2.
La figura 8 es un diagrama de configuración funcional del generador de señal de ocultamiento del documento de patente 2.
La figura 9 es un diagrama de configuración funcional del decodificador de código de audio en una primera realización.
La figura 10 es un flujo de procesamiento del calculador de coeficientes de LP en la primera realización.
La figura 11 es un diagrama de configuración funcional del decodificador de código de audio en la primera realización.
La figura 12 es un flujo de procesamiento de un segundo procesador de estabilidad en el ejemplo de modificación 1 de la primera realización.
La figura 13 es un diagrama de configuración funcional del decodificador de código de audio en una segunda realización.
La figura 14 es un diagrama de configuración funcional del calculador de coeficientes de LP en la segunda realización.
La figura 15 es un flujo de procesamiento de cálculo de los coeficientes de LP en la segunda realización.
La figura 16 es un diagrama configuración de un codificador de audio en una cuarta realización. La figura 17 es un diagrama configuración del codificador de audio en la cuarta realización.
La figura 18 es un diagrama de configuración de un analizador/codificador de LP en la cuarta realización.
La figura 19 es un flujo de procesamiento del analizador/codificador de LP en la cuarta realización.
La figura 20 es un diagrama de configuración funcional del decodificador de código de audio en la cuarta realización. La figura 21 es un flujo de procesamiento del calculador de coeficientes de LP en la cuarta realización.
La figura 22 es un diagrama de configuración del analizador/codificador de LP en la quinta realización.
La figura 23 es un flujo de procesamiento del analizador/codificador de LP en la quinta realización.
La figura 24 es un diagrama de configuración funcional del decodificador de código de audio en la cuarta realización. La figura 25 es un flujo de procesamiento del calculador de coeficientes de LP en la quinta realización.
La figura 26 es un diagrama de configuración del decodificador de audio en la séptima realización.
La figura 27 es un flujo de procesamiento del decodificador de audio en la séptima realización.
La figura 28 es un diagrama de configuración funcional del decodificador de código de audio en la séptima realización.
La figura 29 es un flujo de procesamiento de cálculo de los coeficientes de LP en la séptima realización.
La figura 30 es un dibujo que muestra un ejemplo de configuración de hardware de un ordenador.
La figura 31 es un diagrama de aspecto del ordenador.
Las figuras 32 (a), (b), (c) y (d) son dibujos que muestran diversos ejemplos de programas de procesamiento de señales de audio.
Descripción de realizaciones
A continuación se describirán en detalle, usando los dibujos, realizaciones preferidas de un dispositivo de procesamiento de señales de audio, un método de procesamiento de señales de audio y un programa de procesamiento de señales de audio según la presente invención. Los mismos elementos se designarán mediante signos de referencia similares en la descripción de los dibujos para evitar descripciones repetidas.
[Primera realización]
El dispositivo de procesamiento de señales de audio en la primera realización tiene la misma configuración que el decodificador 1 de audio anteriormente mencionado mostrado en la figura 1 y tiene una nueva característica en el decodificador de código de audio, y por tanto a continuación se describirá el decodificador de código de audio. La figura 9 es un diagrama que muestra una configuración funcional de un decodificador 12A de código de audio en la primera realización, y la figura 10 muestra un diagrama de flujo del procedimiento de cálculo de coeficientes de LP. El decodificador 12A de código de audio mostrado en la figura 9 está configurado añadiendo un detector 129 de discontinuidad a la configuración anteriormente mencionada de la figura 3. Dado que la presente realización únicamente difiere de la tecnología convencional en el procedimiento de cálculo de coeficientes de LP, a continuación se describirán los funcionamientos de partes respectivas asociadas con el procedimiento de cálculo de coeficientes de LP.
Un detector 129 de discontinuidad consulta una ganancia de libro de códigos fija gc0 adquirida mediante decodificación y una ganancia de libro de códigos fija gc-1 incluida en los estados internos y compara un cambio de la ganancia con un umbral según la siguiente ecuación (etapa S11 en la figura 10).
[Ecuación matemática 42]
Cuando el cambio de ganancia supera el umbral, el detector detecta una aparición de una discontinuidad (también denominado a continuación en el presente documento simplemente como que “detecta una discontinuidad”) y emite una señal de control que indica un resultado de detección de una aparición de discontinuidad al procesador 121 de estabilidad.
La siguiente ecuación puede usarse para la comparación entre el cambio de ganancia y el umbral.
[Ecuación matemática 43]
S c - S c 1 > U m b -Además, la comparación entre el cambio de ganancia y el umbral puede realizarse mediante la siguiente ecuación, en la que un gc(c) representa el máximo entre las ganancias de libro de códigos fijas de las subtramas primera a cuarta incluidas en la trama actual y un gc(p) representa el mínimo entre las ganancias de libro de códigos fijas incluidas en los estados internos.
[Ecuación matemática 44]
También puede usarse la siguiente ecuación.
[Ecuación matemática 45]
El ejemplo anterior de la primera realización muestra un ejemplo en el que se lleva a cabo una detección de discontinuidad usando la ganancia de libro de códigos fija gc-1 de la cuarta subtrama de la trama inmediatamente anterior (trama perdida) y la ganancia de libro de códigos fija gc0 de la primera subtrama de la trama actual. Sin embargo, la comparación entre el cambio de ganancia y el umbral puede realizarse usando promedios calculados a partir de las ganancias de libro de códigos fijas incluidas en los estados internos y las ganancias de libro de códigos fijas incluidas en la trama actual.
El decodificador 120 de ISF realiza el mismo funcionamiento que en la tecnología convencional (etapa S12 en la figura 10).
El procesador 121 de estabilidad corrige los parámetros de ISF mediante el siguiente procedimiento cuando el detector 129 de discontinuidad detecta una discontinuidad (etapa S13 en la figura 10).
En primer lugar, el procesador 121 de estabilidad somete los parámetros de ISF
[Ecuación matemática 46]
almacenados en la memoria 14 intermedia de estados internos a un procedimiento de expansión de una distancia entre dos elementos adyacentes para que pase a ser M<-1>veces más ancha que la distancia habitual. El procedimiento de poner una distancia muy amplia en comparación con la distancia habitual proporciona un efecto de suprimir picos excesivos y valles en la envolvente de espectro. En este caso, min_dist representa la distancia de ISF mínima, y isf_min representa el mínimo de ISF necesario para garantizar la distancia de min_dist. isf_min se actualiza sucesivamente añadiendo la distancia de min_dist a un valor de ISF vecina. Por otro lado, isf_max es el máximo de ISF necesario para garantizar la distancia de min_dist. isf_max se actualiza sucesivamente restando la distancia de min_dist de un valor de ISF vecina.
[Ecuación matemática 47]
isf_min = min_dist = 50M-1
para i = 0 a 14
A - l
isf_min = > min_dist
isf max = 6400 - min dist
* —1
si > isf max
para i = 14 hasta 1
1(i<.>) -,<1 .>(i)-,<I>
; > isf max entonces ! = isf max
isf max =fíí.; ■ min dist
A continuación, un procesador 121 de estabilidad somete los parámetros de ISF de la trama actual a un procedimiento de expansión de una distancia entre dos elementos adyacentes para que pase a ser M<0>veces más ancha que la distancia habitual. En el presente documento se supone 1 < M<0>< M-<1>, pero también es posible establecer uno de M<-1>y M<0>a 1 y el otro a un valor mayor que 1.
[Ecuación matemática 48]
isf_min = min_dist = 50M0
para i = 0 a 14
sifft<.0>
r < isf min entoncesfft* = isf min
f i
isf_min =<1>
r min_dist
isf max = 6400 - min dist
- o
si ^14 > isf max
para i = 14 hasta 1
f f■lOf f i
si r > isf max entonces * = isf max
f f l
isf max = r - min dist
Además, el procesador 121 de estabilidad realiza el siguiente procedimiento de la misma manera en que se lleva a cabo en el procedimiento de decodificación habitual, cuando el detector de discontinuidad no detecta discontinuidad.
[Ecuación matemática 49]
isf_min = min_dist = 50
para i = 0 a 14
ff<.>i<0>ff\
si r < isf min entonces * = isf min
ffi
isf_min = r min_dist
isf_max = 6400 - min_dist
- o
si ^14 > isf max
para i = 14 hasta 1
f f l■O
si r > isf max entonces * = isf max
ffi ■
isf_max- i -min_d¡st
La distancia mínima puesta entre elementos cuando se detecta una discontinuidad puede hacerse variar dependiendo de la frecuencia de ISF. Sólo se necesita que la distancia mínima puesta entre elementos cuando se detecta una discontinuidad sea diferente de la distancia mínima puesta entre elementos en el procedimiento de decodificación habitual.
El convertidor 122A de ISF-ISP en el calculador 122 de coeficientes de LP convierte los parámetros de ISF [Ecuación matemática 50]
en los parámetros de ISP
[Ecuación matemática 51]
«3;. C 1
respectivamente, según la siguiente ecuación (etapa S14 en la figura 10). En este caso, C es una constante determinada por adelantado.
[Ecuación matemática 52]
El interpolador 122B de ISP calcula los parámetros de ISP para las respectivas subtramas a partir de los parámetros de ISP pasados
[Ecuación matemática 53]
y los parámetros de ISP anteriores
[Ecuación matemática 54]
según la siguiente ecuación (etapa S15 en la figura 10). Pueden usarse otros coeficientes para la interpolación.
[Ecuación matemática 55]
El convertidor 122C de ISP-LPC convierte los parámetros de ISP para las respectivas subtramas en los coeficientes de LP
[Ecuación matemática 56]
(etapa S16 en la figura 10). En este caso, se supone que el número de subtramas incluidas en una señal de anticipación es de 4, pero el número de subtramas puede diferir dependiendo del principio de diseño. Un procedimiento de conversión específico que va a usarse puede ser el procedimiento de procesamiento descrito en el documento no de patente 1.
Además, el convertidor 122A de ISF-ISP actualiza los parámetros de ISF almacenados en la memoria 14 intermedia de estados internos
[Ecuación matemática 57]
; t
según la siguiente ecuación.
[Ecuación matemática 58]
■ - O
0 ) i=& ¡
En este momento, aunque se detecte una discontinuidad, el convertidor 122A de ISF-ISP puede llevar a cabo el siguiente procedimiento para actualizar los parámetros de ISF
[Ecuación matemática 59]
almacenados en la memoria intermedia de estados internos, usando el resultado de cálculo de los parámetros de ISF.
[Ecuación matemática 60]
isf_min = min_dist = 50
para i = 0 a 14
.0
si r < isf min entonces * = isf min
isf_min =fftr min_dist
isf max = 6400 - min dist
- o
si ^14 > isf max
para i = 14 hasta 1
■O
si r > isf max entonces isf max
ffi ■
isf_max- i -min_d¡st
Como en la primera realización anterior, puede determinarse una discontinuidad de audio decodificado con las ganancias de libro de códigos cuantificadas usadas en el cálculo de la señal de excitación y pueden corregirse los parámetros de ISF/LSF (por ejemplo, la distancia entre elementos de los parámetros de ISF/LSF facilitados para garantizar la estabilidad del filtro de síntesis) según un resultado de la determinación para una discontinuidad. Esto reduce la discontinuidad de audio que puede producirse tras la recuperación a partir de una pérdida de paquete en el punto de partida de audio, y de ese modo mejora la calidad subjetiva.
[Ejemplo de modificación de la primera realización]
La figura 11 es un diagrama que muestra una configuración funcional de un decodificador 12S de código de audio según un ejemplo de modificación de la primera realización. Dado que únicamente difiere de la configuración de la tecnología convencional mostrada en la figura 3 en el detector 129 de discontinuidad y el segundo procesador 121S de estabilidad, se describirán los funcionamientos de los mismos. El segundo procesador 121S de estabilidad tiene un ajustador 121X de ganancia y un multiplicador 121Y de ganancia, y en la figura 12 se muestra un flujo de procesamiento del segundo procesador 121S de estabilidad.
El detector 129 de discontinuidad consulta la ganancia de libro de códigos fija gc0 obtenida mediante decodificación y la ganancia de libro de códigos fija gc-1 incluida en los estados internos y compara el cambio de ganancia con un umbral, de la misma manera que la realizada por el detector 129 de discontinuidad en la primera realización. Después, el detector 129 de discontinuidad envía al ajustador 121X de ganancia una señal de control que incluye información sobre si el cambio de ganancia supera el umbral.
El ajustador 121X de ganancia lee a partir de la señal de control la información sobre si el cambio de ganancia supera el umbral, y, cuando el cambio de ganancia supera el umbral, emite una ganancia predeterminada gactivada al multiplicador 121Y de ganancia. Por otro lado, cuando el cambio de ganancia no supera el umbral, el ajustador 121X de ganancia emite una ganancia predeterminada gdesactivada al multiplicador 121Y de ganancia. Este funcionamiento del ajustador 121X de ganancia corresponde a la etapa S18 en la figura 12.
El multiplicador 121Y de ganancia multiplica la señal sintetizada emitida a partir del filtro 128 de síntesis por la ganancia gactivada o la ganancia gdesactivada anteriores (etapa S19 en la figura 12) y emite la señal decodificada resultante.
En este caso, el decodificador de código de audio puede estar configurado de tal manera que el calculador 122 de coeficientes de LP emite los coeficientes de LP o los parámetros de ISF para alimentarlos al segundo procesador 121S de estabilidad (tal como se indica mediante una línea discontinua desde el calculador 122 de coeficientes de LP hasta el ajustador 121X de ganancia en la figura 11). En este caso, las ganancias que van a multiplicarse se determinan usando los coeficientes de LP o los parámetros de ISF calculados mediante el calculador 122 de coeficientes de LP.
Añadiendo el segundo procesador 121S de estabilidad al decodificador 12S de código de audio y ajustando la ganancia, dependiendo de si el cambio de ganancia supera el umbral tal como se describe en el ejemplo anterior de modificación, puede obtenerse una señal decodificada apropiada.
El segundo procesador 121S de estabilidad puede estar configurado para multiplicar la señal de excitación por la ganancia calculada anterior y emitir el resultado al filtro 128 de síntesis.
[Segunda realización]
Un dispositivo de procesamiento de señales de audio según la segunda realización tiene la misma configuración que la del decodificador 1 de audio anteriormente mencionado en la figura 1 y tiene una nueva característica en un decodificador de código de audio, y por tanto a continuación se describirá el decodificador de código de audio. La figura 13 muestra una configuración funcional a modo de ejemplo del decodificador 12B de código de audio, la figura 14 muestra una configuración funcional a modo de ejemplo asociada con el procedimiento de cálculo de los coeficientes de LP, y la figura 15 muestra un flujo del procedimiento de cálculo de los coeficientes de LP. El decodificador 12B de código de audio en la figura 13 está configurado añadiendo el detector 129 de discontinuidad a la configuración anteriormente mencionada mostrada en la figura 3.
El decodificador 120 de ISF calcula los parámetros de ISF de la misma manera que la realizada en la tecnología convencional (etapa S21 en la figura 15).
El procesador 121 de estabilidad realiza el procedimiento de poner una distancia de no menos de 50 Hz entre elementos de los parámetros de ISF
[Ecuación matemática 61]
con el fin de garantizar la estabilidad del filtro de la misma manera que la realizada en la tecnología convencional (etapa S22 en la figura 15).
El convertidor 122A de ISF-ISP convierte los parámetros de ISF emitidos por el procesador 121 de estabilidad en los parámetros de ISP de la misma manera que la realizada en la primera realización (etapa S23 en la figura 15).
El interpolador 122B de ISP, de la misma manera que la realizada en la primera realización (etapa S24 en la figura 15), calcula los parámetros de ISP para las respectivas subtramas a partir de los parámetros de ISP pasados [Ecuación matemática 62]
y los parámetros de ISP
[Ecuación matemática 63]
obtenidos mediante la conversión por el convertidor 122A de ISF-ISP.
El convertidor 122C de ISP-LPC, de la misma manera que la realizada en la primera realización (etapa S25 en la figura 15), convierte los parámetros de ISP para las respectivas subtramas en los coeficientes de LP.
[Ecuación matemática 64]
En este caso, se supone que el número de subtramas incluidas en la señal de anticipación es de 4, pero el número de subtramas puede diferir dependiendo del principio de diseño.
La memoria 14 intermedia de estados internos actualiza los parámetros de ISF almacenados en el pasado con los nuevos parámetros de ISF.
El detector 129 de discontinuidad lee los coeficientes de LP de la cuarta subtrama en la trama de paquete perdida a partir de la memoria 14 intermedia de estados internos y calcula la potencia de la respuesta de impulso de los coeficientes de LP de la cuarta subtrama en la trama de paquete perdida. Los coeficientes de LP de la cuarta subtrama en la trama de paquete perdida que van a usarse pueden ser los coeficientes emitidos por el interpolador 130 de coeficientes de LP incluido en el generador 13 de señal de ocultamiento mostrado en la figura 6 y acumulados en la memoria 14 intermedia de estados internos tras la pérdida de paquete.
[Ecuación matemática 65]
£ , = iO to s (£ l> > ))
Después, el detector 129 de discontinuidad detecta una discontinuidad, por ejemplo, mediante la siguiente ecuación (etapa S26 en la figura 15).
[Ecuación matemática 66]
Eo - E<-1>> Umbr.
Cuando el cambio de ganancia no supera el umbral (NO en la etapa S27 de la figura 15), el detector 129 de discontinuidad no detecta una aparición de una discontinuidad, y el convertidor 122C de ISP-LPC emite los coeficientes de LP y termina el procesamiento. Por otro lado, cuando el cambio de ganancia supera el umbral (SÍ en la etapa S27 de la figura 15), el detector 129 de discontinuidad detecta una aparición de una discontinuidad y envía una señal de control indicativa de un resultado de la detección para una aparición de una discontinuidad al procesador 121 de estabilidad. Cuando recibe la señal de control, el procesador 121 de estabilidad corrige los parámetros de ISP de la misma manera que la realizada en la primera realización (etapa S28 en la figura 15). Los funcionamientos posteriores del convertidor 122A de ISF-ISP, el interpolador 122B de ISP y el convertidor 122C de ISP-LPC (etapas S29, S2A y S2B en la figura 15) son los mismos que anteriormente.
Tal como se comentó en la segunda realización anterior, puede determinarse una discontinuidad de audio decodificado mediante la potencia de la señal de excitación, y se reduce el audio discontinuo para mejorar la calidad subjetiva de la misma manera que la realizada en la primera realización.
[Tercera realización]
Tras una detección de discontinuidad, los parámetros de ISF pueden corregirse mediante otro método. La tercera realización únicamente difiere de la primera realización en el procesador 121 de estabilidad, y por tanto sólo se describirá el funcionamiento del procesador 121 de estabilidad.
Cuando el detector 129 de discontinuidad detecta una discontinuidad, el procesador 121 de estabilidad realiza el siguiente procedimiento para corregir los parámetros de ISF.
Con respecto a los parámetros de ISF almacenados en la memoria 14 intermedia de estados internos,
[Ecuación matemática 67]
el procesador 121 de estabilidad sustituye los parámetros de ISF hasta una dimensión P' de orden bajo (0 < P' < P) según la siguiente ecuación. En este caso, se adopta la siguiente definición.
[Ecuación matemática 68]
El procesador 121 de estabilidad puede sobrescribir los parámetros de ISF de las dimensiones P' de orden bajo con vectores de dimensión P' obtenidos por adelantado mediante aprendizaje de la siguiente manera.
[Ecuación matemática 70]
A continuación, en cuanto a los parámetros de ISF de la trama actual, el procesador 121 de estabilidad puede realizar, tal como se realiza en la primera realización, el procedimiento de expandir la distancia entre elementos para que pase a ser Mo veces más ancha que la distancia habitual o puede determinarlos según la siguiente ecuación. En este caso, se adopta la siguiente definición.
[Ecuación matemática 71]
El procesador 121 de estabilidad puede sobrescribirlos con vectores de dimensión P' aprendidos por adelantado.
[Ecuación matemática 73]
Además, los anteriores vectores de dimensión P' pueden aprenderse en el procedimiento de decodificación o pueden definirse, por ejemplo, de la siguiente manera.
[Ecuación matemática 74]
Sin embargo, en una trama al comienzo de la decodificación, puede definirse o¡-1 como un vector de dimensión P' predeterminado roiinic
La memoria 14 intermedia de estados internos actualiza los parámetros de ISF almacenados en el pasado con los nuevos parámetros de ISF.
Tal como se comentó en la tercera realización anterior, la distancia obtenida dividiendo por igual los parámetros de ISF/LSF en aquellos de una dimensión predeterminada puede usarse como distancia entre elementos de los parámetros de ISF/LSF facilitados para garantizar la estabilidad del filtro de síntesis, mediante lo cual se reduce el audio discontinuo para mejorar la calidad subjetiva tal como se realizó en las realizaciones primera y segunda. [Cuarta realización]
Se describirá una cuarta realización en la que el lado de codificación detecta una aparición de una discontinuidad y transmite un código de determinación de discontinuidad (indicativo de un resultado de detección) como incluido en códigos de audio al lado de decodificación y también en la que el lado de decodificación determina el funcionamiento del procedimiento de estabilidad, basándose en el código de determinación de discontinuidad incluido en los códigos de audio.
(Con respecto al lado de codificación)
La figura 16 muestra una configuración funcional a modo de ejemplo del codificador 2, y la figura 17 es un diagrama de flujo que muestra los procedimientos realizados en el codificador 2. Tal como se muestra en la figura 16, el codificador 2 tiene un analizador/codificador 21 de LP, un codificador 22 residual y un multiplexador 23 de código. En la figura 18 se muestra una configuración funcional a modo de ejemplo del analizador/codificador 21 de LP entre los mismos, y en la figura 19 se muestra un diagrama de flujo que muestra los procedimientos realizados en el analizador/codificador 21 de LP. Tal como se muestra en la figura 18, el analizador/codificador 21 de LP tiene un analizador 210 de LP, un convertidor 211 de LP-ISF, un codificador 212 de ISF, un determinador 213 de discontinuidad, un ocultador 214 de ISF, un convertidor 215 de ISF-LP y una memoria 216 intermedia de ISF.
En el analizador/codificador 21 de LP, el analizador 210 de LP realiza un análisis de predicción lineal en una señal de entrada para obtener coeficientes de predicción lineal (etapa T41 en la figura 17 y etapa U41 en la figura 18). Para el cálculo de coeficientes de predicción lineal, en primer lugar se calcula una función de autocorrelación a partir de la señal de audio, y después puede aplicarse el algoritmo de Levinson-Durbin o similar.
El convertidor 211 de LP-ISF convierte los coeficientes de predicción lineal calculados en los parámetros de ISP de la misma manera que la realizada en la primera realización (etapas T42, U42). La conversión a partir de coeficientes de predicción lineal para dar parámetros de ISF puede implementarse mediante el uso del método descrito en la bibliografía no de patentes.
El codificador 212 de ISF codifica los parámetros de ISF usando un método predeterminado para calcular códigos de ISF (etapas T43, U43) y emite parámetros de ISF cuantificados obtenidos en el procedimiento de codificación al determinador 213 de discontinuidad, al ocultador 214 de ISF y al convertidor 215 de ISF-LP (etapa U47). En este caso, los parámetros de ISF cuantificados son iguales a los parámetros de ISF obtenidos mediante una cuantificación inversa de los códigos de ISF. Un método de codificación puede ser codificación por vectores o codificación mediante una cuantificación por vectores o similar de vectores de error a partir de ISF de la trama inmediatamente anterior y vectores medios determinados por adelantado mediante aprendizaje.
El determinador 213 de discontinuidad codifica un indicador de determinación de discontinuidad almacenado en una memoria intermedia interna (no mostrada) incorporada en el determinador 213 de discontinuidad y emite un código de determinación de discontinuidad resultante (etapa U47). Además, el determinador 213 de discontinuidad usa parámetros de ISF de ocultamiento
[Ecuación matemática 75]
leídos a partir de la memoria 216 intermedia de ISF y los parámetros de ISF cuantificados
[Ecuación matemática 76]
para producir una determinación sobre una discontinuidad según la siguiente ecuación (etapas T44, U46). En este caso, Urnbrm representa un umbral determinado por adelantado, y P' un número entero que satisface la siguiente ecuación (0 < P' < P).
[Ecuación matemática 77]
Anteriormente se describió el ejemplo en el que la determinación de discontinuidad se realiza usando las distancias euclídeas entre los parámetros de ISF. Sin embargo, la determinación de discontinuidad puede realizarse mediante otros métodos.
El ocultador 214 de ISF calcula los parámetros de ISF de ocultamiento a partir de los parámetros de ISF cuantificados mediante el mismo procedimiento que el realizado por el ocultador de ISF de lado de decodificador y emite los parámetros de ISF de ocultamiento resultantes a la memoria 216 intermedia de ISF (etapas U44, U45). El funcionamiento del procedimiento de ocultamiento de ISF puede realizarse mediante cualquier método siempre que sea el mismo procedimiento que el del ocultador de pérdida de paquete de lado de decodificador.
El convertidor 215 de ISF-LP calcula coeficientes de predicción lineal cuantificados convirtiendo los parámetros de ISF cuantificados anteriores y emite unos coeficientes de predicción lineal cuantificados resultantes al codificador 22 residual (etapa T45). Un método usado para convertir los parámetros de ISF en los coeficientes de predicción lineal cuantificados puede ser el método descrito en la bibliografía no de patente.
El codificador 22 residual filtra la señal de audio mediante el uso de los coeficientes de predicción lineal cuantificados para calcular señales residuales (etapa T46).
A continuación, el codificador 22 residual codifica las señales residuales mediante medios de codificación usando CELP o TCX (excitación codificada de transformada) o mediante medios de codificación que usan de manera conmutable CELP y TCX y emite códigos residuales resultantes (etapa T47). Dado que el funcionamiento del codificador 22 residual es menos relevante para la presente invención, se omite la descripción del mismo en el presente documento.
El multiplexador 23 de código ensambla los códigos de ISF, el código de determinación de discontinuidad y los códigos residuales en un orden predeterminado y emite códigos de audio resultantes (etapa T48).
(Con respecto al lado de decodificación)
Un dispositivo de procesamiento de señales de audio según la cuarta realización tiene la misma configuración que la del decodificador 1 de audio anteriormente mencionado en la figura 1 y tiene una nueva característica en el decodificador de código de audio, y por tanto a continuación se describirá el decodificador de código de audio. La figura 20 muestra una configuración funcional a modo de ejemplo de un decodificador 12D de código de audio, y la figura 21 es un diagrama de flujo que muestra el procedimiento de calcular los coeficientes de LP. El decodificador 12D de código de audio mostrado en la figura 20 está configurado añadiendo el detector 129 de discontinuidad a la configuración anteriormente mencionada mostrada en la figura 3.
El decodificador 120 de ISF decodifica los códigos de ISF y emite códigos resultantes al procesador 121 de estabilidad y la memoria 14 intermedia de estados internos (etapa S41 en la figura 21).
El detector 129 de discontinuidad decodifica el código de determinación de discontinuidad y emite un resultado de detección de discontinuidad resultante al procesador 121 de estabilidad (etapa S42 en la figura 21).
El procesador 121 de estabilidad realiza el procedimiento de estabilidad según el resultado de detección de discontinuidad (etapa S43 en la figura 21). El procedimiento de procesamiento del procesador de estabilidad que va a usarse puede ser el mismo método que el ejecutado en la primera realización y la tercera realización.
El procesador 121 de estabilidad puede realizar el procedimiento de estabilidad tal como se describe a continuación, basándose en otros parámetros incluidos en los códigos de audio, además del resultado de detección de discontinuidad adquirido a partir del código de determinación de discontinuidad. Por ejemplo, el procesador 121 de estabilidad puede estar configurado para realizar el procedimiento de estabilidad de tal manera que se calcula una estabilidad de ISF estab. según la siguiente ecuación y que cuando la estabilidad de ISF supera un umbral, aunque el código de determinación de discontinuidad muestre una detección de una discontinuidad, se realiza el procedimiento como si no se detectara ninguna discontinuidad. En este caso, C es una constante determinada por adelantado.
[Ecuación matemática 78]
El convertidor 122A de ISF-ISP en el calculador 122 de coeficientes de LP convierte los parámetros de ISF en los parámetros de ISP mediante el mismo procedimiento de procesamiento que el realizado en la primera realización (etapa S44 en la figura 21).
El interpolador 122B de ISP calcula los parámetros de ISP para las respectivas subtramas mediante el mismo procedimiento de procesamiento que el realizado en la primera realización (etapa S45 en la figura 21).
El convertidor 122C de ISP-LPC convierte los parámetros de ISP calculados para las respectivas subtramas en los parámetros de LPC mediante el mismo procedimiento de procesamiento que el realizado en la primera realización (etapa S46 en la figura 21).
En la cuarta realización tal como se describió anteriormente, el lado de codificación realiza la determinación de discontinuidad (la determinación de discontinuidad usando las distancias euclídeas entre parámetros de ISF de ocultamiento y parámetros de ISF cuantificados, como ejemplo) codifica información auxiliar sobre un resultado de la determinación y emite información codificada al lado de decodificación, y el lado de decodificación determina una discontinuidad usando la información auxiliar obtenida mediante decodificación. De esta manera, el procesamiento apropiado puede ejecutarse según el resultado de determinación de discontinuidad realizado por el lado de codificación mientras que el lado de codificación y el lado de decodificación funcionan de manera sincronizada entre sí.
[Quinta realización]
(Con respecto al lado de codificación)
La configuración funcional del codificador es la misma que la de la cuarta realización mostrada en la figura 16, y el flujo de procesamiento del codificador es el mismo que el flujo de procesamiento de la cuarta realización mostrada en la figura 17. A continuación se describirá el analizador/codificador de LP según la quinta realización que es diferente del de la cuarta realización.
La figura 22 muestra una configuración funcional a modo de ejemplo del analizador/codificador de LP, y la figura 23 muestra un flujo de los procedimientos realizados por el analizador/codificador de LP. Tal como se muestra en la figura 22, el analizador/codificador 21 de LPS tiene el analizador 210 de LP, el convertidor 211 de LP-ISF, el codificador 212 de ISF, el determinador 213 de discontinuidad, el ocultador 214 de ISF, el convertidor 215 de ISF-LP y la memoria 216 intermedia de ISF.
En este analizador/codificador 21 de LPS, el analizador 210 de LP realiza el análisis de predicción lineal en la señal de entrada mediante el mismo procedimiento que el realizado en la cuarta realización para obtener los coeficientes de predicción lineal (etapa U51 en la figura 23).
El convertidor 211 de LP-ISF convierte los coeficientes de predicción lineal calculados en los parámetros de ISF mediante el mismo procedimiento que el realizado en la cuarta realización (etapa U52 en la figura 23). El método descrito en la bibliografía no de patente puede usarse para la conversión a partir de los coeficientes de predicción lineal en los parámetros de ISF.
El codificador 212 de ISF lee el indicador de determinación de discontinuidad almacenado en la memoria intermedia interna (no mostrada) del determinador 213 de discontinuidad (etapa U53 en la figura 23).
<Caso en el que el indicador de determinación de discontinuidad indica detección de discontinuidad>
El codificador 212 de ISF calcula los códigos de ISF mediante cuantificación por vectores de parámetros residuales de ISF ri calculados mediante la siguiente ecuación (etapa U54 en la figura 23). En este caso, los parámetros de ISF calculados mediante el convertidor de LP-ISF se designan mediante ro¡ y los vectores medios, que son mediai, obtenidos por adelantado mediante aprendizaje.
[Ecuación matemática 79]
ri =<w>¡ - mediai
A continuación, el codificador 212 de ISF usa los parámetros residuales de ISF cuantificados
[Ecuación matemática 80]
obtenidos mediante la cuantificación de los parámetros residuales de ISF r para actualizar la memoria intermedia de parámetros residuales de ISF según la siguiente ecuación (etapa U55 en la figura 23).
[Ecuación matemática 81]
<Caso en el que el indicador de determinación de discontinuidad no indica detección de discontinuidad>
El codificador 212 de ISF calcula los códigos de ISF mediante cuantificación por vectores de los parámetros residuales de ISF ri calculados mediante la siguiente ecuación (etapa U54 en la figura 23). En este caso, los parámetros residuales de ISF obtenidos mediante decodificación en la trama inmediatamente anterior se designan de la siguiente manera.
[Ecuación matemática 82]
A continuación, el codificador 212 de ISF usa los parámetros residuales de ISF cuantificados
[Ecuación matemática 84]
obtenidos mediante cuantificación de los parámetros residuales de ISF r para actualizar la memoria intermedia de parámetros residuales de ISF según la siguiente ecuación (etapa U55 en la figura 23).
[Ecuación matemática 85]
Mediante el procedimiento anterior, el codificador 212 de ISF calcula los códigos de ISF y emite parámetros de ISF cuantificados obtenidos en el procedimiento de codificación al determinador 213 de discontinuidad, al ocultador 214 de ISF y al convertidor 215 de ISF-LP.
El ocultador 214 de ISF calcula los parámetros de ISF de ocultamiento a partir de los parámetros de ISF cuantificados mediante el mismo procedimiento que el realizado por el ocultador de ISF de lado de decodificador de la misma manera que se ejecuta en la cuarta realización y los emite a la memoria 216 intermedia de ISF (etapas U56, U58 en la figura 23). El funcionamiento del procedimiento de ocultamiento de ISF puede realizarse mediante cualquier método siempre que sea el mismo procedimiento que el del ocultador de pérdida de paquete de lado de decodificador.
El determinador 213 de discontinuidad realiza una determinación de una discontinuidad mediante el mismo procedimiento que el realizado en la cuarta realización y almacena un resultado de determinación en la memoria intermedia interna (no mostrada) del determinador 213 de discontinuidad (etapa U57 en la figura 23).
El convertidor 215 de ISF-LP convierte los parámetros de ISF cuantificados, de la misma manera que la realizada en la cuarta realización, para calcular los coeficientes de predicción lineal cuantificados y los emite al codificador 22 residual (figura 16) (etapa U58 en la figura 23).
(Con respecto al lado de decodificación)
Un dispositivo de procesamiento de señales de audio según la quinta realización tiene la misma configuración que la del decodificador 1 de audio anteriormente mencionado en la figura 1 y tiene una nueva característica en el decodificador de código de audio, y por tanto a continuación se describirá el decodificador de código de audio. La figura 24 muestra una configuración funcional a modo de ejemplo del decodificador 12E de código de audio, y la figura 25 muestra un flujo del procedimiento de cálculo realizado por los coeficientes de LP. El decodificador 12E de código de audio mostrado en la figura 24 está configurado añadiendo el detector 129 de discontinuidad a la configuración anteriormente mencionada mostrada en la figura 3.
El detector 129 de discontinuidad decodifica el código de determinación de discontinuidad y emite el indicador de determinación de discontinuidad resultante al decodificador 120 de ISF (etapa S51 en la figura 25).
El decodificador 120 de ISF calcula los parámetros de ISF de la siguiente manera, dependiendo del valor del indicador de determinación de discontinuidad, y emite los parámetros de ISF al procesador 121 de estabilidad ya la memoria 14 intermedia de estados internos (etapa S52 en la figura 25).
<Caso en el que el indicador de determinación de discontinuidad indica detección de discontinuidad>
El decodificador 120 de ISF usa los parámetros residuales de ISF cuantificados
[Ecuación matemática 86]
obtenidos mediante decodificación de los códigos de ISF, y los vectores medios mediai obtenidos por adelantado mediante aprendizaje para obtener los parámetros de ISF cuantificados
[Ecuación matemática 87]
según la siguiente ecuación.
[Ecuación matemática 88]
á ii=m edia-i ~*'¿
A continuación, el decodificador 120 de ISF actualiza los parámetros residuales de ISF almacenados en la memoria 14 intermedia de estados internos según la siguiente ecuación.
[Ecuación matemática 89]
<Caso en el que el indicador de determinación de discontinuidad no indica detección de discontinuidad>
El decodificador 120 de ISF lee, a partir de la memoria 14 intermedia de estados internos, los parámetros residuales de ISF
[Ecuación matemática 90]
obtenidos mediante decodificación de la trama inmediatamente anterior y usa los parámetros residuales de ISF resultantes
[Ecuación matemática 91]
3
los vectores medios mediai obtenidos por adelantado mediante aprendizaje y los parámetros residuales de ISF cuantificados
[Ecuación matemática 92]
obtenidos mediante decodificación de los códigos de ISF para calcular los parámetros de ISF cuantificados [Ecuación matemática 93]
según la siguiente ecuación.
[Ecuación matemática 94]
A continuación, el decodificador 120 de ISF actualiza los parámetros residuales de ISF almacenados en la memoria 14 intermedia de estados internos según la siguiente ecuación.
[Ecuación matemática 95]
El procesador 121 de estabilidad realiza el mismo procedimiento que el realizado en la primera realización (etapa S53 en la figura 25) cuando no se detecta una discontinuidad.
El convertidor 122A de ISF-ISP en el calculador 122 de coeficientes de LP convierte los parámetros de ISF en los parámetros de ISP mediante el mismo procedimiento de procesamiento tal como se describe en la primera realización (etapa S54 en la figura 25).
El interpolador 122B de ISP calcula los parámetros de ISP para las respectivas subtramas mediante el mismo procedimiento de procesamiento que el realizado en la primera realización (etapa S55 en la figura 25).
El convertidor 122C de ISP-LPC, mediante el mismo procedimiento de procesamiento que el realizado en la primera realización (etapa S56 en la figura 25), convierte los parámetros de ISP calculados para las respectivas subtramas en los parámetros de LPC.
En la quinta realización tal como se describió anteriormente, el lado de codificación está configurado de la siguiente manera: cuando el indicador de determinación de discontinuidad no indica una detección de una discontinuidad, la cuantificación por vectores de los parámetros residuales de ISF se lleva a cabo usando los parámetros residuales de ISF obtenidos mediante decodificación de la trama inmediatamente anterior. Por otro lado, cuando el indicador de determinación de discontinuidad indica una detección de una discontinuidad, el codificador evita usar los parámetros residuales de ISF obtenidos mediante decodificación de la trama inmediatamente anterior. De manera similar, el lado de decodificación está configurado de la siguiente manera: cuando el indicador de determinación de discontinuidad no indica una detección de una discontinuidad, los parámetros de ISF cuantificados se calculan usando los parámetros residuales de ISF obtenidos mediante decodificación de la trama inmediatamente anterior. Por otro lado, cuando el indicador de determinación de discontinuidad indica una detección de discontinuidad, el decodificador evita usar los parámetros residuales de ISF obtenidos mediante decodificación de la trama inmediatamente anterior. De esta manera, puede ejecutarse el procesamiento apropiado según un resultado de determinación de discontinuidad mientras que el lado de codificación y el lado de decodificación funcionan de manera sincronizada entre sí.
[Sexta realización]
Las realizaciones primera a quinta anteriores pueden aplicarse en combinación. Por ejemplo, tal como se describe en la cuarta realización, el lado de decodificación decodifica el código de determinación de discontinuidad incluido en los códigos de audio procedentes del lado de codificación para detectar una discontinuidad. Cuando se detecta una discontinuidad, puede llevarse a cabo el siguiente funcionamiento posterior.
Para los parámetros de ISF
[Ecuación matemática 96]
almacenados en la memoria intermedia de estados internos, los parámetros de ISF hasta la dimensión P' de grado bajo (0 < P' <P) se sustituyen según la siguiente ecuación tal como se describió en la tercera realización.
[Ecuación matemática 97]
Por otro lado, los parámetros de ISF de la trama actual se calculan según la siguiente ecuación tal como se describió en la quinta realización.
[Ecuación matemática 98]
¿Ej ¿ =m e d i a - i —r ¡
Después de eso, usando los parámetros de ISF obtenidos tal como se describió anteriormente, los coeficientes de LP se obtienen mediante los procedimientos del convertidor 122A de ISF-ISP, el interpolador 122B de ISP y el convertidor 122C de ISP-LPC tal como se realiza en la primera realización.
También es eficaz adoptar combinaciones opcionales de las realizaciones primera a quinta tal como se describió anteriormente.
[Séptima realización]
En el funcionamiento de decodificación según las realizaciones primera a sexta anteriores y sus modificaciones, puede tenerse en cuenta cómo se pierde trama (por ejemplo, si se pierde una única trama o se pierden tramas consecutivas). En la séptima realización, es suficiente con que se realice una detección de discontinuidad usando, por ejemplo, el resultado de decodificación del código de determinación de discontinuidad incluido en los códigos de audio, y el método de cómo debe realizarse esto no se limita a lo anterior.
Un dispositivo de procesamiento de señales de audio según la séptima realización tiene la misma configuración que la del decodificador 1 de audio anteriormente mencionado en la figura 1 y tiene una nueva característica en el decodificador de código de audio, y por tanto a continuación se describirá el decodificador de código de audio. La figura 26 muestra una configuración a modo de ejemplo del decodificador 1S de audio según la séptima realización, y la figura 27 muestra un diagrama de flujo de los procedimientos realizados en el decodificador de audio. Tal como se muestra en la figura 26, además del decodificador 12G de código de audio, el generador 13 de señal de ocultamiento y la memoria 14 intermedia de estados internos anteriormente mencionados, el decodificador 1S de audio tiene un determinador 16 de estado de recepción que determina estados de recepción de paquetes en algunas tramas pasadas y almacena un historial de pérdida de paquetes.
El determinador 16 de estado de recepción determina un estado de recepción de paquete y actualiza la información de historial de pérdida de paquetes, basándose en un resultado de determinación (etapa S50 en la figura 27).
Cuando se detecta una pérdida de paquete (NO en la etapa S100), el determinador 16 de estado de recepción emite un resultado de detección de pérdida de paquete de la trama pertinente al generador 13 de señal de ocultamiento, y el generador 13 de señal de ocultamiento genera la señal de ocultamiento tal como se describió anteriormente y actualiza los estados internos (etapas S300, S400). El generador 13 de señal de ocultamiento también puede usar la información de historial de pérdida de paquetes para la interpolación de parámetros o similar.
Por otro lado, cuando no se detecta pérdida de paquete (SÍ en la etapa S100), el determinador 16 de estado de recepción emite la información de historial de pérdida de paquetes que incluye un resultado de detección de pérdida de paquete de la trama pertinente y los códigos de audio incluidos en el paquete recibido al decodificador 12 de código de audio, y el decodificador 12 de código de audio decodifica los códigos de audio tal como se describió anteriormente y actualiza los estados internos (etapas S200, S400).
Después de eso, se repiten los procedimientos de etapas S50 a S400 hasta que termina la comunicación (o hasta que la etapa S500 da como resultado una determinación de SÍ).
La figura 28 muestra una configuración funcional a modo de ejemplo del decodificador 12G de código de audio, y la figura 29 muestra un diagrama de flujo de los procedimientos de cálculo realizados por los coeficientes de LP. A continuación se describirá un ejemplo usando la información de historial de pérdida de paquetes únicamente para el calculador 122 de coeficientes de Lp , pero el decodificador de código de audio puede estar configurado para usar la información de historial de pérdida de paquetes para otros elementos constituyentes.
Dado que el decodificador 12G de código de audio tiene la misma configuración tal como se describió en la primera realización, excepto por la configuración asociada con el procedimiento de cálculo de coeficientes de LP, a continuación se describirá la configuración y su funcionamiento asociado con el procedimiento de cálculo de coeficientes de LP.
El decodificador 120 de ISF decodifica los códigos de ISF de la misma manera que la realizada en la primera realización y emite los parámetros de ISF al procesador 121 de estabilidad (etapa S71 en la figura 29).
El detector 129 de discontinuidad consulta la información de historial de pérdida de paquetes para determinar el estado de recepción (etapa S72). El detector 129 de discontinuidad puede estar diseñado, por ejemplo, de la siguiente manera: almacena un patrón de recepción específico que indica, por ejemplo, una pérdida de paquete producida tres tramas antes, una recepción normal producida dos tramas antes, y una pérdida de paquete producida una trama antes. Cuando se reconoce el patrón de recepción que se ha estado buscando, establece un indicador de estado de recepción a desactivado y, de lo contrario, establece el indicador de estado de recepción a activado.
Además, el detector 129 de discontinuidad detecta una discontinuidad de la misma manera tal como se describió en una de las realizaciones primera a sexta.
Después, el procesador 121 de estabilidad realiza el procedimiento de estabilidad según el indicador de estado de recepción y un resultado de la detección de discontinuidad, por ejemplo, tal como se describe a continuación (etapa S73).
Cuando el indicador de estado de recepción está desactivado, el procesador 121 de estabilidad realiza el mismo procedimiento que el realizado cuando no se detecta una discontinuidad, independientemente de un resultado de la detección de discontinuidad.
Por otro lado, cuando el indicador de recepción está activado y cuando el resultado de la detección de discontinuidad indica que no se detecta una discontinuidad, el procesador 121 de estabilidad realiza el mismo procedimiento que el realizado cuando no se detecta una discontinuidad.
Además, cuando el indicador de recepción está activado y cuando el resultado de la detección de discontinuidad es detección de discontinuidad, el procesador 121 de estabilidad realiza el mismo procedimiento que el realizado cuando se detecta una discontinuidad.
Después de eso, se realizan los funcionamientos (etapas S74 a S76) del convertidor 122A de ISF-ISP, el interpolador 122B de ISP y el convertidor 122C de ISP-LPC en el calculador 122 de coeficientes de LP de las mismas maneras que las realizadas en la primera realización.
En la séptima realización tal como se describió anteriormente, el procedimiento de estabilidad se lleva a cabo dependiendo de un resultado de la detección de discontinuidad y del estado del indicador de estado de recepción, mediante lo cual puede ejecutarse un procesamiento más preciso mientras que se tiene en cuenta cómo se pierde la trama (por ejemplo, si se pierde una única trama o se pierden tramas consecutivas).
[Con respecto a programas de procesamiento de señales de audio]
A continuación se describirán programas de procesamiento de señales de audio que programan un ordenador para que funcione como un dispositivo de procesamiento de señales de audio según la presente invención.
La figura 32 es un dibujo que muestra diversas configuraciones a modo de ejemplo de los programas de procesamiento de señales de audio. La figura 30 es una configuración de hardware a modo de ejemplo del ordenador, y la figura 31 muestra una vista esquemática de un ordenador. Los programas P1-P4 de procesamiento de señales de audio (que se denominarán a continuación en el presente documento generalmente “programa P de procesamiento de señales de audio”) mostrados en la figura 32 (a) a (d), respectivamente, pueden programar el ordenador C10 mostrado en las figuras 31 y 32 para funcionar como un dispositivo de procesamiento de señales de audio. Debe observarse que el programa P de procesamiento de señales de audio descrito en la presente memoria descriptiva puede implementarse no sólo en el ordenador tal como se muestra en las figuras 31 y 32 sino también en cualquier dispositivo de procesamiento de información tal como un teléfono celular, un ayudante digital personal o un ordenador personal portátil.
El programa P de procesamiento de señales de audio puede proporcionarse en una forma almacenada en un medio M de grabación. Los ejemplos del medio M de grabación incluyen medios de grabación tales como disco flexible, CD-ROM, DVD o ROM, memorias de semiconductor, y así sucesivamente.
Tal como se muestra en la figura 30, el ordenador C10 tiene un dispositivo C12 de lectura tal como una unidad de disco flexible, una unidad de CD-ROM o una unidad de DVD, una memoria C14 de trabajo (RAM), una memoria C16 para almacenar un programa almacenado en el medio M de grabación, una pantalla C16, un ratón C20 y un teclado C22 como dispositivos de entrada, un dispositivo C24 de comunicación para ejecutar la transmisión/recepción de datos o similares, y una unidad C26 de procesamiento central (CPU) para controlar la ejecución del programa. Cuando el medio M de grabación se pone en el dispositivo C12 de lectura, el ordenador C10 se vuelve accesible para el programa P de procesamiento de señales de audio almacenado en el medio M de grabación a través del dispositivo C12 de lectura y se vuelve capaz de funcionar como un dispositivo de procesamiento de señales de audio programado mediante el programa P de procesamiento de señales de audio.
El programa P de procesamiento de señales de audio puede ser uno proporcionado como señal W de datos informáticos superpuesta sobre una onda portadora, tal como se muestra en la figura 31, transmitida a través de una red. En este caso, el ordenador C10 almacena el programa P de procesamiento de señales de audio recibido mediante el dispositivo C24 de comunicación en la memoria C16 y después puede ejecutar el programa P de procesamiento de señales de audio.
El programa P de procesamiento de señales de audio puede configurarse adoptando las diversas configuraciones mostradas en la figura 32 (a) a (d). Estas corresponden a las configuraciones mencionadas en las reivindicaciones 18 a 21 asociadas con los programas de procesamiento de señales de audio tal como se exponen en el alcance de las reivindicaciones. Por ejemplo, el programa P1 de procesamiento de señales de audio mostrado en la figura 32 (a) tiene un módulo P11 de detección de discontinuidad y un módulo P12 de corrección de discontinuidad. El programa P2 de procesamiento de señales de audio mostrado en la figura 32 (b) tiene un módulo P21 de cuantificación de ISF/LSF, un módulo P22 de ocultamiento de ISF/LSF, un módulo P23 de detección de discontinuidad y un módulo P24 de codificación de información auxiliar. El programa P3 de procesamiento de señales de audio mostrado en la figura 32 (c) tiene un módulo P31 de detección de discontinuidad, un módulo P32 de codificación de información auxiliar y un módulo P33 de cuantificación de ISF/LSF. El programa P4 de procesamiento de señales de audio mostrado en la figura 32 (d) tiene un módulo P41 de decodificación de información auxiliar, un módulo P42 de corrección de discontinuidad y un módulo P43 de decodificación de ISF/LSF. Implementando las diversas realizaciones descritas anteriormente, puede mejorarse la calidad subjetiva mientras se reduce un audio discontinuo que puede producirse en la recuperación a partir de una pérdida de paquete en el punto de partida de audio.
El procesador de estabilidad, que es la primera característica de la invención, está configurado de modo que cuando se detecta una discontinuidad en el primer paquete que se recibe correctamente tras producirse una pérdida de paquete, por ejemplo, una distancia entre elementos de los parámetros de ISF se establece más ancha de lo normal, mediante lo cual puede prevenirse que la ganancia de los coeficientes de LP se vuelva demasiado grande. Dado que puede prevenirse que aumenten tanto la ganancia del coeficiente de LP como la potencia de la señal de excitación, se reduce una discontinuidad de la señal sintetizada, mediante lo cual puede suprimirse una degradación de la calidad subjetiva. Además, el procesador de estabilidad puede reducir una discontinuidad de la señal sintetizada multiplicando la señal sintetizada por la ganancia calculada usando los coeficientes de LP o similares. El detector de discontinuidad, que es la segunda característica de la invención, monitoriza la ganancia de la señal de excitación incluida en el primer paquete que se recibe correctamente tras producirse una pérdida de paquete, y determina una discontinuidad para un paquete cuya ganancia de la señal de excitación aumentó más que un determinado nivel.
Lista de signos de referencia
1, 1S, 1X decodificador de audio; 11 detector de pérdida de paquete; 12, 12A, 12B, 12D, 12E, 12G, 12S decodificador de código de audio; 13, 13X generador de señal de ocultamiento; 14 memoria intermedia de estados internos; 15 decodificador de potencia residual de predicción normalizada; 16 determinador de estado de recepción; 21, 21S analizador/codificador; 22 codificador residual; 23 multiplexador de código; 120 decodificador de ISF; 121, 121S procesador de estabilidad; 121X ajustador de ganancia; 121Y multiplicador de ganancia; 122 calculador de coeficientes de LP; 122A convertidor de ISF-ISP; 122B interpolador de ISP; 122C convertidor de ISP-LPC; 123 calculador de libro de códigos adaptativo; 124 decodificador de libro de códigos fijo; 125 decodificador de ganancia; 126 sintetizador de vector de excitación; 127 filtro posterior; 128 filtro de síntesis; 129 detector de discontinuidad; 130 interpolador de coeficientes de LP; 131 interpolador de retardo de altura; 132 interpolador de ganancia; 133 generador de señal de ruido; 134 filtro posterior; 135 filtro de síntesis; 136 calculador de libro de códigos adaptativo; 137 sintetizador de vector de excitación; 138 ajustador residual de predicción normalizado; 210 analizador de LP; 211 convertidor de LP-ISF; 212 codificador de ISF; 213 determinador de discontinuidad; 214 ocultador de ISF; 215 convertidor de ISF-LP; 216 memoria intermedia de ISF; C10 ordenador; C12 dispositivo de lectura; C14 memoria de trabajo; C16 memoria; C18 pantalla; C20 ratón; C22 teclado; C24 dispositivo de comunicación; C26 CPU; M medio de grabación; P1 a P4 programas de procesamiento de señales de audio; P11 módulo de detección de discontinuidad; P12 módulo de corrección de discontinuidad; P21 módulo de cuantificación de ISF/LSF; P22 módulo de ocultamiento de ISF/LSF; P23 módulo de detección de discontinuidad; P24 módulo de codificación de información auxiliar; P31 módulo de detección de discontinuidad; P32 módulo de codificación de información auxiliar; P33 módulo de cuantificación de ISF/LSF; P41 módulo de decodificación de información auxiliar; P42 módulo de corrección de discontinuidad; P43 módulo de decodificación de ISF/LSF; W señal de datos informática.

Claims (6)

  1. REIVINDICACIONES
    i. Método de procesamiento de señales de audio ejecutado por un dispositivo (12A, 12B) de procesamiento de señales de audio, que comprende:
    decodificar (S12, S21), mediante el dispositivo (12A, 12B) de procesamiento de señales de audio, un paquete de audio para obtener audio decodificado y parámetros de frecuencia espectral de inmitancia/frecuencia espectral lineal (lSF/LSF);
    determinar (S11, S26), mediante el dispositivo (12A, 12B) de procesamiento de señales de audio, un aumento repentino de una amplitud del audio decodificado, siendo el paquete de audio un primer paquete de audio recibido correctamente después de una aparición de una pérdida de paquete; y
    mitigar (S13, S22), mediante el dispositivo (12A, 12B) de procesamiento de señales de audio, el aumento repentino de la amplitud del audio decodificado,
    en el que la etapa de mitigar (S13, S22) el aumento repentino de la amplitud del audio decodificado comprende
    cambiar una distancia entre elementos de los parámetros de lSF/LSF de manera que las distancias son más anchas.
  2. 2. Método de procesamiento de señales de audio según la reivindicación 1, en el que determinar el aumento repentino de la amplitud del audio decodificado comprende estimar (S26) el aumento repentino de la amplitud del audio decodificado basándose en una potencia de una señal de excitación del audio decodificado.
  3. 3. Método de procesamiento de señales de audio según la reivindicación 1, en el que determinar el aumento repentino de la amplitud del audio decodificado comprende estimar el aumento repentino de la amplitud del audio decodificado basándose en ganancias de libro de códigos cuantificadas usadas para calcular una señal de excitación del audio decodificado.
  4. 4. Método de procesamiento de señales de audio según la reivindicación 1, en el que determinar el aumento repentino de la amplitud del audio decodificado comprende estimar el aumento repentino de la amplitud del audio decodificado basándose en un aumento de ganancia de una señal de excitación del audio decodificado por encima de un nivel determinado.
  5. 5. Dispositivo (12A, 12B) de procesamiento de señales de audio que comprende:
    una unidad (C26) de procesamiento central,
    un detector (129) de discontinuidad ejecutado por la unidad (C26) de procesamiento central para determinar una aparición de un aumento repentino de amplitud del audio decodificado, obteniéndose el audio decodificado mediante la decodificación de un primer paquete de audio que se recibe correctamente después de una aparición de una pérdida de paquete; y
    un corrector (121) de discontinuidad ejecutado por la unidad (C26) de procesamiento central para mitigar el aumento repentino de amplitud del audio decodificado,
    en el que la unidad (C26) de procesamiento central ejecuta adicionalmente el corrector de discontinuidad para cambiar, según un resultado de determinación de una aparición del aumento repentino de amplitud, una distancia entre elementos de parámetros de frecuencia espectral de inmitancia/frecuencia espectral lineal (lSF/LSF) de manera que las distancias son más anchas, obteniéndose los parámetros de ISF/LSF mediante la decodificación del primer paquete de audio.
  6. 6. Método de procesamiento de señales de audio que va a ejecutarse mediante un dispositivo (2, 21) de procesamiento de señales de audio, que comprende:
    cuantificar (U47) los parámetros de frecuencia espectral de inmitancia/frecuencia espectral lineal (ISP/LSF) durante la codificación de una señal de audio para obtener parámetros de ISF/LSF cuantificados; generar (U44, U45) parámetros de ocultamiento de ISF/LSF, siendo los parámetros de ocultamiento de ISF/LSF representativos de información de ocultamiento sobre los parámetros de ISF/LSF; determinar (T44, U46) una aparición de un aumento repentino de una amplitud de la señal de audio, que se produce en un primer paquete de audio que se recibe correctamente después de una aparición de una pérdida de paquete, en el que determinar la aparición del aumento repentino de la amplitud de la señal de audio comprende usar distancias entre los parámetros de ISF/LSF cuantificados y los parámetros de ocultamiento de ISF/LSF generados; y
    codificar (U47) información auxiliar indicativa de la determinación de la aparición del aumento repentino de la amplitud de la señal de audio.
    Dispositivo (2, 21) de procesamiento de señales de audio que comprende:
    un cuantificador (212) de frecuencia espectral de inmitancia/frecuencia espectral lineal (ISF/LSF) configurado para cuantificar parámetros de ISF/LSF de una señal de audio para generar parámetros de ISF/LSF cuantificados;
    un ocultador (214) de ISF/LSF configurado para generar parámetros de ocultamiento de ISF/LSF representativos de información de ocultamiento sobre los parámetros de ISF/LSF;
    un detector (213) de discontinuidad configurado para determinar una aparición de un aumento repentino de una amplitud de la señal de audio, que se produce en un primer paquete de audio, que se recibe correctamente después de una aparición de una pérdida de paquete, estando el detector (213) de discontinuidad configurado para usar distancias entre los parámetros de ISF/LSF cuantificados y los parámetros de ocultamiento de ISF/LSF generados por el ocultador (214) de ISF/LSF para determinar una aparición del aumento repentino de la amplitud de la señal de audio; y
    un codificador (213) de información auxiliar configurado para codificar información auxiliar indicativa de la determinación de la aparición del aumento repentino de la amplitud de la señal de audio.
ES19167229T 2013-10-29 2014-10-10 Dispositivo de procesamiento de señales de audio, método de procesamiento de señales de audio y programa de procesamiento de señales de audio Active ES2959667T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013224120A JP5981408B2 (ja) 2013-10-29 2013-10-29 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム

Publications (1)

Publication Number Publication Date
ES2959667T3 true ES2959667T3 (es) 2024-02-27

Family

ID=53003956

Family Applications (2)

Application Number Title Priority Date Filing Date
ES14857728T Active ES2732440T3 (es) 2013-10-29 2014-10-10 Dispositivo de procesamiento de señales de habla, método de procesamiento de señales de habla y programa de procesamiento de señales de habla
ES19167229T Active ES2959667T3 (es) 2013-10-29 2014-10-10 Dispositivo de procesamiento de señales de audio, método de procesamiento de señales de audio y programa de procesamiento de señales de audio

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES14857728T Active ES2732440T3 (es) 2013-10-29 2014-10-10 Dispositivo de procesamiento de señales de habla, método de procesamiento de señales de habla y programa de procesamiento de señales de habla

Country Status (21)

Country Link
US (5) US9799344B2 (es)
EP (5) EP3065134B1 (es)
JP (1) JP5981408B2 (es)
KR (5) KR102036704B1 (es)
CN (6) CN110176239B (es)
AU (5) AU2014341476B2 (es)
BR (2) BR122017020760B1 (es)
CA (4) CA3081225C (es)
DK (3) DK3528247T3 (es)
ES (2) ES2732440T3 (es)
FI (2) FI3528247T3 (es)
HK (1) HK1223188A1 (es)
HU (1) HUE063871T2 (es)
MX (1) MX347234B (es)
MY (3) MY179197A (es)
PL (2) PL3065134T3 (es)
PT (3) PT3065134T (es)
RU (5) RU2651234C2 (es)
SG (1) SG11201600542VA (es)
TR (1) TR201909126T4 (es)
WO (1) WO2015064346A1 (es)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
JP6914390B2 (ja) * 2018-06-06 2021-08-04 株式会社Nttドコモ 音声信号処理方法
CN110111805B (zh) * 2019-04-29 2021-10-29 北京声智科技有限公司 远场语音交互中的自动增益控制方法、装置及可读存储介质
FR3100061B1 (fr) * 2019-08-22 2021-07-30 Thales Sa Procede de determination d'une distance de vol d'un aeronef sur un segment de discontinuite, procede de determination d'une trajectoire, produit programme d'ordinateur et module de determination associes
CN114613372B (zh) * 2022-02-21 2022-10-18 北京富通亚讯网络信息技术有限公司 一种音频传输抗丢包的错误隐藏技术方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970011728B1 (ko) * 1994-12-21 1997-07-14 김광호 음향신호의 에러은닉방법 및 그 장치
US6178317B1 (en) * 1997-10-09 2001-01-23 Ibiquity Digital Corporation System and method for mitigating intermittent interruptions in an audio radio broadcast system
US6775649B1 (en) * 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method
AU7486200A (en) * 1999-09-22 2001-04-24 Conexant Systems, Inc. Multimode speech encoder
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
JP2001228896A (ja) * 2000-02-14 2001-08-24 Iwatsu Electric Co Ltd 欠落音声パケットの代替置換方式
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7031926B2 (en) 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
JP4445328B2 (ja) * 2004-05-24 2010-04-07 パナソニック株式会社 音声・楽音復号化装置および音声・楽音復号化方法
KR100723409B1 (ko) * 2005-07-27 2007-05-30 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US8798172B2 (en) * 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
TWI467979B (zh) * 2006-07-31 2015-01-01 Qualcomm Inc 用於信號改變偵測之系統、方法及裝置
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US7796626B2 (en) * 2006-09-26 2010-09-14 Nokia Corporation Supporting a decoding of frames
KR20090076964A (ko) 2006-11-10 2009-07-13 파나소닉 주식회사 파라미터 복호 장치, 파라미터 부호화 장치 및 파라미터 복호 방법
KR100862662B1 (ko) * 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
KR101291193B1 (ko) * 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
BRPI0808200A8 (pt) 2007-03-02 2017-09-12 Panasonic Corp Dispositivo de codificação de áudio e dispositivo de decodificação de áudio
CN101542593B (zh) * 2007-03-12 2013-04-17 富士通株式会社 语音波形内插装置及方法
JP5021809B2 (ja) * 2007-06-08 2012-09-12 ドルビー ラボラトリーズ ライセンシング コーポレイション アンビエンス信号成分とマトリックスデコードされた信号成分とを制御可能に結合することによるサラウンドサウンドオーディオチャンネルのハイブリッド導出
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
JP4977157B2 (ja) * 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
WO2011161886A1 (ja) * 2010-06-21 2011-12-29 パナソニック株式会社 復号装置、符号化装置およびこれらの方法
CN101894558A (zh) * 2010-08-04 2010-11-24 华为技术有限公司 丢帧恢复方法、设备以及语音增强方法、设备和系统
EP3518234B1 (en) * 2010-11-22 2023-11-29 NTT DoCoMo, Inc. Audio encoding device and method
JP5694745B2 (ja) * 2010-11-26 2015-04-01 株式会社Nttドコモ 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
EP3483883A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering

Also Published As

Publication number Publication date
EP3528248A1 (en) 2019-08-21
AU2014341476B2 (en) 2017-05-25
BR112016003291A8 (pt) 2020-02-04
EP3528248B8 (en) 2024-09-18
RU2018112250A (ru) 2019-03-01
CN110265045B (zh) 2023-11-14
AU2018274861B2 (en) 2020-11-26
BR122017020760B1 (pt) 2022-02-15
CN110164458A (zh) 2019-08-23
RU2016120629A (ru) 2017-12-05
PL3065134T3 (pl) 2019-09-30
KR20190040084A (ko) 2019-04-16
KR102155618B1 (ko) 2020-09-14
AU2021290404B2 (en) 2023-07-20
EP3528246A1 (en) 2019-08-21
AU2017204606B2 (en) 2018-09-06
PL3528247T3 (pl) 2024-02-19
US11749291B2 (en) 2023-09-05
US20190051313A1 (en) 2019-02-14
EP4398504A2 (en) 2024-07-10
MX2016005162A (es) 2016-07-05
EP3065134A1 (en) 2016-09-07
PT3528248T (pt) 2024-08-29
EP3528248B1 (en) 2024-08-07
KR20170087544A (ko) 2017-07-28
US9799344B2 (en) 2017-10-24
KR20190121884A (ko) 2019-10-28
CA3002931A1 (en) 2015-05-07
RU2651234C2 (ru) 2018-04-18
DK3528247T3 (da) 2023-10-02
US20160240202A1 (en) 2016-08-18
AU2017204606A1 (en) 2017-07-27
EP3528247A1 (en) 2019-08-21
KR20170127076A (ko) 2017-11-20
CN110176239A (zh) 2019-08-27
JP2015087456A (ja) 2015-05-07
CA2918715C (en) 2018-06-12
JP5981408B2 (ja) 2016-08-31
DK3065134T3 (da) 2019-06-24
KR101798635B1 (ko) 2017-11-16
CN110176239B (zh) 2023-01-03
CN110164456B (zh) 2023-11-14
PT3065134T (pt) 2019-07-04
RU2701075C1 (ru) 2019-09-24
US10621999B2 (en) 2020-04-14
CA3168576A1 (en) 2015-05-07
CN105393303B (zh) 2019-07-16
MX347234B (es) 2017-04-19
DK3528248T3 (da) 2024-09-09
FI3528248T3 (fi) 2024-09-03
RU2018112250A3 (es) 2019-03-01
WO2015064346A1 (ja) 2015-05-07
KR101978997B1 (ko) 2019-05-15
FI3528247T3 (fi) 2023-10-02
RU2707727C1 (ru) 2019-11-28
BR112016003291B1 (pt) 2022-02-15
US10152982B2 (en) 2018-12-11
PT3528247T (pt) 2023-09-29
MY191135A (en) 2022-05-31
ES2732440T3 (es) 2019-11-22
EP3065134B1 (en) 2019-05-29
AU2020294314B2 (en) 2021-10-21
US11270715B2 (en) 2022-03-08
CA2918715A1 (en) 2015-05-07
CN110164457B (zh) 2023-01-03
US20220139411A1 (en) 2022-05-05
CN105393303A (zh) 2016-03-09
EP3528247B1 (en) 2023-09-06
EP4398504A3 (en) 2024-10-02
AU2021290404A1 (en) 2022-02-03
US20200234723A1 (en) 2020-07-23
HUE063871T2 (hu) 2024-02-28
RU2682927C2 (ru) 2019-03-22
US20180068669A1 (en) 2018-03-08
KR102036704B1 (ko) 2019-10-25
CN110164457A (zh) 2019-08-23
CA3002931C (en) 2020-07-14
MY179197A (en) 2020-10-30
EP3065134A4 (en) 2016-09-07
SG11201600542VA (en) 2016-02-26
MY191134A (en) 2022-05-31
AU2014341476A1 (en) 2016-02-18
AU2020294314A1 (en) 2021-02-11
CA3081225C (en) 2022-10-04
CN110164456A (zh) 2019-08-23
KR20160025000A (ko) 2016-03-07
KR101764234B1 (ko) 2017-08-03
HK1223188A1 (zh) 2017-07-21
TR201909126T4 (tr) 2019-07-22
RU2680748C1 (ru) 2019-02-26
CA3081225A1 (en) 2015-05-07
AU2018274861A1 (en) 2018-12-20
CN110265045A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
ES2959667T3 (es) Dispositivo de procesamiento de señales de audio, método de procesamiento de señales de audio y programa de procesamiento de señales de audio
JP6691169B2 (ja) 音声信号処理方法及び音声信号処理装置
JP6352487B2 (ja) 音声信号処理方法及び音声信号処理装置
JP6133454B2 (ja) 音声信号処理方法及び音声信号処理装置