ES2882485T3 - Procedimiento y aparato de codificación de audio - Google Patents

Procedimiento y aparato de codificación de audio Download PDF

Info

Publication number
ES2882485T3
ES2882485T3 ES17196524T ES17196524T ES2882485T3 ES 2882485 T3 ES2882485 T3 ES 2882485T3 ES 17196524 T ES17196524 T ES 17196524T ES 17196524 T ES17196524 T ES 17196524T ES 2882485 T3 ES2882485 T3 ES 2882485T3
Authority
ES
Spain
Prior art keywords
audio frame
lsf
frame
linear prediction
prediction parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17196524T
Other languages
English (en)
Inventor
Zexin Liu
Bin Wang
Lei Miao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2882485T3 publication Critical patent/ES2882485T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un procedimiento de codificación de audio, que comprende: para cada trama de audio, determinar si una trama de audio es una trama de transición o no; determinar un primer peso de modificación según diferencias de frecuencias espectrales de línea, LSF, de la trama de audio y diferencias de LSF de una trama de audio anterior de la trama de audio cuando la trama de audio no es una trama de transición, en el que la trama de transición incluye una trama de transición de no fricativo a fricativo o una trama de transición de fricativo a no fricativo; determinar un segundo peso de modificación cuando la trama de audio es una trama de transición; modificar un parámetro de predicción lineal de la trama de audio de acuerdo con el primer peso de modificación o el segundo peso de modificación determinado, en el que el parámetro de predicción lineal es un coeficiente de pares espectrales lineales, LSP; codificar la trama de audio según el parámetro de predicción lineal modificado de la trama de audio.

Description

DESCRIPCIÓN
Procedimiento y aparato de codificación de audio
Campo técnico
La presente invención se refiere al campo de las comunicaciones, y en particular, a un procedimiento y un aparato de codificación de audio.
Antecedentes
Con el desarrollo constante de las tecnologías, los usuarios tienen una necesidad cada vez mayor de calidad de audio de un dispositivo electrónico. Un procedimiento principal para mejorar la calidad de audio es mejorar un ancho de banda de audio. Si el dispositivo electrónico codifica el audio en un modo de codificación convencional para aumentar el ancho de banda del audio, aumenta enormemente la tasa de transmisión de bits de la información del audio codificada. Por tanto, cuando la información del audio codificada se transmite entre dos dispositivos electrónicos, se ocupa un ancho de banda de transmisión de red relativamente amplio. Por tanto, un aspecto que debe solucionarse es codificar audio que tenga un ancho de banda mayor al tiempo que la tasa de transmisión de bits de la información del audio codificada permanece invariable o la tasa de transmisión de bits cambia ligeramente. Para ello, una solución propuesta es utilizar una tecnología de extensión de ancho de banda. La tecnología de extensión de ancho de banda se divide en una tecnología de extensión de ancho de banda de dominio de tiempo y una tecnología de extensión de ancho de banda de dominio de frecuencia. La presente invención se refiere a la tecnología de extensión de ancho de banda de dominio de tiempo.
En la tecnología de extensión de ancho de banda de dominio de tiempo, se calcula un parámetro de predicción lineal, tal como un coeficiente de codificación de predicción lineal (LPC, Linear Predictive Coding), un coeficiente de pares espectrales lineales (LSP, Linear Spectral Pairs), un coeficiente de pares espectrales de inmitancia (ISP, Immittance Spectral Pairs) o un coeficiente de frecuencias espectrales de línea (LSF, Linear Spectral Frequency), de cada trama de audio en audio generalmente utilizando un algoritmo de predicción lineal. Cuando se realiza una transmisión de codificación en el audio, el audio se codifica según el parámetro de predicción lineal de cada trama de audio en el audio. Sin embargo, en caso de que el requisito de precisión de errores de códec sea relativamente alto, este modo de codificación provoca discontinuidad de un espectro entre tramas de audio.
Sumario
La publicación “Interframe Differential coding of line spectrum frequencies” de Erzin et Al., IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, IEEE, vol. 3, n.° 2, 1 de abril de 1994, páginas 350-352, propone codificar en el tiempo de manera diferencial los LSF con el fin de conseguir tasas de transmisión de bits inferiores en comparación con la codificación entre tramas solamente.
La presente invención proporciona un procedimiento de codificación de audio de la reivindicación 1 y un aparato de codificación de audio de la reivindicación 4. Las posibles maneras de implementación se dan a conocer en las reivindicaciones dependientes. Puede codificarse audio con un ancho de banda mayor al tiempo que la tasa de transmisión de bits permanece invariable o la tasa de transmisión de bits cambia ligeramente, y el espectro entre tramas de audio es más regular.
En las formas de realización de la presente invención, para cada trama de audio en audio, cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio cumplen con una condición de modificación preestablecida, se determina un primer peso de modificación según diferencias de frecuencias espectrales de línea, LSF, de la trama de audio y diferencias de LSF de la trama de audio anterior; o cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio no cumplen con una condición de modificación preestablecida, se determina un segundo peso de modificación, en el que se utiliza la condición de modificación preestablecida para determinar que la característica de señal de la trama de audio es similar a la característica de señal de la trama de audio anterior de la trama de audio; se modifica un parámetro de predicción lineal de la trama de audio según el primer peso de modificación determinado o el segundo peso de modificación determinado; y se codifica la trama de audio según un parámetro de predicción lineal modificado de la trama de audio. De este modo, se determinan diferentes pesos de modificación según si la característica de señal de la trama de audio es similar a la característica de señal de la trama de audio anterior de la trama de audio, y se modifica el parámetro de predicción lineal de la trama de audio, de modo que un espectro entre tramas de audio sea más regular. Además, la trama de audio está codificada según el parámetro de predicción lineal modificado de la trama de audio, de modo que se incremente la continuidad de un espectro recuperado entre tramas mediante decodificación, al tiempo que se garantiza que una tasa de transmisión de bits permanece invariable y, por lo tanto, el espectro recuperado mediante decodificación es más parecido a un espectro original, y se mejora la ejecución de la codificación.
Breve descripción de los dibujos
Para describir las soluciones técnicas en las formas de realización de la presente invención con mayor claridad, a continuación, se introducirán brevemente los dibujos adjuntos necesarios para describir las formas de realización. Aparentemente, los dibujos adjuntos en la siguiente descripción muestran meramente algunas formas de realización de la presente invención, y un experto en la técnica todavía podrá derivar otros dibujos a partir de estos dibujos adjuntos sin grandes esfuerzos creativos.
La figura 1 es un diagrama de flujo esquemático de un procedimiento de codificación de audio según una forma de realización de la presente invención;
la figura 1A es un diagrama de una comparación entre un espectro real y diferencias de LSF;
la figura 2 es un ejemplo de un escenario de aplicación de un procedimiento de codificación de audio según una forma de realización de la presente invención;
la figura 3 es un diagrama estructural esquemático de un aparato de codificación de audio según una forma de realización de la presente invención; y
la figura 4 es un diagrama estructural esquemático de un dispositivo electrónico según una forma de realización de la presente invención.
Descripción de formas de realización
A continuación, se describirán con claridad las soluciones técnicas en las formas de realización de la presente invención con referencia a los dibujos adjuntos en las formas de realización de la presente invención. Aparentemente, las formas de realización descritas son meramente una parte de en lugar de todas las formas de realización de la presente invención. Todas las demás formas de realización obtenidas por un experto en la técnica basándose en las formas de realización de la presente invención sin grandes esfuerzos creativos entrarán dentro del alcance de protección de la presente invención.
Con referencia a la figura 1, que es un diagrama de flujo de un procedimiento de decodificación de audio según una forma de realización de la presente invención, el procedimiento incluye:
Etapa 101: Para cada trama de audio en audio, cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio cumplen con una condición de modificación preestablecida, un dispositivo electrónico determina un primer peso de modificación según diferencias de frecuencias espectrales de línea LSF de la trama de audio y diferencias de LSF de la trama de audio anterior; o cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio no cumplen con una condición de modificación preestablecida, un dispositivo electrónico determina un segundo peso de modificación, utilizándose la condición de modificación preestablecida para determinar que la característica de señal de la trama de audio es similar a la característica de señal de la trama de audio anterior de la trama de audio.
Etapa 102: El dispositivo electrónico modifica un parámetro de predicción lineal de la trama de audio según el primer peso de modificación determinado o el segundo peso de modificación determinado.
El parámetro de predicción lineal puede incluir: un LPC, un LSP, un ISP, un LSF, o similar.
Etapa 103: El dispositivo electrónico codifica la trama de audio según un parámetro de predicción lineal modificado de la trama de audio.
En esta forma de realización, para cada trama de audio en audio, cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio cumplen con una condición de modificación preestablecida, un dispositivo electrónico determina un primer peso de modificación según diferencias de frecuencias espectrales de línea LSF de la trama de audio y diferencias de LSF de la trama de audio anterior; o cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio no cumplen con una condición de modificación preestablecida, un dispositivo electrónico determina un segundo peso de modificación; el dispositivo electrónico modifica un parámetro de predicción lineal de la trama de audio según el primer peso de modificación determinado o el segundo peso de modificación determinado; y codifica la trama de audio según un parámetro de predicción lineal modificado de la trama de audio. De este modo, se determinan diferentes pesos de modificación según si la característica de señal de la trama de audio es similar a la característica de señal de la trama de audio anterior de la trama de audio, y se modifica el parámetro de predicción lineal de la trama de audio, de modo que un espectro entre tramas de audio sea más regular. Además, se determinan diferentes pesos de modificación según si la característica de señal de la trama de audio es similar a la característica de señal de la trama de audio anterior de la trama de audio y un segundo peso de modificación que se determina cuando las características de señal no son similares puede estar lo más cerca posible de 1, de modo que se mantiene lo más posible una propiedad de espectro original de la trama de audio cuando la característica de señal de la trama de audio no es similar a la característica de señal de la trama de audio anterior de la trama de audio, y por tanto la calidad de audio del audio obtenida tras la decodificación de la información del audio codificada es mejor.
La implementación específica de cómo el dispositivo electrónico determina si la característica de señal de la trama de audio y la característica de señal de la trama de audio anterior de la trama de audio cumplen con la condición de modificación preestablecida en la etapa 101 se relaciona con la implementación específica de la condición de modificación. A continuación, se proporcionará una descripción utilizando un ejemplo:
En un posible modo de implementación, la condición de modificación puede incluir: si la trama de audio no es una trama de transición,
la determinación, por parte de un dispositivo electrónico, de que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio cumplen con una condición de modificación preestablecida puede incluir: determinar que la trama de audio no es una trama de transición, incluyendo la trama de transición una trama de transición de no fricativo a fricativo o una trama de transición de fricativo a no fricativo; y
la determinación, por parte de un dispositivo electrónico, de que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio no cumplen con una condición de modificación preestablecida puede incluir: determinar que la trama de audio es una trama de transición.
En un posible modo de implementación, la determinación de si la trama de audio es una trama de transición de fricativo a no fricativo puede implementarse determinando si una frecuencia de inclinación de espectro de la trama de audio anterior es mayor que un primer umbral de frecuencia de inclinación de espectro, y si un tipo de codificación de la trama de audio es transitorio. Específicamente, la determinación de que la trama de audio es una trama de transición de fricativo a no fricativo puede incluir: determinar que la frecuencia de inclinación de espectro de la trama de audio anterior es mayor que el primer umbral de frecuencia de inclinación de espectro y que el tipo de codificación de la trama de audio es transitorio; y la determinación de que la trama de audio no es una trama de transición de fricativo a no fricativo puede incluir: determinar que la frecuencia de inclinación de espectro de la trama de audio anterior no es mayor que el primer umbral de frecuencia de inclinación de espectro y/o que el tipo de codificación de la trama de audio no es transitorio.
En otro posible modo de implementación, la determinación de si la trama de audio es una trama de transición de fricativo a no fricativo puede implementarse determinando si una frecuencia de inclinación de espectro de la trama de audio anterior es mayor que un primer umbral de frecuencia y determinando si una frecuencia de inclinación de espectro de la trama de audio es menor que un segundo umbral de frecuencia. Específicamente, la determinación de que la trama de audio es una trama de transición de fricativo a no fricativo puede incluir: determinar que la frecuencia de inclinación de espectro de la trama de audio anterior es mayor que el primer umbral de frecuencia de inclinación de espectro y que la frecuencia de inclinación de espectro de la trama de audio es menor que el segundo umbral de frecuencia de inclinación de espectro; y la determinación de que la trama de audio no es una trama de transición de fricativo a no fricativo puede incluir: determinar que la frecuencia de inclinación de espectro de la trama de audio anterior no es mayor que el primer umbral de frecuencia de inclinación de espectro y/o que la frecuencia de inclinación de espectro de la trama de audio no es menor que el segundo umbral de frecuencia de inclinación de espectro. Los valores específicos del primer umbral de frecuencia de inclinación de espectro y el segundo umbral de frecuencia de inclinación de espectro no están limitados en esta forma de realización de la presente invención, y una relación entre los valores del primer umbral de frecuencia de inclinación de espectro y el segundo umbral de frecuencia de inclinación de espectro no está limitada. Opcionalmente, en una forma de realización de la presente invención, el valor del primer umbral de frecuencia de inclinación de espectro puede ser 5,0; y en otra forma de realización de la presente invención, el valor del segundo umbral de frecuencia de inclinación de espectro puede ser 1,0.
En un posible modo de implementación, la determinación de si la trama de audio es una trama de transición de no fricativo a fricativo puede implementarse determinando si una frecuencia de inclinación de espectro de la trama de audio anterior es menor que un tercer umbral de frecuencia, determinando si un tipo de codificación de la trama de audio anterior es uno de cuatro tipos: de voz (Voiced), genérico (Generic), transitorio (Transition) y audio (Audio), y determinando si una frecuencia de inclinación de espectro de la trama de audio es mayor que un cuarto umbral de frecuencia. Específicamente, la determinación de que la trama de audio es una trama de transición de no fricativo a fricativo puede incluir: determinar que la frecuencia de inclinación de espectro de la trama de audio anterior es menor que el tercer umbral de frecuencia de inclinación de espectro, que el tipo de codificación de la trama de audio anterior es uno de los cuatro tipos: de voz, genérico, transitorio y audio y que la inclinación de espectro de la trama de audio es mayor que el cuarto umbral de inclinación de espectro; y la determinación de que la trama de audio no es una trama de transición de no fricativo a fricativo puede incluir: determinar que la frecuencia de inclinación de espectro de la trama de audio anterior no es menor que el tercer umbral de frecuencia de inclinación de espectro, y/o que el tipo de codificación de la trama de audio anterior no es uno de los cuatro tipos: de voz, genérico, transitorio y audio, y/o que la frecuencia de inclinación de espectro de la trama de audio no es mayor que el cuarto umbral de frecuencia de inclinación de espectro. Los valores específicos del tercer umbral de frecuencia de inclinación de espectro y el cuarto umbral de frecuencia de inclinación de espectro no están limitados en esta forma de realización de la presente invención, y una relación entre los valores del tercer umbral de frecuencia de inclinación de espectro y el cuarto umbral de frecuencia de inclinación de espectro no está limitada. En una forma de realización de la presente invención, el valor del tercer umbral de frecuencia de inclinación de espectro puede ser 3,0; y en otra forma de realización de la presente invención, el valor del cuarto umbral de frecuencia de inclinación de espectro puede ser 5,0.
En la etapa 101, la determinación, por parte de un dispositivo electrónico, de un primer peso de modificación según diferencias de LSF de la trama de audio y diferencias de LSF de la trama de audio anterior puede incluir:
determinar, por parte del dispositivo electrónico, el primer peso de modificación según las diferencias de LSF de la trama de audio y las diferencias de LSF de la trama de audio anterior utilizando la fórmula siguiente:
Figure imgf000005_0001
en la que w[i] es el primer peso de modificación; lsf_new_diff[i] son las diferencias de LSF de la trama de audio, lsf_new_diff[i]=lsf_new[i]-lsf_new[i-1], lsf_new[i] es el parámetro de LSF de orden i de la trama de audio, lsf_new[i-1] es el parámetro de LSF de orden (i-1) de la trama de audio; lsf_old_diff[i] son las diferencias de LSF de la trama de audio anterior de la trama de audio, lsf_old_diff[i]=lsf_old[i]-lsf_old[i-1 ], lsf_old[i] es el parámetro de LSF de orden i de la trama de audio anterior de la trama de audio, lsf_old[i-1] es el parámetro de LSF de orden (i-1) de la trama de audio anterior de la trama de audio, i es un orden del parámetro de LSF y un orden de las diferencias de LSF, un valor de i oscila entre 0 y M-1 y M es un orden del parámetro de predicción lineal.
Un principio de la fórmula anterior es el siguiente:
Hágase referencia a la figura 1A, que es un diagrama de una comparación entre un espectro real y diferencias de LSF. Como puede observarse por la figura, las diferencias de LSF lsf_new_diff[i] en la trama de audio reflejan una tendencia de la energía del espectro de la trama de audio. lsf_new_diff[i] menores indican una energía del espectro mayor de un punto de frecuencia correspondiente.
w[i]=lsf_new_diff[i]/lsf_old_diff[i] menores indican una mayor diferencia de la energía del espectro entre una trama anterior y una trama actual en un punto de frecuencia correspondiente a lsf_new[i], y esa energía del espectro de la trama de audio es mucho mayor que la energía del espectro de un punto de frecuencia correspondiente a la trama de audio anterior.
w[i]=lsf_old_diff[i]/lsf_new_diff[i] menores indican una menor diferencia de la energía del espectro entre la trama anterior y la trama actual en el punto de frecuencia correspondiente a lsf_new[i], y que la energía del espectro de la trama de audio es mucho menor que la energía del espectro del punto de frecuencia correspondiente a la trama de audio anterior.
Por tanto, para que un espectro entre la trama anterior y la trama actual sea regular, puede utilizarse w[i] como peso de la trama de audio lsf_new[i] y puede utilizarse 1-w[i] como peso del punto de frecuencia correspondiente a la trama de audio anterior. En la fórmula 2 se muestran los detalles.
En la etapa 101, la determinación, por parte de un dispositivo electrónico, de un segundo peso de modificación puede incluir:
determinar, por parte del dispositivo electrónico, el segundo peso de modificación como valor de peso de modificación preestablecido, siendo el valor de peso de modificación preestablecido mayor que 0, y siendo menor que o igual a 1.
Preferiblemente, el valor de peso de modificación preestablecido es un valor próximo a 1.
En la etapa 102, la modificación, por parte del dispositivo electrónico, de un parámetro de predicción lineal de la trama de audio según el primer peso de modificación determinado puede incluir:
modificar el parámetro de predicción lineal de la trama de audio según el primer peso de modificación utilizando la fórmula siguiente:
L[i]=(l-w[i])*L_old[i]+w[i]*L_new[i], fórmula 2
en la que w[i] es el primer peso de modificación, L[i] es el parámetro de predicción lineal modificado de la trama de audio, L_new[i] es el parámetro de predicción lineal de la trama de audio, L_old[i] es un parámetro de predicción lineal de la trama de audio anterior de la trama de audio, i es un orden del parámetro de predicción lineal, el valor de i oscila entre 0 y M-1 y M es el orden del parámetro de predicción lineal.
En la etapa 102, la modificación, por parte del dispositivo electrónico, de un parámetro de predicción lineal de la trama de audio según el segundo peso de modificación determinado puede incluir:
modificar el parámetro de predicción lineal de la trama de audio según el segundo peso de modificación utilizando la fórmula siguiente:
L[i]=(l-y)*L_old[i]+y*L_new[i], fórmula 3
en la que y es el segundo peso de modificación, L[i] es el parámetro de predicción lineal modificado de la trama de audio, L_new[i] es el parámetro de predicción lineal de la trama de audio, L_old[i] es el parámetro de predicción lineal de la trama de audio anterior de la trama de audio, i es el orden del parámetro de predicción lineal, el valor de i oscila entre 0 y M-1 y M es el orden del parámetro de predicción lineal.
En la etapa 103, para saber cómo el dispositivo electrónico codifica específicamente la trama de audio según el parámetro de predicción lineal modificado de la trama de audio, hágase referencia a la tecnología de extensión de ancho de banda de dominio de tiempo relacionada, y en la presente invención no se describen los detalles.
El procedimiento de codificación de audio en esta forma de realización de la presente invención puede aplicarse al procedimiento de extensión de ancho de banda de dominio de tiempo mostrado en la figura 2. En el procedimiento de extensión de ancho de banda de dominio de tiempo:
se divide una señal de audio original en una señal de banda baja y una señal de banda alta;
para la señal de banda baja, se realiza en secuencia un procesamiento tal como codificación de señal de banda baja, preprocesamiento de señal de excitación de banda baja, síntesis de LP y cuantificación y cálculo de la envolvente de dominio de tiempo;
para la señal de banda alta, se realiza en secuencia un procesamiento tal como preprocesamiento de señal de banda alta, análisis de LP y cuantificación de LPC; y
se realiza MUX en la señal de audio según un resultado de la codificación de señal de banda baja, un resultado de la cuantificación de LPC y un resultado de la cuantificación y cálculo de la envolvente de dominio de tiempo.
La cuantificación de LPC corresponde a la etapa 101 y la etapa 102 en esta forma de realización de la presente invención y la MUX realizada en la señal de audio corresponde a la etapa 103 en esta forma de realización de la presente invención.
Hágase referencia a la figura 3, que es un diagrama estructural esquemático de un aparato de codificación de audio según una forma de realización de la presente invención. El aparato puede disponerse en un dispositivo electrónico. El aparato 300 puede incluir una unidad de determinación 310, una unidad de modificación 320 y una unidad de codificación 330.
La unidad de determinación 310 está configurada para: para cada trama de audio en audio, cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio cumplen con una condición de modificación preestablecida, determinar un primer peso de modificación según diferencias de frecuencias espectrales de línea LSF de la trama de audio y diferencias de LSF de la trama de audio anterior; o cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio no cumplen con una condición de modificación preestablecida, determinar un segundo peso de modificación, utilizándose la condición de modificación preestablecida para determinar que la característica de señal de la trama de audio es similar a la característica de señal de la trama de audio anterior de la trama de audio.
La unidad de modificación 320 está configurada para modificar un parámetro de predicción lineal de la trama de audio según el primer peso de modificación o el segundo peso de modificación determinado por la unidad de determinación 310.
La unidad de codificación 330 está configurada para codificar la trama de audio según un parámetro de predicción lineal modificado de la trama de audio, obteniéndose el parámetro de predicción lineal modificado tras la modificación por la unidad de modificación 320.
Opcionalmente, la unidad de determinación 310 puede estar configurada específicamente para: determinar el primer peso de modificación según las diferencias de LSF de la trama de audio y las diferencias de LSF de la trama de audio anterior utilizando la fórmula siguiente:
Figure imgf000007_0001
en la que w[i] es el primer peso de modificación, lsf_new_diff[i] son las diferencias de LSF de la trama de audio, lsf_old_diff[i] son las diferencias de LSF de la trama de audio anterior de la trama de audio, i es un orden de las diferencias de LSF, un valor de i oscila entre 0 y M-1 y M es un orden del parámetro de predicción lineal.
Opcionalmente, la unidad de determinación 310 puede estar configurada específicamente para: determinar el segundo peso de modificación como valor de peso de modificación preestablecido, siendo el valor de peso de modificación preestablecido mayor que 0, y siendo menor que o igual a 1.
Opcionalmente, la unidad de modificación 320 puede estar configurada específicamente para: modificar el parámetro de predicción lineal de la trama de audio según el primer peso de modificación utilizando la fórmula siguiente:
L[i]=(l-w[i])*L_old[i]+w[i]*L_new[i],
en la que w[i] es el primer peso de modificación, L[i] es el parámetro de predicción lineal modificado de la trama de audio, L_new[i] es el parámetro de predicción lineal de la trama de audio, L_old[i] es un parámetro de predicción lineal de la trama de audio anterior de la trama de audio, i es un orden del parámetro de predicción lineal, el valor de i oscila entre 0 y M-1 y M es el orden del parámetro de predicción lineal.
Opcionalmente, la unidad de modificación 320 puede estar configurada específicamente para: modificar el parámetro de predicción lineal de la trama de audio según el segundo peso de modificación utilizando la fórmula siguiente:
L[i]=(l-y)*L_old[i]+y*L_new[i],
en la que y es el segundo peso de modificación, L[i] es el parámetro de predicción lineal modificado de la trama de audio, L_new[i] es el parámetro de predicción lineal de la trama de audio, L_old[i] es el parámetro de predicción lineal de la trama de audio anterior de la trama de audio, i es el orden del parámetro de predicción lineal, el valor de i oscila entre 0 y M-1 y M es el orden del parámetro de predicción lineal.
Opcionalmente, la unidad de determinación 310 puede estar configurada específicamente para: para cada trama de audio en el audio, cuando se determina que la trama de audio no es una trama de transición, determinar el primer peso de modificación según las diferencias de frecuencias espectrales de línea LSF de la trama de audio y las diferencias de LSF de la trama de audio anterior; o cuando se determina que la trama de audio es una trama de transición, determinar el segundo peso de modificación, incluyendo la trama de transición una trama de transición de no fricativo a fricativo, o una trama de transición de fricativo a no fricativo.
Opcionalmente, la unidad de determinación 310 puede estar configurada específicamente para: para cada trama de audio en el audio, cuando se determina que una frecuencia de inclinación de espectro de la trama de audio anterior no es mayor que un primer umbral de frecuencia de inclinación de espectro y/o que un tipo de codificación de la trama de audio no es transitorio, determinar el primer peso de modificación según las diferencias de frecuencias espectrales de línea LSF de la trama de audio y las diferencias de LSF de la trama de audio anterior; y cuando se determina que la frecuencia de inclinación de espectro de la trama de audio anterior es mayor que el primer umbral de frecuencia de inclinación de espectro y que el tipo de codificación de la trama de audio es transitorio, determinar el segundo peso de modificación.
Opcionalmente, la unidad de determinación 310 puede estar configurada específicamente para: para cada trama de audio en el audio, cuando se determina que una frecuencia de inclinación de espectro de la trama de audio anterior no es mayor que un primer umbral de frecuencia de inclinación de espectro y/o que una frecuencia de inclinación de espectro de la trama de audio no es menor que un segundo umbral de frecuencia de inclinación de espectro, determinar el primer peso de modificación según las diferencias de frecuencias espectrales de línea LSF de la trama de audio y las diferencias de LSF de la trama de audio anterior; y cuando se determina que la frecuencia de inclinación de espectro de la trama de audio anterior es mayor que el primer umbral de frecuencia de inclinación de espectro y que la frecuencia de inclinación de espectro de la trama de audio es menor que el segundo umbral de frecuencia de inclinación de espectro, determinar el segundo peso de modificación.
Opcionalmente, la unidad de determinación 310 puede estar configurada específicamente para: para cada trama de audio en el audio, cuando se determina que una frecuencia de inclinación de espectro de la trama de audio anterior no es menor que un tercer umbral de frecuencia de inclinación de espectro, y/o que un tipo de codificación de la trama de audio anterior no es uno de cuatro tipos: de voz, genérico, transitorio y audio, y/o que una inclinación de espectro de la trama de audio no es mayor que un cuarto umbral de inclinación de espectro, determinar el primer peso de modificación según las diferencias de frecuencias espectrales de línea LSF de la trama de audio y las diferencias de LSF de la trama de audio anterior; y cuando se determina que la frecuencia de inclinación de espectro de la trama de audio anterior es menor que el tercer umbral de frecuencia de inclinación de espectro, el tipo de codificación de la trama de audio anterior es uno de los cuatro tipos: de voz, genérico, transitorio y audio, y que la frecuencia de inclinación de espectro de la trama de audio es mayor que el cuarto umbral de frecuencia de inclinación de espectro, determinar el segundo peso de modificación.
En esta forma de realización, para cada trama de audio en audio, cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio cumplen con una condición de modificación preestablecida, un dispositivo electrónico determina un primer peso de modificación según diferencias de frecuencias espectrales de línea LSF de la trama de audio y diferencias de LSF de la trama de audio anterior; o cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio no cumplen con una condición de modificación preestablecida, el dispositivo electrónico determina un segundo peso de modificación; el dispositivo electrónico modifica un parámetro de predicción lineal de la trama de audio según el primer peso de modificación determinado o el segundo peso de modificación determinado; y codifica la trama de audio según un parámetro de predicción lineal modificado de la trama de audio. De este modo, se determinan diferentes pesos de modificación según si la característica de señal de la trama de audio y la característica de señal de la trama de audio anterior de la trama de audio cumplen con la condición de modificación preestablecida, y se modifica el parámetro de predicción lineal de la trama de audio, de modo que un espectro entre tramas de audio sea más regular. Además, el dispositivo electrónico codifica la trama de audio según el parámetro de predicción lineal modificado de la trama de audio, y por tanto, puede garantizarse que se codifica audio con un ancho de banda mayor al tiempo que la tasa de transmisión de bits permanece invariable o la tasa de transmisión de bits cambia ligeramente.
Hágase referencia a la figura 4, que es un diagrama estructural de un primer nodo según una forma de realización de la presente invención. El primer nodo 400 incluye: un procesador 410, una memoria 420, un transceptor 430 y un bus 440.
El procesador 410, la memoria 420 y el transceptor 430 están conectados entre sí utilizando el bus 440, y el bus 440 puede ser un bus ISA, un bus PCI, un bus EISA, o similar. El bus puede clasificarse en un bus de dirección, un bus de datos, un bus de control, y similar. Para facilitar la representación, el bus en la figura 4 se representa utilizando sólo una línea en negrita, aunque no indica que sólo haya un bus o sólo un tipo de bus.
La memoria 420 está configurada para almacenar un programa. Específicamente, el programa puede incluir código de programa, y el código de programa incluye una instrucción de funcionamiento de ordenador. La memoria 420 puede incluir una memoria RAM de alta velocidad, y puede incluir además una memoria no volátil (memoria no volátil), tal como al menos una memoria de disco magnético.
El transceptor 430 está configurado para conectar otros dispositivos, y comunicarse con otros dispositivos.
El procesador 410 ejecuta el código de programa y está configurado para: para cada trama de audio en audio, cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio cumplen con una condición de modificación preestablecida, determinar un primer peso de modificación según diferencias de frecuencias espectrales de línea LSF de la trama de audio y diferencias de LSF de la trama de audio anterior; o cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio no cumplen con una condición de modificación preestablecida, determinar un segundo peso de modificación, utilizándose la condición de modificación preestablecida para determinar que la característica de señal de la trama de audio es similar a la característica de señal de la trama de audio anterior de la trama de audio; modificar un parámetro de predicción lineal de la trama de audio según el primer peso de modificación determinado o el segundo peso de modificación determinado; y codificar la trama de audio según un parámetro de predicción lineal modificado de la trama de audio.
Opcionalmente, el procesador 410 puede estar configurado específicamente para: determinar el primer peso de modificación según las diferencias de LSF de la trama de audio y las diferencias de LSF de la trama de audio anterior utilizando la fórmula siguiente:
Figure imgf000009_0001
en la que w[i] es el primer peso de modificación, lsf_new_diff[i] son las diferencias de LSF de la trama de audio, lsf_old_diff[i] son las diferencias de LSF de la trama de audio anterior de la trama de audio, i es un orden de las diferencias de LSF, un valor de i oscila entre 0 y M-1 y M es un orden del parámetro de predicción lineal.
Opcionalmente, el procesador 410 puede estar configurado específicamente para: determinar el segundo peso de modificación as 1; o
determinar el segundo peso de modificación como valor de peso de modificación preestablecido, siendo el valor de peso de modificación preestablecido mayor que 0, y siendo menor que o igual a 1.
Opcionalmente, el procesador 410 puede estar configurado específicamente para: modificar el parámetro de predicción lineal de la trama de audio según el primer peso de modificación utilizando la fórmula siguiente:
L[i]=(l-w[i])*L_old[i]+w[i]*L_new[i],
en la que w[i] es el primer peso de modificación, L[i] es el parámetro de predicción lineal modificado de la trama de audio, L_new[i] es el parámetro de predicción lineal de la trama de audio, L_old[i] es un parámetro de predicción lineal de la trama de audio anterior de la trama de audio, i es un orden del parámetro de predicción lineal, el valor de i oscila entre 0 y M-1 y M es el orden del parámetro de predicción lineal.
Opcionalmente, el procesador 410 puede estar configurado específicamente para: modificar el parámetro de predicción lineal de la trama de audio según el segundo peso de modificación utilizando la fórmula siguiente:
L[i]=(l-y)*L_old[i]+y*L_new[i],
en la que y es el segundo peso de modificación, L[i] es el parámetro de predicción lineal modificado de la trama de audio, L_new[i] es el parámetro de predicción lineal de la trama de audio, L_old[i] es el parámetro de predicción lineal de la trama de audio anterior de la trama de audio, i es el orden del parámetro de predicción lineal, el valor de i oscila entre 0 y M-1 y M es el orden del parámetro de predicción lineal.
Opcionalmente, el procesador 410 puede estar configurado específicamente para: para cada trama de audio en el audio, cuando se determina que la trama de audio no es una trama de transición, determinar el primer peso de modificación según las diferencias de frecuencias espectrales de línea LSF de la trama de audio y las diferencias de LSF de la trama de audio anterior; o cuando se determina que la trama de audio es una trama de transición, determinar el segundo peso de modificación, incluyendo la trama de transición una trama de transición de no fricativo a fricativo, o una trama de transición de fricativo a no fricativo.
Opcionalmente, el procesador 410 puede estar configurado específicamente para:
para cada trama de audio en el audio, cuando se determina que una frecuencia de inclinación de espectro de la trama de audio anterior no es mayor que un primer umbral de frecuencia de inclinación de espectro y/o que un tipo de codificación de la trama de audio no es transitorio, determinar el primer peso de modificación según las diferencias de frecuencias espectrales de línea LSF de la trama de audio y las diferencias de LSF de la trama de audio anterior; y cuando se determina que la frecuencia de inclinación de espectro de la trama de audio anterior es mayor que el primer umbral de frecuencia de inclinación de espectro y que el tipo de codificación de la trama de audio es transitorio, determinar el segundo peso de modificación; o
para cada trama de audio en el audio, cuando se determina que una frecuencia de inclinación de espectro de la trama de audio anterior no es mayor que un primer umbral de frecuencia de inclinación de espectro y/o que una frecuencia de inclinación de espectro de la trama de audio no es menor que un segundo umbral de frecuencia de inclinación de espectro, determinar el primer peso de modificación según las diferencias de frecuencias espectrales de línea LSF de la trama de audio y las diferencias de LSF de la trama de audio anterior; y cuando se determina que la frecuencia de inclinación de espectro de la trama de audio anterior es mayor que el primer umbral de frecuencia de inclinación de espectro y la frecuencia de inclinación de espectro de la trama de audio es menor que el segundo umbral de frecuencia de inclinación de espectro, determinar el segundo peso de modificación.
Opcionalmente, el procesador 410 puede estar configurado específicamente para:
para cada trama de audio en el audio, cuando se determina que una frecuencia de inclinación de espectro de la trama de audio anterior no es menor que un tercer umbral de frecuencia de inclinación de espectro, y/o que un tipo de codificación de la trama de audio anterior no es uno de cuatro tipos: de voz, genérico, transitorio y audio, y/o que una inclinación de espectro de la trama de audio no es mayor que un cuarto umbral de inclinación de espectro, determinar el primer peso de modificación según las diferencias de frecuencias espectrales de línea LSF de la trama de audio y las diferencias de LSF de la trama de audio anterior; y cuando se determina que la frecuencia de inclinación de espectro de la trama de audio anterior es menor que el tercer umbral de frecuencia de inclinación de espectro, el tipo de codificación de la trama de audio anterior es uno de los cuatro tipos: de voz, genérico, transitorio y audio, y que la frecuencia de inclinación de espectro de la trama de audio es mayor que el cuarto umbral de frecuencia de inclinación de espectro, determinar el segundo peso de modificación.
En esta forma de realización, para cada trama de audio en audio, cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio cumplen con una condición de modificación preestablecida, un dispositivo electrónico determina un primer peso de modificación según diferencias de frecuencias espectrales de línea LSF de la trama de audio y diferencias de LSF de la trama de audio anterior; o cuando se determina que una característica de señal de la trama de audio y una característica de señal de una trama de audio anterior de la trama de audio no cumplen con una condición de modificación preestablecida, el dispositivo electrónico determina un segundo peso de modificación; el dispositivo electrónico modifica un parámetro de predicción lineal de la trama de audio según el primer peso de modificación determinado o el segundo peso de modificación determinado; y codifica la trama de audio según un parámetro de predicción lineal modificado de la trama de audio. De este modo, se determinan diferentes pesos de modificación según si la característica de señal de la trama de audio y la característica de señal de la trama de audio anterior de la trama de audio cumplen con la condición de modificación preestablecida, y se modifica el parámetro de predicción lineal de la trama de audio, de modo que un espectro entre tramas de audio sea más regular. Además, el dispositivo electrónico codifica la trama de audio según el parámetro de predicción lineal modificado de la trama de audio, y por tanto, puede garantizarse que se codifica audio con un ancho de banda mayor al tiempo que la tasa de transmisión de bits permanece invariable o la tasa de transmisión de bits cambia ligeramente.
Un experto en la técnica podrá entender con claridad que las tecnologías en las formas de realización de la presente invención pueden implementarse mediante software además de una plataforma de hardware general necesaria. Basándose en este entendimiento, las soluciones técnicas de la presente invención esencialmente o la parte que contribuye a la técnica anterior pueden implementarse en forma de producto de software. El producto de software se almacena en un medio de almacenamiento, tal como una ROM/RAM, un disco duro, o un disco óptico, e incluye diversas instrucciones para hacer que un dispositivo informático (que puede ser un ordenador personal, un servidor, o un dispositivo de red) realice los procedimientos descritos en las formas de realización o algunas partes de las formas de realización de la presente invención.
En esta memoria descriptiva, las formas de realización se describen de manera progresiva. Pueden hacerse referencia entre sí para una misma parte o parte similar de las formas de realización. Cada forma de realización se centra en una diferencia con respecto a otras formas de realización. Especialmente, la forma de realización del sistema es básicamente similar a las formas de realización del procedimiento, y por tanto se describe brevemente. Para una parte relevante, puede hacerse referencia a la descripción en la parte de las formas de realización del procedimiento.
Las descripciones anteriores son maneras de implementar la presente invención, aunque no pretenden limitar el alcance de protección de la presente invención que está definido por las reivindicaciones adjuntas.

Claims (6)

REIVINDICACIONES
1. Un procedimiento de codificación de audio, que comprende:
para cada trama de audio, determinar si una trama de audio es una trama de transición o no;
determinar un primer peso de modificación según diferencias de frecuencias espectrales de línea, LSF, de la trama de audio y diferencias de LSF de una trama de audio anterior de la trama de audio cuando la trama de audio no es una trama de transición, en el que la trama de transición incluye una trama de transición de no fricativo a fricativo o una trama de transición de fricativo a no fricativo;
determinar un segundo peso de modificación cuando la trama de audio es una trama de transición;
modificar un parámetro de predicción lineal de la trama de audio de acuerdo con el primer peso de modificación o el segundo peso de modificación determinado, en el que el parámetro de predicción lineal es un coeficiente de pares espectrales lineales, LSP;
codificar la trama de audio según el parámetro de predicción lineal modificado de la trama de audio.
2. El procedimiento según la reivindicación 1, en el que el primer peso de modificación se determina utilizando la fórmula siguiente:
r-i ílsf_new _dff\i]/lsf_old_dff\i\ lsf_new_d U.í [/'] < lsj_o ld_dff [i]
\lsf_o ld_dff [/ ] / / , / ! new_ lsf_new_d iff [/] > lsf_o ld_dff [i]
en la que w[i] es el primer peso de modificación, en la que lsf_new_diff[i] son las diferencias de LSF de la trama de audio, en la que lsf_old_diff[i] son las diferencias de LSF de la trama de audio anterior de la trama de audio, y en la que i es un orden de las diferencias de LSF, un valor de i oscila entre 0 y M-1 y M es un orden del parámetro de predicción lineal.
3. El procedimiento según la reivindicación 1 u 2, en el que el parámetro de predicción lineal de la trama de audio se modifica según la fórmula siguiente:
L[i]=(l-w[i])*L_old[i]+w[i]*L_new[i],
en la que w[i] es el primer peso de modificación, L[i] es el parámetro de predicción lineal modificado de la trama de audio, L_new[i] es el parámetro de predicción lineal de la trama de audio, L_old[i] es un parámetro de predicción lineal de la trama de audio anterior, i es un orden del parámetro de predicción lineal, el valor de i oscila entre 0 y M-1 y M es el orden del parámetro de predicción lineal.
4. Un aparato de codificación de audio, que comprende una unidad de determinación (310), una unidad de modificación (320) y una unidad de codificación (330), en el que
la unidad de determinación (310) está configurada para, para cada trama de audio, determinar si una trama de audio es una trama de transición o no;
determinar un primer peso de modificación según diferencias de frecuencias espectrales de línea, LSF, de la trama de audio y diferencias de LSF de una trama de audio anterior de la trama de audio cuando la trama de audio no es una trama de transición, en el que la trama de transición incluye una trama de transición de no fricativo a fricativo o una trama de transición de fricativo a no fricativo, la unidad de determinación está configurada para determinar un segundo peso de modificación cuando la trama de audio es una trama de transición;
la unidad de modificación (320) está configurada para modificar un parámetro de predicción lineal de la trama de audio según el primer peso de modificación o el segundo peso de modificación determinado, en el que el parámetro de predicción lineal es un coeficiente de pares espectrales lineales, LSP;
la unidad de codificación (330) está configurada para codificar la trama de audio según el parámetro de predicción lineal modificado de la trama de audio.
5. El aparato según la reivindicación 4, en el que la unidad de determinación (310) está configurada específicamente para:
determinar el primer peso de modificación según las diferencias de LSF de la trama de audio y las diferencias de LSF de la trama de audio anterior utilizando la fórmula siguiente:
\lsf_new_dff \i]/lsf_old_dff\i\ lsfnew_d U.Í [/'] < lsj_o ld_dff [i] w M= \lsf_o ld_dff [/ ] / / , / ! new_ lsf_new_d Uf [/] > lsf_o ld_dff [i] en la que w[i] es el primer peso de modificación, en la que lsf_new_diff[i] son las diferencias de LSF de la trama de audio, en la que lsf_old_diff[i] son las diferencias de LSF de la trama de audio anterior, y en la que i es un orden de las diferencias de LSF, un valor de i oscila entre 0 y M-1 y M es un orden del parámetro de predicción lineal.
6. El aparato según la reivindicación 4 u 5, en el que la unidad de modificación (320) está configurada específicamente para:
modificar el parámetro de predicción lineal de la trama actual utilizando la fórmula siguiente:
Figure imgf000012_0001
en la que w[i] es el primer peso de modificación, L[i] es el parámetro de predicción lineal modificado de la trama de audio, L_new[i] es el parámetro de predicción lineal de la trama de audio, L_old[i] es un parámetro de predicción lineal de la trama de audio anterior, i es un orden del parámetro de predicción lineal, el valor de i oscila entre 0 y M-1 y M es el orden del parámetro de predicción lineal.
ES17196524T 2014-06-27 2015-03-23 Procedimiento y aparato de codificación de audio Active ES2882485T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410299590 2014-06-27
CN201410426046.XA CN105225670B (zh) 2014-06-27 2014-08-26 一种音频编码方法和装置

Publications (1)

Publication Number Publication Date
ES2882485T3 true ES2882485T3 (es) 2021-12-02

Family

ID=54936716

Family Applications (2)

Application Number Title Priority Date Filing Date
ES17196524T Active ES2882485T3 (es) 2014-06-27 2015-03-23 Procedimiento y aparato de codificación de audio
ES15811087.4T Active ES2659068T3 (es) 2014-06-27 2015-03-23 Procedimiento y aparato de codificación de audio

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES15811087.4T Active ES2659068T3 (es) 2014-06-27 2015-03-23 Procedimiento y aparato de codificación de audio

Country Status (9)

Country Link
US (5) US9812143B2 (es)
EP (3) EP3937169A3 (es)
JP (1) JP6414635B2 (es)
KR (3) KR101990538B1 (es)
CN (2) CN106486129B (es)
ES (2) ES2882485T3 (es)
HU (1) HUE054555T2 (es)
PL (1) PL3340242T3 (es)
WO (1) WO2015196837A1 (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101737254B1 (ko) * 2013-01-29 2017-05-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호, 디코더, 인코더, 시스템 및 컴퓨터 프로그램을 합성하기 위한 장치 및 방법
CN106486129B (zh) 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置
CN114898761A (zh) 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
CN111602197B (zh) 2018-01-17 2023-09-05 日本电信电话株式会社 解码装置、编码装置、它们的方法以及计算机可读记录介质
JP6962385B2 (ja) * 2018-01-17 2021-11-05 日本電信電話株式会社 符号化装置、復号装置、摩擦音判定装置、これらの方法及びプログラム
BR112021012753A2 (pt) * 2019-01-13 2021-09-08 Huawei Technologies Co., Ltd. Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório
CN110390939B (zh) * 2019-07-15 2021-08-20 珠海市杰理科技股份有限公司 音频压缩方法和装置

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW224191B (es) * 1992-01-28 1994-05-21 Qualcomm Inc
JP3270922B2 (ja) * 1996-09-09 2002-04-02 富士通株式会社 符号化,復号化方法及び符号化,復号化装置
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6199040B1 (en) * 1998-07-27 2001-03-06 Motorola, Inc. System and method for communicating a perceptually encoded speech spectrum signal
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
AU4201100A (en) * 1999-04-05 2000-10-23 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
CN1420487A (zh) * 2002-12-19 2003-05-28 北京工业大学 1kb/s线谱频率参数的一步插值预测矢量量化方法
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
KR20070009644A (ko) * 2004-04-27 2007-01-18 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치, 스케일러블 복호화 장치 및 그방법
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
JP5129117B2 (ja) * 2005-04-01 2013-01-23 クゥアルコム・インコーポレイテッド 音声信号の高帯域部分を符号化及び復号する方法及び装置
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
US8510105B2 (en) * 2005-10-21 2013-08-13 Nokia Corporation Compression and decompression of data vectors
JP4816115B2 (ja) * 2006-02-08 2011-11-16 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
CN1815552B (zh) * 2006-02-28 2010-05-12 安徽中科大讯飞信息科技有限公司 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
WO2008032828A1 (en) * 2006-09-15 2008-03-20 Panasonic Corporation Audio encoding device and audio encoding method
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
CA2676380C (en) * 2007-01-23 2015-11-24 Infoture, Inc. System and method for detection and analysis of speech
ES2778076T3 (es) 2007-03-05 2020-08-07 Ericsson Telefon Ab L M Método y disposición para suavizar ruido estacionario de fondo
US20080249767A1 (en) * 2007-04-05 2008-10-09 Ali Erdem Ertan Method and system for reducing frame erasure related error propagation in predictive speech parameter coding
CN101114450B (zh) * 2007-07-20 2011-07-27 华中科技大学 一种语音编码选择性加密方法
AU2009267529B2 (en) * 2008-07-11 2011-03-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for calculating bandwidth extension data using a spectral tilt controlling framing
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
CN102436820B (zh) * 2010-09-29 2013-08-28 华为技术有限公司 高频带信号编码方法及装置、高频带信号解码方法及装置
KR101747917B1 (ko) 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
MX2013012301A (es) 2011-04-21 2013-12-06 Samsung Electronics Co Ltd Aparato para cuantificar coeficientes de codificacion predictiva lineal, aparato de codificacion de sonido, aparato para decuantificar coeficientes de codificacion predictiva lineal, aparato de decodificacion de sonido y dispositivo electronico para los mismos.
CN102664003B (zh) * 2012-04-24 2013-12-04 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
CN106486129B (zh) * 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置

Also Published As

Publication number Publication date
EP3136383A4 (en) 2017-03-08
KR101888030B1 (ko) 2018-08-13
EP3136383A1 (en) 2017-03-01
PL3340242T3 (pl) 2021-12-06
HUE054555T2 (hu) 2021-09-28
WO2015196837A1 (zh) 2015-12-30
JP6414635B2 (ja) 2018-10-31
CN106486129A (zh) 2017-03-08
US20200027468A1 (en) 2020-01-23
US10460741B2 (en) 2019-10-29
US20250037728A1 (en) 2025-01-30
KR20180089576A (ko) 2018-08-08
CN105225670A (zh) 2016-01-06
JP2017524164A (ja) 2017-08-24
EP3340242B1 (en) 2021-05-12
EP3136383B1 (en) 2017-12-27
EP3937169A3 (en) 2022-04-13
KR20190071834A (ko) 2019-06-24
US20170076732A1 (en) 2017-03-16
CN106486129B (zh) 2019-10-25
CN105225670B (zh) 2016-12-28
US9812143B2 (en) 2017-11-07
US20210390968A1 (en) 2021-12-16
EP3340242A1 (en) 2018-06-27
US20170372716A1 (en) 2017-12-28
EP3937169A2 (en) 2022-01-12
KR20170003969A (ko) 2017-01-10
ES2659068T3 (es) 2018-03-13
KR101990538B1 (ko) 2019-06-18
KR102130363B1 (ko) 2020-07-06
US12136430B2 (en) 2024-11-05
US11133016B2 (en) 2021-09-28

Similar Documents

Publication Publication Date Title
ES2882485T3 (es) Procedimiento y aparato de codificación de audio
ES2659177T3 (es) Codificador de audio, descodificador de audio, método para proveer una información de audio codificada, método para proveer una información de audio descodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptable a la señal
CN102449690B (zh) 用于重建被擦除语音帧的系统与方法
ES2900594T3 (es) Procedimiento para determinar un modo de codificación
ES2707888T3 (es) Sistemas y procedimientos para mitigar la inestabilidad potencial de tramas
ES2774334T3 (es) Estimación de forma de ganancia para mejorar el rastreo de características temporales de banda alta
BRPI0714825A2 (pt) Sistemas e métodos para incluir um identificador a um pacote associado a um sinal de fala
ES3026208T3 (en) Audio coding device
BR112016007940B1 (pt) Método e aparelho de codificação de um quadro e memória legível por computador
BR112016005850B1 (pt) método e aparelho de extensão de largura de banda
US20150170655A1 (en) Systems and methods of blind bandwidth extension
BR112015019056B1 (pt) Métodos, aparelho e memória legível por computador para realização de controle de ganho
BR112015014956B1 (pt) Método de codificação de sinal de áudio, método de decodificação de sinal de áudio, aparelho de codificação de sinal de áudio e aparelho de decodificação de sinal de áudio
ES2952973T3 (es) Dispositivo de determinación de la función de ponderación y procedimiento para cuantificar el coeficiente de codificación de predicción lineal
ES2592522T3 (es) Codificación de audio basada en representación de coeficientes auto-regresivos
JP2019135551A (ja) オーディオ信号の時間包絡線を処理するための方法および装置、ならびにエンコーダ
EP3624115B1 (en) Method and apparatus for decoding speech/audio bitstream
ES2755152T3 (es) Método y dispositivo de procesamiento de señal