ES3012033T3 - Improving non-speech content for low rate celp decoder - Google Patents

Improving non-speech content for low rate celp decoder Download PDF

Info

Publication number
ES3012033T3
ES3012033T3 ES20172813T ES20172813T ES3012033T3 ES 3012033 T3 ES3012033 T3 ES 3012033T3 ES 20172813 T ES20172813 T ES 20172813T ES 20172813 T ES20172813 T ES 20172813T ES 3012033 T3 ES3012033 T3 ES 3012033T3
Authority
ES
Spain
Prior art keywords
time
domain excitation
frequency
excitation
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20172813T
Other languages
English (en)
Inventor
Tommy Vaillancourt
Milan Jelinek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VoiceAge EVS LLC
Original Assignee
VoiceAge EVS LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=48191141&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES3012033(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by VoiceAge EVS LLC filed Critical VoiceAge EVS LLC
Application granted granted Critical
Publication of ES3012033T3 publication Critical patent/ES3012033T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

Un método y un dispositivo para modificar la síntesis de una excitación temporal decodificada por un decodificador temporal, donde la síntesis de la excitación temporal decodificada se clasifica en una de varias categorías. La excitación temporal decodificada se convierte en una excitación frecuencial, y esta se modifica en función de la categoría en la que se clasifica la síntesis de la excitación temporal decodificada. La excitación frecuencial modificada se convierte en una excitación temporal modificada, y se suministra un filtro de síntesis con la excitación temporal modificada para producir una síntesis modificada de la excitación temporal decodificada. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Mejora de contenido no locutivo para un decodificador de CELP de baja tasa
Campo
[0002] La presente divulgación se refiere a un dispositivo y a un método para modificar una síntesis de una excitación en el dominio del tiempo decodificada por un decodificador del dominio del tiempo.
Antecedentes
[0003] Los códecs conversacionales del estado de la técnica pueden representar con una calidad muy buena una señal de habla limpia con una tasa de bits de en torno a 8 kbps y aproximarse a la transparencia con una tasa de bits de 16 kbps. Para mantener esta calidad elevada del habla incluso con una tasa de bits baja se puede usar un esquema de codificación multimodal. Las señales de sonido de entrada suelen dividirse entre diferentes categorías que reflejan sus características. Por ejemplo, las diferentes categorías pueden incluir sonora, sin voz y de inicio. El códec utiliza diferentes modos de codificación optimizados para todas estas categorías.
[0004] No obstante, algunos códecs de habla implementados no utilizan este planteamiento multimodal dando como resultado una calidad subóptima, especialmente con tasas de bits bajas para una señal de sonido diferente del habla limpia. Cuando se implementa un códec, resulta difícil modificar el codificador debido al hecho de que el flujo continuo de bits está normalizado y cualquier modificación del flujo continuo de bits vulneraría la interoperabilidad del códec. No obstante, se pueden implementar modificaciones sobre el decodificador para mejorar la calidad percibida en el lado del receptor.
La patente US n.° US 6 240 386 divulga un códec de habla que utiliza una clasificación del ruido para la compensación del mismo. Un códec de habla de múltiples tasas de bits admite una pluralidad de modos de tasa de bits de codificación seleccionando adaptativamente modos de tasa de bits de codificación de manera que se adapten a las restricciones del canal de comunicación. En modos de codificación con tasas de bits mayores, con vistas a una decodificación y una reproducción de mayor calidad se generan una representación precisa del habla a través de una CELP (predicción lineal con excitación por código) y otros parámetros de modelado asociados. Para cada modo de tasa de bits seleccionado, se seleccionan pluralidades de sublibros de códigos fijos o de innovación para su uso en la generación de vectores de innovación. El codificador de habla distingue diversas señales de voz en función de su contenido vocal. Por ejemplo, un algoritmo de Detección de Actividad Vocal (VAD) selecciona un esquema de codificación apropiado dependiendo de si la señal de habla comprende habla activa o inactiva. El codificador puede considerar distintas características de la señal de habla, incluida la agudeza[sharpness],una correlación entre retardos, una tasa de cruces por cero y una energía residual. En otra forma de realización de la presente invención, para señales activas de voz se utiliza predicción lineal con excitación por código, mientras que para señales inactivas de voz se utiliza excitación aleatoria; el nivel de energía y el contenido espectral de la señal inactiva de voz también se pueden utilizar para la codificación del ruido. El códec de habla de múltiples tasas de bits puede utilizar un procesado de detección distribuida y compensación de la señal de habla. Para una reproducción de habla perceptual de alta calidad, el códec de habla puede llevar a cabo una detección de ruido tanto en un codificador como en un decodificador. La detección de ruido puede estar coordinada entre el codificador y el decodificador. De forma similar, se puede llevar a cabo una compensación de ruido de manera distribuida entre el decodificador y el codificador.
Sumario
[0005] Según un primer aspecto, la presente invención se refiere a un dispositivo para modificar una síntesis de una excitación en el dominio del tiempo decodificada por un decodificador del dominio del tiempo según la reivindicación 1.
[0006] Según otro aspecto, la presente invención se refiere a un dispositivo para decodificar una señal de sonido codificada con parámetros de codificación, que comprende: un decodificador de una excitación en el dominio del tiempo como respuesta a los parámetros de codificación de la señal de sonido; un filtro de síntesis con capacidad de respuesta a la excitación en el dominio del tiempo decodificada, para producir una síntesis de dicha excitación en el dominio del tiempo; y el dispositivo antes descrito para modificar la síntesis de la excitación en el dominio del tiempo.
[0007] Según un tercer aspecto, la presente invención se refiere a un método para modificar una síntesis de una excitación en el dominio del tiempo decodificada por un decodificador del dominio del tiempo según la reivindicación 8.
[0008] Según un aspecto adicional, la presente invención trata sobre un método para decodificar una señal de sonido codificada con parámetros de codificación, que comprende: decodificar una excitación en el dominio del tiempo como respuesta a los parámetros de codificación de la señal de sonido; sintetizar la excitación en el dominio del tiempo decodificada, para producir una síntesis de dicha excitación en el dominio del tiempo; y el método antes descrito para modificar la síntesis de la excitación en el dominio del tiempo.
[0009]Las características anteriores y otras del dispositivo y método para modificar la síntesis de una excitación en el dominio del tiempo se pondrán más claramente de manifiesto al leer la siguiente descripción no restrictiva, ofrecida a título de ejemplo no limitativo en referencia a los dibujos adjuntos.
Breve descripción de los dibujos
[0010]En los dibujos adjuntos:
[0011]La figura 1 es un diagrama esquemático simplificado que muestra una modificación de un decodificador de CELP para la mejora de tramas sin voz inactivas y activas;
[0012]La figura 2 es un diagrama esquemático detallado que muestra la modificación del decodificador de CELP para la mejora de tramas sordas inactivas y activas;
[0013]La figura 3 es un diagrama esquemático simplificado que muestra una modificación de un decodificador de CELP para la mejora de tramas de audio genéricas; y
[0014]La figura 4 es un diagrama esquemático detallado que muestra la modificación del decodificador de CELP para la mejora de tramas de audio genéricas.
Descripción
[0015]La presente divulgación se refiere a un planteamiento para implementar en el lado del decodificador una decodificación multimodal tal que se mantenga la interoperabilidad y se incremente la calidad percibida. En la divulgación, aunque se usa la AMR-WB según se describe en la referencia [TS 26.190 del 3GPP, “Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions]”; como ejemplo ilustrativo, debe tenerse en mente que este planteamiento se puede aplicar también a otros tipos de decodificadores de habla de baja tasa de bits.
[0016]En referencia a la figura 1, para lograr esta decodificación multimodal, un decodificador de excitaciones en el dominio del tiempo 102 en primer lugar decodifica en su totalidad el flujo continuo de bits 101 recibido, por ejemplo, el flujo continuo de bits de AMR-WB, para conseguir una excitación decodificada por Predicción Lineal con Excitación por Código (CELP) en el dominio del tiempo completa. La excitación en el dominio del tiempo decodificada se procesa a través de un filtro de síntesis de Predicción Lineal (LP) 103 para obtener una síntesis, en el dominio del tiempo, de la señal de habla/sonido a la frecuencia de muestreo interna del decodificador. Para la AMR-WB, esta frecuencia de muestreo interna es 12.8 kHz, pero para otro códec podría ser diferente.
[0017]La síntesis, en el dominio del tiempo, de la trama actual a partir del filtro de síntesis de LP 103 se procesa a través de un clasificador 104-105-106-301 (figuras 1, 2 y 3) al que se le suministra información de detección de actividad vocal (VAD) 109 del flujo continuo de bits 101. El clasificador 104-105-106-301 analiza y categoriza la síntesis en el dominio del tiempo como uno de entre habla inactiva, habla sonora activa, habla sorda activa o audio genérico. El habla inactiva (detectada en 1051) incluye todos los ruidos de fondo entre las ráfagas de habla, el habla sonora activa (detectada en 1061) representa una trama durante una ráfaga de habla activa que tiene características sonoras, el habla sorda activa (detectada en 1062) representa una trama durante una ráfaga de habla que tiene características sin voz, y el audio genérico (detectado en 3010) representa música o habla reverberante. Se pueden añadir otras categorías o deducir las mismas a partir de las categorías anteriores. El planteamiento dado a conocer pretende mejorar en particular, aunque no de forma exclusiva, la calidad percibida del habla inactiva, del habla sorda activa y del audio genérico.
[0018]Una vez que se determina la categoría de la síntesis en el dominio del tiempo, un conversor/modificador 107 convierte la excitación decodificada del decodificador de excitaciones en el dominio del tiempo 102 al dominio de la frecuencia utilizando una transformada de frecuencia sin solapamiento. También se puede utilizar una transformada con solapamiento, pero esta implica un incremento del retardo de extremo a extremo el cual no es deseable en la mayoría de los casos. La representación en frecuencia de la excitación se divide a continuación en diferentes bandas de frecuencia en el conversor/modificador 107. Las bandas de frecuencia pueden tener un tamaño fijo, se pueden basar en bandas críticas [J. D. Johnston, “Transform coding of audio signal using perceptual noise criteria” [“Codificación por transformada de una señal de audio usando criterios de ruido perceptuales”], IEEE J. Select. Areas Commun., vol. 6, págs. 314-323, Febrero de 1988], o cualesquiera otras combinaciones. A continuación, se calcula la energía por banda y la misma se guarda en memoria en el conversor/modificador 107 para su uso después del proceso de remodelación con el fin de garantizar que la modificación no altere el nivel de energía global de las tramas.
[0019]La modificación de la excitación en el dominio de frecuencia según es llevada a cabo por el conversor/modificador 107 puede diferir con la clasificación de la síntesis. Para el habla inactiva y el habla sorda activa, la remodelación puede consistir en una normalización de las frecuencias bajas con una adición de ruido y la sustitución del contenido de alta frecuencia por ruido solamente. Una frecuencia de corte de la síntesis en el dominio del tiempo decodificada, el límite entre la frecuencia baja y la alta, se puede fijar a un valor de aproximadamente 1 a 1.2 kHz. Se mantiene parte del contenido de baja frecuencia de la síntesis en el dominio del tiempo decodificada para evitar artefactos cuando se conmuta entre una trama no modificada y una trama modificada. También es posible hacer que la frecuencia de corte sea variable de una trama a otra eligiendo un segmento[bin]de frecuencias en función de la altura tonal decodificada del decodificador de excitaciones en el dominio del tiempo 102. El proceso de modificación tiene como efecto eliminar el tipo de ruido eléctrico asociado al códec de habla de baja tasa de bits. Después del proceso de modificación, se aplica una adaptación de ganancia por banda de frecuencia para recuperar el nivel de energía inicial por banda de frecuencia con un incremento ligero de la energía para las frecuencias por encima de 6 kHz con el fin de compensar una caída de ganancia del filtro LP en esas frecuencias.
[0020]Para una trama categorizada como audio genérico, el procesado en el conversor/modificador 107 es diferente. En primer lugar, se lleva a cabo la normalización por banda de frecuencia para todas las bandas. En la operación de normalización, todos los segmentos dentro de una banda de frecuencia que estén por debajo de una fracción del valor de frecuencia máximo dentro de la banda se fijan a cero. Para bandas de frecuencia más altas, se ponen a cero más segmentos por banda. Esto simula un esquema de cuantificación en frecuencia con un balance de bits alto, pero que tiene más bits asignados a las frecuencias inferiores. Después del proceso de normalización, se puede aplicar un relleno de ruido para sustituir los segmentos puestos a cero por ruido aleatorio aunque, dependiendo de la tasa de bits, el relleno de ruido no siempre se utiliza. Después del proceso de modificación, se aplica una adaptación de ganancia por banda de frecuencia para recuperar el nivel de energía inicial por banda de frecuencia, y sobre la banda de frecuencia se aplica una corrección de inclinación que depende de la tasa de bits para compensar la subestimación sistemática del filtro LP en caso de una entrada de audio genérico. Otra diferenciación correspondiente a la vía de audio genérico procede del hecho de que la adaptación de ganancia no se aplica sobre todos los segmentos de frecuencias. Debido a que el espectro de audio genérico suele ser más picudo que el habla, la calidad percibida mejora cuando resulta posible identificar impulsos espectrales y poner cierto énfasis en ellos. Para ello, se aplica una adaptación de ganancia completa con corrección de inclinación únicamente a los segmentos de energía más altos dentro de una banda de frecuencia. Para los segmentos de energía más bajos, únicamente se aplica una fracción de la adaptación de ganancia a esos segmentos. Esto da como resultado un incremento de la dinámica espectral.
[0021]Después de la remodelación de las frecuencias de excitación y la adaptación de ganancia, el conversor/modificador 107 aplica una transformada inversa de frecuencia para obtener la excitación en el dominio del tiempo modificada. Esta excitación modificada se procesa a través del filtro de síntesis de LP 108 para obtener una síntesis en el dominio del tiempo modificada. Un módulo de sobrescritura 110 simplemente sobrescribe la síntesis decodificada del dominio del tiempo del filtro de síntesis de LP 103 con la síntesis en el dominio del tiempo modificada del filtro de síntesis de LP 108 dependiendo de la clasificación de la síntesis decodificada del dominio del tiempo antes del desénfasis final y el remuestreo a 16 kHz (para el ejemplo de AMR-WB) en un filtro de desénfasis y remuestreador 112.
[0022]En el caso del habla inactiva, la única diferencia en comparación con la modificación del habla sorda activa es el uso de un suavizador 111 para suavizar el filtro de síntesis de LP 108 con el fin de proporcionar una variación de ruido más suave. Las modificaciones restantes son iguales a las correspondientes a la vía sorda activa. En el siguiente texto se describe en referencia a la figura 2 un ejemplo más detallado de implementación del planteamiento dado a conocer.
1) Clasificación de señales
[0023]Haciendo referencia a la figura 2, el clasificador 104-105-106-301 lleva a cabo en el decodificador una clasificación de la síntesis en el dominio del tiempo 1021 de la señal de habla/sonido según se ha descrito anteriormente para las tasas de bits en las que se aplica la modificación. A efectos de simplificar los dibujos, en la figura 2 no se muestra el filtro de síntesis de LP 103. La clasificación en el decodificador es similar a la que se ha descrito en las referencias [Milan Jelinek y Philippe Gournay; solicitud de patente PCT WO03102921A1, “A method and device for efficient frame erasure concealment in linear predictive based speech codecs” [“Método y dispositivo para una ocultación eficiente de tramas borradas en códecs de habla basados en la predicción lineal”]] y [T Vaillancourt et al., solicitud de patente PCT WO2007073604A1, “Method and device for efficient frame erasure concealment in speech codecs” [“Método y dispositivo para una ocultación eficiente de tramas borradas en códecs de habla”]], más alguna adaptación para la detección de audio genérico. Los siguientes parámetros se usan para la clasificación de las tramas en el decodificador: una correlación normalizadarx,una medida de la inclinación espectralet,un contador de estabilidad de altura tonalpc,una energía de trama relativa de la señal de sonido al final de la trama actualEsy un contador de cruces por cero zc. Se explica seguidamente el cálculo de estos parámetros que se utilizan para clasificar la señal.
[0024]La correlación normalizadarxse calcula al final de la trama basándose en la síntesis, en el dominio del tiempo, de la señal de habla/sonidos out(n).Se utiliza el desplazamiento[lag]de altura tonal de la última subtrama procedente del decodificador de excitaciones en el dominio del tiempo 102. Más específicamente, la correlación normalizadarxse calcula de forma síncrona en relación con la altura tonal de la siguiente manera:
dondex(n)= s out(n), Tes el desplazamiento de altura tonal de la última subtrama,t=L-T,yLes el tamaño de la trama. Si el desplazamiento de altura tonal de la última subtrama es superior a3N/2(siendoNel tamaño de la subtrama),Tse fija al desplazamiento de altura tonal promedio de las dos últimas subtramas.
[0025]Por lo tanto, la correlación normalizadarxse calcula utilizando la síntesis, en el dominio del tiempo, de la señal de habla/sonidos out(n).Para desplazamientos de altura tonal inferiores al tamaño de la subtrama (64 muestras), la correlación normalizada se calcula dos veces en los instantest=L-Tyt=L-2T,y la correlación normalizadarxviene dada como el promedio de estos dos cálculos.
[0026]El parámetro de inclinación espectraletcontiene la información sobre la distribución de la energía en frecuencia. Como ejemplo no limitativo, la inclinación espectral en el decodificador se estima en forma del primer coeficiente de autocorrelación normalizado de la síntesis en el dominio del tiempo. Se calcula basándose en las 3 últimas subtramas en forma de:
dondex(n) = s out(n)es la señal de síntesis en el dominio del tiempo,Nes el tamaño de la subtrama yLes el tamaño de la trama (N=64 y L=256 en el ejemplo de AMR-WB).
[0027]El contador de estabilidad de altura tonalpcevalúa la variación del periodo de la altura tonal. Se calcula en el decodificador de la siguiente manera:
pc=p+p2-p i- po| (3)
[0028]Los valores po,pi, p2yp3se corresponden con el desplazamiento de altura tonal de bucle cerrado de las 4 subtramas de la trama actual (en el ejemplo de AMR-WB).
[0029]La energía de trama relativaEsse calcula como una diferencia entre la energía de la trama actualEfen dB y su promedio a largo plazoEn
donde la energía de la trama actualEfes la energía de la síntesis en el dominio del tiempos out(n)en dB calculada de manera síncrona en relación con la altura tonal al final de la trama como
donde L=256 (en el ejemplo de AMR-WB) es la longitud de la trama yTes el desplazamiento de altura tonal promedio de las dos últimas subtramas. SiTes inferior al tamaño de la subtrama, entoncesTse fija a 2T(la energía calculada utilizando dos periodos de altura tonal para desplazamientos de altura tonal cortos).
[0030]La energía promediada a largo plazo se actualiza sobre tramas de habla activa utilizando la siguiente relación:
[0031]El último parámetro es el contador de cruces por cerozccalculado sobre una trama de la síntesis en el dominio del tiempos out(n).Como ejemplo no limitativo, el contador de cruces por cerozccuenta el número de veces que el signo de la síntesis en el dominio del tiempo cambia de positivo a negativo durante ese intervalo.
[0032]Para conseguir que la clasificación sea más robusta, los parámetros de clasificación se consideran juntos formando una función de méritofm.Con ese fin, los parámetros de clasificación en primer lugar se escalan utilizando una función lineal. Considérese un parámetro px, su versión escalada se obtiene usando:
ps=kp ■ px+Cp(7)
[0033]El contador de estabilidad de altura tonal escaladopcse recorta entre 0 y 1. Los coeficientes de funciónkpyCpse han hallado experimentalmente para cada uno de los parámetros. Los valores utilizados en este ejemplo de implementación se resumen en la Tabla 1:
Tabla 1. Parámetros de clasificación de las tramas en el decodificador y los coeficientes de sus funciones de escalado respectivas
[0034]La función de mérito se define como:
f „ = j ( 2 . r ; e; p c ‘ E ; z c ‘ )
(8)
donde el superíndice s indica la versión escalada de los parámetros.
[0035]La clasificación de las tramas se realiza a continuación utilizando la función de méritofmy siguiendo las reglas resumidas en la Tabla 2:
Tabla 2: Reglas de clasificación de la señal en el decodificador
[0036]Además de esta clasificación, la información 109 sobre la detección de actividad vocal (VAD) por parte del codificador se puede transmitir al flujo continuo de bits 101 (figura 1) como ocurre con el ejemplo de AMR-WB. De este modo, se envía un bit al flujo continuo de bits 101 para especificar si el codificador considera o no la trama actual como contenido activo (<v>A<d>= 1) o contenido inactivo (ruido de fondo, VAD = 0). Cuando la información de VAD indica que el contenido es inactivo, la parte de clasificador 104, 105, 106 y 301 sobrescribe entonces la clasificación como SORDA.
[0037]El esquema de clasificación también incluye una detección de audio genérico (véase la parte de clasificador 301 de la figura 3). La categoría de audio genérico incluye música, habla reverberante y puede incluir también música de fondo. Una segunda etapa de clasificación permite que el clasificador 104-105-106-301 determine con buena confianza que la trama actual se puede categorizar como audio genérico. Para materializar esta segunda etapa de clasificación se utilizan dos parámetros. Uno de los parámetros es la energía total de la tramaEfsegún como se formula en la ecuación (5).
[0038]En primer lugar, se calcula una media de las últimas cuarenta (40) variaciones de energía de trama totalEdfutilizando la siguiente relación:
[0039]A continuación, usando la siguiente relación se determina una desviación estadística del historial de variación de energíaoedurante las últimas quince (15) tramas:
[0040]La desviación resultanteoeproporciona una indicación sobre la estabilidad de la energía de la síntesis decodificada. Típicamente, la música tiene una estabilidad de energía mayor (menor desviación estadística del historial de variación de energía) que el habla.
[0041]Adicionalmente, la clasificación de la primera etapa se utiliza para evaluar el intervalo entre dos tramas clasificadas como sin vozNuvcuando la energía de tramaEf,según se formula en la ecuación (5), es superior a -12 dB. Cuando una trama se clasifica como sorda y la energía de tramaEfes superior a -9 dB, lo cual significa que la señal es sorda pero no silencio, si la energía de habla activa a largo plazoEn,según se formula en la ecuación (6), está por debajo de 40 dB, el contador de intervalos sordos se fija a 16, de lo contrario, el contador de intervalos sordosNuvse decrementa en 8. El contadorNuvtambién está limitado entre 0 y 300 para una señal de habla activa y entre 0 y 125 para una señal de habla inactiva. Cabe recordar que, en el ejemplo ilustrativo, la diferencia entre una señal de habla activa e inactiva se puede deducir a partir de la información de detección de actividad vocal VAD incluida en el flujo continuo de bits 101.
[0042]A partir de este contador de tramas sin voz se deduce un promedio a largo plazo de la manera siguiente para una señal de habla activa:
N u v¡, =0.9 •N uv+ 0.1 •N uv('11 )'
[0043]Y de la manera siguiente para una señal de habla inactiva:
[0044]Además, cuando el promedio a largo plazo es muy alto y la desviaciónoees alta, por ejemplo cuandoNuv> 140 yo e> 5 en el ejemplo actual de implementación, el promedio a largo plazo se modifica de la siguiente manera:
= 0.2 •N„ V(| 80 ( 13 )
[0045]Este parámetro sobre el promedio a largo plazo del número de tramas entre tramas clasificadas como sin voz es utilizado por el clasificador 104-105-106-301 para determinar si la trama debe considerarse o no como audio genérico. Cuanto más próximas en el tiempo estén las tramas sin voz, más probable será que la trama presente características de habla (con menor probabilidad audio genérico). En el ejemplo ilustrativo, el umbral para decidir si una trama se considera como audio genéricoGase define de la siguiente manera:
Una trama esGasi:
Nu mv,u> 140yA '^< 112Z- (14)
[0046]Para no clasificar una variación de energía grande como audio genérico, sino conservarla como habla activa, se añade el parámetro definido en la ecuación (9).
[0047]La modificación llevada a cabo sobre la excitación depende de la clasificación de la trama y para algún tipo de tramas no se produce ninguna modificación en absoluto. La siguiente tabla 3 resume los casos en los que se puede llevar a cabo o no una modificación.
Tabla 3: Categoría de la señal para una modificación de la excitación
2) Transformada en frecuencia
[0049]Durante la fase de modificación en el dominio de la frecuencia, es necesario representar la excitación en el dominio de la transformada. Por ejemplo, la conversión de tiempo a frecuencia se logra mediante un conversor de dominio del tiempo a frecuencia 201 del conversor/modificador 107 usando una DCT (Transformada de Coseno Discreta) de tipo II que proporciona una resolución de frecuencia de 25 Hz, aunque se puede utilizar cualquier otra transformada adecuada. En caso de que se use otra transformada, puede que sea necesario revisar de manera correspondiente la resolución de frecuencia (definida anteriormente), el número de bandas de frecuencia y el número de segmentos de frecuencias por banda (definidos más adelante). A continuación se proporciona la representación en frecuencia de la excitación de CELP en el dominio del tiempofecalculada en el conversor de dominio del tiempo a frecuencia 201:
donde etd(n) es la excitación de CELP en el dominio del tiempo yLes la longitud de la trama. En el ejemplo de la AMR-WB, la longitud de la trama es 256 muestras para una frecuencia de muestreo interna correspondiente de 12.8 kHz.
[0050]En un decodificador de CELP del dominio del tiempo tal como el 102, la señal de excitación en el dominio del tiempo viene dada por
eld (n )=bv (n ) g c ( n )
(15)
dondev(n)es la contribución del libro de códigos adaptativo,bes la ganancia del libro de códigos adaptativo,c(n)es la contribución del libro de códigos fijo, g es la ganancia del libro de códigos fijo.
3) Análisis de energía por banda
[0051]Antes de cualquier modificación sobre la excitación en el dominio del tiempo, el conversor/modificador 107 comprende un calculador de ganancias 208-209-210 que incluye a su vez un subcalculador 209 para calcular la energía por bandaEbde la excitación del dominio de la frecuencia y guarda en memoria la energía por bandaEbcalculada, para una ajuste de energía después de la remodelación del espectro de excitación. Para una frecuencia de muestreo de 12.8 kHz, la energía se puede calcular con el subcalculador 209 de la siguiente manera:
dondeCBbrepresenta los segmentos de frecuencias acumulados por banda yBbel número de segmentos por banda de frecuencia definidos como:
Bb={4, 4, 4, 4, 4, 5, 6, 6, 6, 8, 8, 10, 11, 13, 15, 18, 22, 16, 16, 20, 20, 20, 16}
'0,8,12,16,20,25,31,37,43,51,59,69,80,93,1
C B b '108,126,148,164,180,200,220,240
[0052]Las bandas de baja frecuencia se pueden corresponder con las bandas de audio críticas según se describe en [Milan Jelinek y Philippe Gournay. Solicitud de patente PCT WO03102921A1, “A method and device for efficient frame erasure concealment in linear predictive based speech codecs” [“Método y dispositivo para una ocultación eficiente de tramas borradas en códecs de habla basados en la predicción lineal”]], pero las bandas de frecuencia por encima de 3700 Hz pueden ser un poco más cortas para adaptarse mejor a la posible variación de energía espectral en esas bandas. También es posible cualquier otra configuración de bandas espectrales.
4) Modificación de la excitación para tramas sin voz inactivas y activas
a) Frecuencia de corte de la contribución en el dominio del tiempo con respecto al relleno de ruido
[0053]Para lograr una conmutación transparente entre la excitación no modificada y la excitación modificada para tramas inactivas y tramas sin voz activas, se mantienen al menos las frecuencias inferiores de la contribución de la excitación en el dominio del tiempo. El conversor/modificador 107 comprende un calculador de frecuencias de corte 203 para determinar una frecuencia en la que se deja de utilizar la contribución en el dominio del tiempo, la frecuencia de cortefc ,que tiene un valor mínimo de 1.2 kHz. Esto significa que siempre se mantienen los primeros 1.2 kHz de la excitación decodificada y, dependiendo del valor de altura tonal decodificado del decodificador de excitaciones en el dominio del tiempo 102, esta frecuencia de corte puede ser mayor. A partir de la altura tonal más baja de todas las subtramas se calcula el 8.° armónico y la contribución en el dominio del tiempo se mantiene hasta este 8.° armónico. Una estimación del 8.° armónico se calcula de la manera siguiente:
(BFS)
h8.! m in(no)(17)
° - i<Nsub
dondeFs= 12800 Hz,Nsubes el número de subtramas yTes la altura tonal de la subtrama decodificada. Para todoi<NbdondeNbes la banda de frecuencia máxima incluida en el intervalo de frecuenciasLf,se realiza una verificación para hallar la banda en la que se ubica el 8.° armónico buscando la banda más alta para la cual se sigue verificando la siguiente desigualdad:
(hs, > L f ( i))(18)
dondeLfse define como:
[0054]Al índice de esa banda de frecuencia enLfse le denominará /<a.«>e indica la banda de frecuencia en la que es probable que se ubique el 8.° armónico. El calculador de frecuencias de corte 203 calcula la frecuencia de corte finalftcen forma de la frecuencia más alta entre 1.2 kHz y la última frecuencia de la banda de frecuencia en la que es probable que se ubique el 8.° armónico(Lf(/<8.°>)), utilizando la siguiente relación:
ftc =max(L/ (í8.2),1.2kHz)(19)
b) Normalización y relleno de ruido
[0055]El conversor/modificador 107 comprende además un fijador a cero 204 que pone a cero los segmentos de frecuencias de las bandas de frecuencia por encima de la frecuencia de cortef c.
[0056]Para tramas inactivas y tramas sin voz activas, un normalizador 205 del conversor/modificador 107 normaliza los segmentos de frecuencias por debajo def cde las bandas de frecuencia de la representación en frecuencia de la excitación de CELP en el dominio del tiempof eentre [0, 4] utilizando la siguiente relación:
[0057]A continuación, el conversor/modificador 107 comprende un generador de ruido aleatorio 206 para generar ruido aleatorio y se lleva a cabo un relleno de ruido simple a través de un sumador 207 para añadir ruido por todos los segmentos de frecuencias a un nivel constante. La función que describe la adición de ruido se define a continuación como:
para
j = 0 : L - l
(21)
/ cWÜ ') = / cWÜ ') 0-75 - r a ^ ( )
donderandes un generador de números aleatorios que está limitado entre -1 y 1.
c) Análisis de energía por banda del espectro de excitación modificado
[0058]El subcalculador 208 del calculador de ganancias 208-209-210 determina la energía por banda después de la remodelación del espectroEbutilizando el mismo método que el descrito en la sección 3 anterior.
d) Adaptación de energía
[0059]Para tramas inactivas y tramas sin voz activas, la adaptación de energía consiste únicamente en ajustar la energía por banda después de la modificación del espectro de excitación a su valor inicial. Para cada bandai,el subcalculador 210 del calculador de ganancias 208-209-210 determina una ganancia de adaptaciónGbpara aplicarla a todos los segmentos en la banda de frecuencia con el fin de adaptar la energía de la siguiente manera:
(22)
dondeEb(i)es la energía por banda antes de la modificación del espectro de excitación según se determina en el subcalculador 209 utilizando el método de la sección 3 anterior yE b (i)es la energía por banda después de la modificación del espectro de excitación según se calcula en el subcalculador 208. Para una banda específicai, la excitación en el dominio de la frecuencia, modificada (desnormalizada),f¡,dNsegún se determina en el subcalculador 210 se puede escribir como:
para
dondeCBbyBbse han definido en la sección 3 anterior.
5) Modificación de la excitación para tramas de audio genéricas
a) Normalización y relleno de ruido
[0060]A continuación se hará referencia a la figura 3. Para tramas de audio genéricas según determina la parte de clasificador 301, la normalización es ligeramente diferente y la lleva a cabo un normalizador 302. En primer lugar, el factor de normalizaciónNfcambia de una banda a otra, utilizándose un valor mayor para bandas de baja frecuencia y un valor menor para bandas de alta frecuencia. La idea es permitir una mayor amplitud en las bandas de baja frecuencia en las que la ubicación de los impulsos es más precisa, y una menor amplitud en las bandas de mayor frecuencia en las que la ubicación de los impulsos es menos precisa. En este ejemplo ilustrativo, el factor de normalización variableNfpor banda de frecuencia se define como:
Nf={16, 16, 16, 16, 16, 16, 16, 12, 12, 12, 12, 8, 8, 8, 8, 8, 4, 4, 2, 2, 1, 1, 1}
[0061]Para una banda de frecuencia específicai,la normalización de la representación en frecuencia de la excitación en el dominio del tiempo (excitación en el dominio de la frecuencia)f ede tramas de audio genéricas se puede describir de la siguiente manera:
dondeBbes el número de segmentos por banda de frecuencia, los segmentos de frecuencia acumulados por banda sonCBbyfeN ( j)es la excitación en el dominio de la frecuencia, normalizada.BbyCBbse han descrito en la sección 3 anterior.
[0062]Además, el normalizador 302 comprende un fijador a cero (no mostrado) para poner a cero todos los segmentos de frecuencias por debajo de una fracción Z/ del valor máximo defeN
con el fin de obtenerf¡¡N(j):
donde Z/ se puede representar como:
Zf= {1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0 .5, 0 .5, 0 .5}
[0063] Se puede llevar a cabo una puesta a cero más agresiva incrementando el valor del vector Z/ , si se desea que el espectro sea más picudo.
b) Análisis de energía por banda del espectro de excitación modificado
[0064] La parte de cálculo 303 de un calculador de ganancias 303-304-306 determina la energía por banda después de la remodelación del espectroEbutilizando el mismo método que el descrito en la sección 3 anterior.
c) Adaptación de energía
[0065]La figura 3 muestra el calculador de ganancias 303-304-306 y la figura 4 describe de forma más detallada la parte de cálculo 306 de este calculador de ganancias.
[0066]Para tramas de audio genéricas, la adaptación de energía es más peliaguda ya que su finalidad también es incrementar la dinámica espectral. Para cada banda de frecuenciai,un subcalculador 413 de la parte de cálculo 306 del calculador de ganancias 303-304-306 calcula una ganancia estimadaGedefinida de manera similar a la de la ecuación (22):
dondeEb(i)es la energía por banda antes de la modificación del espectro de excitación según se determina en la parte de cálculo 304 utilizando el método que se ha descrito en la sección 3 anterior, yE’b(i)es la energía por banda después de la modificación del espectro de excitación según se calcula en la parte de cálculo 303.
[0067]Un subcalculador 414 de la parte de cálculo 306 aplica la gananciaGea los primeros 400 Hz (o primeras 4 bandas) de la excitación en el dominio de la frecuencia, normalizada,f ’eNdel normalizador 302 y del divisor de espectro 401-420 para proporcionar una excitación en el dominio de la frecuencia, modificada (desnormalizada),f edNutilizando la siguiente relación:
paraCBb(í) < j < CBb( i<) f í &( í ) lo <¿<4>(27)
[0068]Un buscador 404 determina el valor máximo™ f< S ^eN^ ^ por bandaipor encima de 400 Hz, dondea = CBb( i)yb=CBb(i)Bb( i) se han definido en la sección 3 anterior.
[0069]Para las bandas de frecuencia comprendidas entre 400 Hz y 2 kHz (bandas 4 a 12) de la excitación en el dominio de la frecuencia, normalizada, (véase el módulo 420 y 450), si la excitación en el dominio de la frecuencia,f ' eN(J)>0.86max(|/eJV(/)l)
normalizada, en un segmento de frecuenciasâ )<b(véase el módulo 451), un amplificador 402 amplifica la gananciaGodel subcalculador 413 en un factor 1.1 como se muestra en la línea superior de la ecuación (28). Un subcalculador 403 aplica la ganancia amplificada del amplificador 402 a la excitación espectral normalizadaf ’eNen el segmento de frecuencias en concordancia con la primera línea de la ecuación (28) para obtener la excitación en el dominio de la frecuencia, modificada, (desnormalizada)f ’edN.
[0070]Nuevamente para las bandas de frecuencia comprendidas entre 400 Hz y 2 kHz (bandas 4 a 12) de la excitación en el dominio de frecuencia, normalizada, (véase el módulo 420 y 450), si la excitación en el dominio def ' eN(j)< 0.86max(|/eJV(/)l)
frecuencia, normalizada, en un segmento de frecuenciasa<j<b(véase el módulo 451), un atenuador 405 atenúa la gananciaGedel subcalculador 413 en un factor 0.86 como se muestra en la línea inferior de la ecuación (28). Un subcalculador 406 aplica la ganancia atenuada del atenuador 405 a la excitación espectral normalizadaf ’eNen el segmento de frecuencias en concordancia con la línea inferior de la ecuación (28) para obtener la excitación en el dominio de la frecuencia, modificada (desnormalizada)f ’edN.
[0071]En resumen, la excitación espectral modificada (desnormalizada)f ’edNviene dada de la siguiente manera:
(28)
[0072]Finalmente, para partes superiores del espectro, en este ejemplo las bandas de frecuencia por encima de 2 kHz (bandas > 12) de la excitación en el dominio de la frecuencia, normalizada (véase el módulo 420 y 450), si la excitación en el dominio de la frecuencia, normalizada, en un segmento de frecuenciasí eNÜ) > 0.86 max(|/eiV(/)|)
â )<b(véase el módulo 452), a la gananciaGese le añade una inclinación que es una función de la banda de frecuenciaiy que también puede ser una función de la tasa de bits para compensar la estimación de energía demasiado baja del filtro de LPC. El valor de la inclinación por banda de frecuencia5(i)se formula como:
[0073]La inclinación se calcula con el calculador de inclinaciones 407-408 y se aplica a la excitación en el dominio de la frecuencia, normalizada,f ’eNpor segmento de frecuencias en concordancia con la línea superior de la ecuación (30) mediante un subcalculador 409 para obtener la excitación en el dominio de la frecuencia, modificada (desnormalizada)f ’edN.
[0074]Nuevamente para partes superiores del espectro, en este ejemplo ilustrativo las bandas de frecuencia por encima de 2 kHz (bandas > 12) de la excitación en el dominio de la frecuencia, normalizada (véase el módulo 420 y 450), si la excitación en el dominio de la frecuencia, normalizada, en un segmento de frecuenciasf ' eN(J) <0.86m ax(|f eN(f)\)
a^J<b(véase el módulo 452), un atenuador 410 calcula una ganancia de atenuación l / ' t,N0)/max(l/«jv0)l)]2
J<baplicada a la excitación espectral normalizadaf ’eNpor segmento de frecuencias en concordancia con la línea inferior de la ecuación (30) mediante un subcalculador 411 para obtener la excitación en el dominio de la frecuencia, modificada (desnormalizada) f W
[0075]En resumen, la excitación espectral desnormalizadaf ’edNse determina de la siguiente manera:
dondeaybse han descrito anteriormente en la presente. También es posible incrementar adicionalmente la ganancia aplicada a las últimas bandas, donde la adaptación de energía del LPC es la peor.
6) Transformada inversa de frecuencia
[0076]Un combinador 453 combina las contribuciones a la excitación en el dominio de la frecuencia, modificada (desnormalizada)f ’edNde los subcalculadores 414, 403, 406, 409 y 411 para formar la excitación en el dominio de la frecuencia, modificada (desnormalizada)f ’edNcompleta.
[0077]Después de que se haya completado el procesado en el dominio de la frecuencia, se aplica una transformada inversa de frecuencia-tiempo 202 a la excitación en el dominio de la frecuencia, modificada (desnormalizada)f ’edNdel combinador 453 para hallar la excitación modificada en el dominio del tiempo. En esta forma de realización ilustrativa, la conversión de frecuencia a tiempo se logra con la inversa de la misma DCT de tipo II que la usada para la conversión de tiempo a frecuencia, obteniéndose una resolución de 25 Hz. Nuevamente, se puede utilizar cualquier otra transformada. La excitación en el dominio del tiempo modificada eíd se obtiene como se muestra seguidamente:
donde /e<¡/v(n) es la representación en frecuencia de la excitación modificada yLes la longitud de la trama. En este ejemplo ilustrativo, la longitud de la trama es 256 muestras para una frecuencia de muestreo interna correspondiente de 12.8 kHz (AMR-WB).
7) Filtrado de síntesis y sobrescritura de la síntesis de CELP actual
[0078]Una vez que se ha completado la modificación de la excitación, la excitación modificada se procesa a través del filtro de síntesis 108 para obtener una síntesis modificada para la trama actual. El módulo de sobrescritura 110 utiliza esta síntesis modificada para sobrescribir la síntesis decodificada con lo cual se incrementa la calidad de percepción.
[0079]A continuación se pueden llevar a cabo un desénfasis y un remuestreo a 16 kHz finales en el filtro de desénfasis y remuestreador 112.

Claims (14)

REIVINDICACIONES
1. Dispositivo para modificar, durante la decodificación de una señal de sonido, una síntesis de una excitación en el dominio del tiempo decodificada por un decodificador del dominio del tiempo (102), que comprende:
un clasificador (104, 105, 106) configurado para clasificar la síntesis de la excitación en el dominio del tiempo decodificada en una de entre una serie de categorías;
un primer conversor (107, 201) configurado para convertir la excitación en el dominio del tiempo decodificada en una excitación en el dominio de la frecuencia;
un modificador (107, 203, 204, 205, 206, 207, 208, 209,210) configurado para modificar la excitación en el dominio de la frecuencia en función de la categoría en la que la síntesis de la excitación en el dominio del tiempo decodificada es clasificada por el clasificador (104, 105, 106);
un segundo conversor (107, 202) configurado para convertir la excitación en el dominio de la frecuencia, modificada en una excitación en el dominio del tiempo modificada;
un filtro de síntesis (108) configurado para que se le suministre la excitación en el dominio del tiempo modificada para producir una síntesis modificada de la excitación en el dominio del tiempo decodificada;
en el que el modificador (107, 203, 204, 205, 206, 207, 208, 209, 210) comprende:
un calculador (203) configurado para calcular una frecuencia de corte en la que se deja de utilizar una contribución de excitación en el dominio del tiempo,
en el que la frecuencia de corte tiene un valor mínimo de 1.2 kHz;
un fijador a cero (204) configurado para poner a cero la excitación en el dominio de la frecuencia por encima de la frecuencia de corte;
un normalizador (205) de la excitación en el dominio de la frecuencia por debajo de la frecuencia de corte; un generador de ruido aleatorio (206) configurado para generar un ruido aleatorio; y
un sumador (207) configurado para añadir el ruido aleatorio a la excitación en el dominio de la frecuencia, puesta a cero por encima de la frecuencia de corte y normalizada por debajo de dicha frecuencia de corte.
2. Dispositivo para modificar una síntesis de una excitación en el dominio del tiempo según la reivindicación 1, en el que la frecuencia de corte está calculada a partir de una función de una altura tonal decodificada de la excitación en el dominio del tiempo.
3. Dispositivo para modificar una síntesis de una excitación en el dominio del tiempo según una cualquiera de las reivindicaciones 1 a 2, en el que el cálculo de la frecuencia de corte comprende el cálculo de una estimación del 8.° armónico de la excitación.
4. Dispositivo para modificar una síntesis de una excitación en el dominio del tiempo según una cualquiera de las reivindicaciones 1 a 3, en el que la excitación en el dominio de la frecuencia está dividida en bandas de frecuencia, y en el que el modificador (107, 203, 204, 205, 206, 207, 208, 209, 210) comprende además:
un calculador (208, 209, 210) de una ganancia de adaptación para ajustar la energía por banda después de la modificación del espectro de excitación a su valor inicial,
en el que el calculador de la ganancia de adaptación está configurado para calcular la ganancia de adaptación utilizando una energía por banda de la excitación en el dominio de la frecuencia antes de la modificación y una energía por banda de la excitación en el dominio de la frecuencia después de la modificación.
5. Dispositivo para modificar una síntesis de una excitación en el dominio del tiempo según una cualquiera de las reivindicaciones 1 a 4, en el que el clasificador (104, 105, 106) clasifica la síntesis de la excitación en el dominio del tiempo decodificada como inactiva o activa sin voz.
6. Dispositivo para modificar una síntesis de una excitación en el dominio del tiempo según una cualquiera de las reivindicaciones 1 a 5, que comprende un suavizador (111) del filtro de síntesis cuando la síntesis de la excitación en el dominio del tiempo decodificada es clasificada como una dada de las categorías por el clasificador.
7. Dispositivo para decodificar una señal de sonido codificada con parámetros de codificación, que comprende: un decodificador (102) de una excitación en el dominio del tiempo como respuesta a los parámetros de codificación de la señal de sonido;
un filtro de síntesis (103) con capacidad de respuesta a la excitación en el dominio del tiempo decodificada, para producir una síntesis de dicha excitación en el dominio del tiempo; y
un dispositivo según una cualquiera de las reivindicaciones 1 a 6, para modificar la síntesis de la excitación en el dominio del tiempo.
8. Método para modificar, durante la decodificación de una señal de sonido, una síntesis de una excitación en el dominio del tiempo decodificada por un decodificador del dominio del tiempo (102), que comprende: clasificar (104, 105, 106) la síntesis de la excitación en el dominio del tiempo decodificada en una de entre una serie de categorías;
convertir (107, 201) la excitación en el dominio del tiempo decodificada en una excitación en el dominio de la frecuencia;
modificar (107, 203, 204, 205, 206, 207, 208, 209, 210) la excitación en el dominio de la frecuencia en función de la categoría en la que se clasifica la síntesis de la excitación en el dominio del tiempo decodificada; convertir (107, 202) la excitación en el dominio de la frecuencia modificada en una excitación en el dominio del tiempo modificada;
sintetizar (108) la excitación en el dominio del tiempo modificada para producir una síntesis modificada de la excitación en el dominio del tiempo decodificada;
en el que la etapa de modificación (107, 203, 204, 205, 206, 207, 208, 209, 210) de la excitación en el dominio de la frecuencia comprende:
calcular (203) una frecuencia de corte donde se deja de utilizar una contribución de excitación en el dominio del tiempo,
en el que la frecuencia de corte tiene un valor mínimo de 1.2 kHz;
poner a cero (204) la excitación en el dominio de la frecuencia por encima de la frecuencia de corte; normalizar (205) la excitación en el dominio de la frecuencia por debajo de la frecuencia de corte; generar (206) un ruido aleatorio; y
añadir (207) el ruido aleatorio a la excitación en el dominio de la frecuencia puesta a cero por encima de la frecuencia de corte y normalizada por debajo de dicha frecuencia de corte.
9. Método para modificar una síntesis de una excitación en el dominio del tiempo según la reivindicación 8, en el que la frecuencia de corte se calcula a partir de una función de una altura tonal decodificada de la excitación en el dominio del tiempo.
10. Método para modificar una síntesis de una excitación en el dominio del tiempo según una cualquiera de las reivindicaciones 8 a 9, en el que el cálculo de la frecuencia de corte comprende: calcular una estimación del 8.° armónico de la excitación.
11. Método para modificar una síntesis de una excitación en el dominio del tiempo según una cualquiera de las reivindicaciones 8 a 10, en el que la excitación en el dominio de la frecuencia se divide en bandas de frecuencia, y en el que la etapa de modificación de la excitación en el dominio de la frecuencia comprende además: calcular una ganancia de adaptación para ajustar la energía por banda después de la modificación del espectro de excitación a su valor inicial utilizando una energía por banda de la excitación en el dominio de la frecuencia antes de la modificación y una energía por banda de la excitación en el dominio de la frecuencia después de la modificación.
12. Método para modificar una síntesis de una excitación en el dominio del tiempo según una cualquiera de las reivindicaciones 8 a 11, en el que la etapa de clasificación de la síntesis de la excitación en el dominio del tiempo decodificada en una de entre una serie de categorías comprende clasificar la síntesis de la excitación en el dominio del tiempo decodificada como inactiva o activa sin voz.
13. Método para modificar una síntesis de una excitación en el dominio del tiempo según una cualquiera de las reivindicaciones 8 a 12, que comprende además
suavizar (111) un filtro de síntesis que lleva a cabo la síntesis de la excitación en el dominio del tiempo modificada cuando la síntesis de la excitación en el dominio del tiempo decodificada se clasifica como una dada de las categorías.
14. Método para decodificar una señal de sonido codificada con parámetros de codificación, que comprende: decodificar (102) una excitación en el dominio del tiempo como respuesta a los parámetros de codificación de la señal de sonido;
sintetizar (103) la excitación en el dominio del tiempo decodificada para producir una síntesis de dicha excitación en el dominio del tiempo; y
un método según una cualquiera de las reivindicaciones 8 a 13, para modificar la síntesis de la excitación en el dominio del tiempo.
ES20172813T 2011-11-03 2012-11-01 Improving non-speech content for low rate celp decoder Active ES3012033T3 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201161555246P 2011-11-03 2011-11-03

Publications (1)

Publication Number Publication Date
ES3012033T3 true ES3012033T3 (en) 2025-04-08

Family

ID=48191141

Family Applications (2)

Application Number Title Priority Date Filing Date
ES12844916T Active ES2805308T3 (es) 2011-11-03 2012-11-01 Mejora del contenido insonoro para decodificador CELP de tasa baja
ES20172813T Active ES3012033T3 (en) 2011-11-03 2012-11-01 Improving non-speech content for low rate celp decoder

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES12844916T Active ES2805308T3 (es) 2011-11-03 2012-11-01 Mejora del contenido insonoro para decodificador CELP de tasa baja

Country Status (15)

Country Link
US (1) US9252728B2 (es)
EP (3) EP2774145B1 (es)
JP (5) JP6239521B2 (es)
KR (1) KR102105044B1 (es)
CN (3) CN104040624B (es)
CA (1) CA2851370C (es)
DK (2) DK2774145T3 (es)
ES (2) ES2805308T3 (es)
FI (1) FI3709298T3 (es)
HR (2) HRP20201070T1 (es)
HU (2) HUE070390T2 (es)
IN (1) IN2014DN03022A (es)
LT (2) LT3709298T (es)
SI (2) SI2774145T1 (es)
WO (1) WO2013063688A1 (es)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104040624B (zh) * 2011-11-03 2017-03-01 沃伊斯亚吉公司 改善低速率码激励线性预测解码器的非语音内容
EP4246516B1 (en) * 2013-03-04 2025-07-23 VoiceAge EVS LLC Device and method for reducing quantization noise in a time-domain decoder
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
CN106463143B (zh) * 2014-03-03 2020-03-13 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
CN110097892B (zh) 2014-06-03 2022-05-10 华为技术有限公司 一种语音频信号的处理方法和装置
JP6401521B2 (ja) * 2014-07-04 2018-10-10 クラリオン株式会社 信号処理装置及び信号処理方法
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
US9972334B2 (en) * 2015-09-10 2018-05-15 Qualcomm Incorporated Decoder audio classification
US10373608B2 (en) 2015-10-22 2019-08-06 Texas Instruments Incorporated Time-based frequency tuning of analog-to-information feature extraction
CA3074749A1 (en) 2017-09-20 2019-03-28 Voiceage Corporation Method and device for allocating a bit-budget between sub-frames in a celp codec
TWI790705B (zh) * 2021-08-06 2023-01-21 宏正自動科技股份有限公司 語速調整方法及其系統
CN115857614B (zh) * 2022-11-17 2023-12-29 弘正储能(上海)能源科技有限公司 多路光伏mppt交错式boost控制方法及其系统

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58220199A (ja) * 1982-06-17 1983-12-21 日本電気株式会社 帯域分割型ボコ−ダ
JP3088121B2 (ja) * 1991-04-12 2000-09-18 沖電気工業株式会社 統計励振コードベクトルの最適化方法
JP2606006B2 (ja) * 1991-05-24 1997-04-30 ヤマハ株式会社 ノイズ音発生装置
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
JP3451998B2 (ja) * 1999-05-31 2003-09-29 日本電気株式会社 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
US7272553B1 (en) * 1999-09-08 2007-09-18 8X8, Inc. Varying pulse amplitude multi-pulse analysis speech processor and method
US7139700B1 (en) * 1999-09-22 2006-11-21 Texas Instruments Incorporated Hybrid speech coding and system
JP3478209B2 (ja) * 1999-11-01 2003-12-15 日本電気株式会社 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
JP3462464B2 (ja) * 2000-10-20 2003-11-05 株式会社東芝 音声符号化方法、音声復号化方法及び電子装置
JP2003110429A (ja) * 2001-09-28 2003-04-11 Sony Corp 符号化方法及び装置、復号方法及び装置、伝送方法及び装置、並びに記録媒体
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP3861770B2 (ja) * 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
CN1757060B (zh) * 2003-03-15 2012-08-15 曼德斯必德技术公司 Celp语音编码的话音指数控制
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
UA93677C2 (ru) * 2005-04-01 2011-03-10 Квелкомм Инкорпорейтед Способы и устройства кодирования и декодирования части речевого сигнала диапазона высоких частот
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
KR20080047443A (ko) * 2005-10-14 2008-05-28 마츠시타 덴끼 산교 가부시키가이샤 변환 부호화 장치 및 변환 부호화 방법
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
WO2007083934A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
EP1993320B1 (en) * 2006-03-03 2015-01-07 Nippon Telegraph And Telephone Corporation Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
EP3629328A1 (en) * 2007-03-05 2020-04-01 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for smoothing of stationary background noise
CN101388214B (zh) * 2007-09-14 2012-07-04 向为 一种变速率的声码器及其编码方法
CN100585699C (zh) * 2007-11-02 2010-01-27 华为技术有限公司 一种音频解码的方法和装置
MX2010009571A (es) * 2008-03-03 2011-05-30 Lg Electronics Inc Metodo y aparato para el procesamiento de señales de audio.
CA2717584C (en) * 2008-03-04 2015-05-12 Lg Electronics Inc. Method and apparatus for processing an audio signal
CN101620854B (zh) * 2008-06-30 2012-04-04 华为技术有限公司 频带扩展的方法、系统和设备
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
BR122021009252B1 (pt) * 2008-07-11 2022-03-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados
PT2146344T (pt) * 2008-07-17 2016-10-13 Fraunhofer Ges Forschung Esquema de codificação/descodificação de áudio com uma derivação comutável
EP2345030A2 (en) * 2008-10-08 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-resolution switched audio encoding/decoding scheme
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
MY163358A (en) * 2009-10-08 2017-09-15 Fraunhofer-Gesellschaft Zur Förderung Der Angenwandten Forschung E V Multi-mode audio signal decoder,multi-mode audio signal encoder,methods and computer program using a linear-prediction-coding based noise shaping
CN102714040A (zh) * 2010-01-14 2012-10-03 松下电器产业株式会社 编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法
US8958572B1 (en) * 2010-04-19 2015-02-17 Audience, Inc. Adaptive noise cancellation for multi-microphone systems
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
CN102074245B (zh) * 2011-01-05 2012-10-10 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法
CN104040624B (zh) * 2011-11-03 2017-03-01 沃伊斯亚吉公司 改善低速率码激励线性预测解码器的非语音内容
DE102014101462B3 (de) * 2014-02-06 2015-03-05 Sartorius Lab Instruments Gmbh & Co. Kg Verfahren zur Funktionsprüfung eines Messgerätes

Also Published As

Publication number Publication date
CN107068158A (zh) 2017-08-18
EP2774145B1 (en) 2020-06-17
DK3709298T3 (da) 2025-01-13
CN106910509B (zh) 2020-08-18
EP3709298B1 (en) 2024-11-20
CA2851370A1 (en) 2013-05-10
US9252728B2 (en) 2016-02-02
SI2774145T1 (sl) 2020-10-30
JP2018045244A (ja) 2018-03-22
LT3709298T (lt) 2025-02-25
FI3709298T3 (fi) 2025-02-21
ES2805308T3 (es) 2021-02-11
LT2774145T (lt) 2020-09-25
JP7237127B2 (ja) 2023-03-10
EP4488997A2 (en) 2025-01-08
WO2013063688A1 (en) 2013-05-10
EP4488997A3 (en) 2025-01-22
JP2019152878A (ja) 2019-09-12
DK2774145T3 (da) 2020-07-20
HUE050600T2 (hu) 2021-01-28
CN104040624B (zh) 2017-03-01
CA2851370C (en) 2019-12-03
CN104040624A (zh) 2014-09-10
HRP20241659T1 (hr) 2025-02-28
EP2774145A1 (en) 2014-09-10
HRP20201070T1 (hr) 2020-10-30
KR102105044B1 (ko) 2020-04-27
CN106910509A (zh) 2017-06-30
HK1198265A1 (en) 2015-03-20
JP2015501452A (ja) 2015-01-15
SI3709298T1 (sl) 2025-05-30
EP2774145A4 (en) 2015-10-21
JP6513769B2 (ja) 2019-05-15
EP3709298A1 (en) 2020-09-16
HUE070390T2 (hu) 2025-06-28
CN107068158B (zh) 2020-08-21
US20130121508A1 (en) 2013-05-16
JP6532926B2 (ja) 2019-06-19
IN2014DN03022A (es) 2015-05-08
JP2022022247A (ja) 2022-02-03
JP2018045243A (ja) 2018-03-22
KR20140090214A (ko) 2014-07-16
JP6239521B2 (ja) 2017-11-29

Similar Documents

Publication Publication Date Title
ES3012033T3 (en) Improving non-speech content for low rate celp decoder
ES2961553T3 (es) Dispositivo y método para reducir el ruido de cuantificación en un decodificador de dominio del tiempo
KR101295729B1 (ko) 비트 레이트­규모 가변적 및 대역폭­규모 가변적 오디오디코딩에서 비트 레이트 스위칭 방법
ES2659838T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
RU2660605C2 (ru) Концепция заполнения шумом
ES2741009T3 (es) Codificador de audio y método para codificar una señal de audio
HK40035914B (en) Improving non-speech content for low rate celp decoder
HK40117447A (en) Improving non-speech content for low rate celp decoder
HK40035914A (en) Improving non-speech content for low rate celp decoder
HK40029446A (en) Device and method for reducing quantization noise in a time-domain decoder