ES2539304T3 - Un aparato y un método para generar datos de salida por ampliación de ancho de banda - Google Patents

Un aparato y un método para generar datos de salida por ampliación de ancho de banda Download PDF

Info

Publication number
ES2539304T3
ES2539304T3 ES09776809.7T ES09776809T ES2539304T3 ES 2539304 T3 ES2539304 T3 ES 2539304T3 ES 09776809 T ES09776809 T ES 09776809T ES 2539304 T3 ES2539304 T3 ES 2539304T3
Authority
ES
Spain
Prior art keywords
data
noise threshold
audio signal
signal
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES09776809.7T
Other languages
English (en)
Inventor
Max Neuendorf
Bernhard Grill
Ulrich Kraemer
Markus Multrus
Harald Popp
Nikolaus Rettelbach
Frederik Nagel
Markus Lohwasser
Marc Gayer
Manuel Jander
Virgilio Bacigalupo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2539304T3 publication Critical patent/ES2539304T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Abstract

Un aparato (100) para generar datos de salida por ampliación de ancho de banda (102) para una señal de audio (105), la señal de audio (105) comprende componentes en una primera banda de frecuencia (105a) y componentes en una segunda banda de frecuencia (105b), donde los datos de salida por ampliación del ancho de banda (102) están adaptados para controlar una síntesis de los componentes en la segunda banda de frecuencia (105b), el aparato comprende: un medidor de umbral de ruido (110) para medir un umbral de ruido para generar datos de umbral de ruido (115) de la segunda banda de frecuencia (105b) para una porción de tiempo (T) de la señal de audio (105); un caracterizador de energía de señal (120) para derivar un parámetro de sibilancia o un parámetro de pendiente espectral como datos de distribución de energía (125), donde el caracterizador de energía de señal está adaptado para recibir la primera banda de frecuencia (105a) y la segunda banda de frecuencia (105b), los datos de distribución de energía (125) caracterizan una distribución de energía en un espectro de la porción de tiempo (T) de la señal de audio (105), el parámetro de sibilancia o el parámetro de pendiente espectral identifican un nivel en aumento o disminución de la señal de audio (105) con la frecuencia (F); y un procesador (130) para combinar los datos de umbral de ruido (115) y los datos de distribución de energía (125) para obtener los datos de salida por ampliación de ancho de banda (102), donde el procesador (130) está configurado para cambiar los datos de umbral de ruido (115) según los datos de distribución de energía (125) para obtener datos de umbral de ruido modificados, los datos de umbral de ruido modificados indicando un umbral de ruido modificado que aumenta o disminuye, dependiendo de los datos de distribución de energía, con respecto al umbral de ruido indicado por los datos de umbral de ruido, donde el cambio de los datos de umbral de ruido (115) es tal que el umbral de ruido modificado se incrementa para una señal de audio (105) que comprende un primer grado de sibilancia en comparación con una señal de audio (105) que comprende un segundo grado de sibilancia, donde el segundo grado es menor que el primer grado, donde el aparato (100) para generar datos de salida por ampliación de ancho de banda (102) está configurado para ejecutar una decisión externa para determinar si la porción de tiempo (T) de la señal de audio (105) es una señal de voz o una señal que no es de voz, donde los datos de umbral de ruido medidos por el medidor de umbral de ruido (110) son utilizados como los datos de salida por ampliación de ancho de banda, cuando la porción de tiempo (T) de la señal de audio (105) es una señal que no es de voz, y donde el caracterizador de energía de señal (120) está configurado para realizar, cuando la porción de tiempo (T) de la señal de audio (105) es una señal de voz, un análisis de discurso adicional, para determinar un grado de sibilancia de la señal de voz, y donde el procesador (130) está configurado para agregar los datos de umbral de ruido modificados a una secuencia de bits como los datos de salida por ampliación de ancho de banda (102), cuando la porción de tiempo (T) de la señal de audio (105) es una señal de voz.

Description

10
15
20
25
30
35
40
45
50
55 E09776809
11-06-2015
DESCRIPCIÓN
Un aparato y un método para generar datos de salida por ampliación de ancho de banda
[0001] La presente invención se relaciona con un aparato y un método para generar datos de salida por ampliación de ancho de banda (BWE, por sus siglas en inglés) y un codificador de audio.
[0002] La codificación de audio y codificación de voz natural constituyen dos grandes clases de codificaciones para las señales de audio. La codificación de audio natural se utiliza comúnmente para señales de música o señales arbitrarias en tasa de bits media y generalmente ofrece amplios anchos de banda de audio. Los codificadores de voz están básicamente limitados a la reproducción de voz y pueden utilizarse a baja tasa de bits. Una banda ancha de voz ofrece una gran mejora de calidad subjetiva en comparación con la banda estrecha de voz. Además, debido al tremendo crecimiento del campo de la multimedia, la transmisión de señales de música y otras señales diferentes a las de voz así como el almacenamiento y por ejemplo, la transmisión para radio/TV a alta calidad por sistemas telefónicos es una característica deseable.
[0003] Para reducir de manera drástica la tasa de bits, se puede realizar una codificación de fuente utilizando codificadores de audio perceptivos de banda dividida. Estos codificadores de audio naturales explotan la irrelevancia perceptiva y redundancia estadística en la señal. En caso que la explotación de lo anteriormente mencionado por sí sola no sea suficiente con respecto a la limitación de tasa de bits dada, la velocidad de muestreo se reduce. Es también común disminuir la cantidad de niveles de composición, permitiendo en forma ocasional una distorsión de cuantización auditiva y emplear una degradación del campo estéreo a través de una codificación estéreo conjunta o codificación paramétrica de dos o más canales. El uso excesivo de dichos métodos da por resultado una degradación perceptiva engorrosa. Con el fin de mejorar el desempeño de codificación, se utiliza la replicación de banda espectral (SBR, por su sigla en inglés) como método eficiente para generar señales de frecuencia alta en un codificador basado en la reconstrucción de frecuencia alta (HFR, por su sigla en inglés).
[0004] Al grabar y transmitir señales acústicas, un umbral de ruido como el ruido de fondo se encuentra siempre presente. Con el fin de generar una señal acústica auténtica del lado del decodificador, el umbral de ruido debería ser transmitido o generado. En este último caso, el umbral de ruido en la señal de audio original debería ser determinado. En la replicación de banda espectral, esto se realiza por medio de herramientas SBR o módulos relacionados con SBR, que generan parámetros que caracterizan (entre otras cosas) el umbral de ruido y que se transmiten al decodificador para reconstruir el umbral de ruido.
[0005] En WO 00/45379, se describe una herramienta de umbral de ruido adaptativa, que provee suficientes contenidos de ruido en los componentes de frecuencia de banda alta sintetizados. Sin embargo, se generan artefactos que perturban los componentes de frecuencia de banda alta si, en la banda base, ocurren fluctuaciones de energía o los llamados transitorios, a corto plazo. Estos artefactos no son perceptivamente aceptables y no se proporciona en técnicas previas una solución aceptable (especialmente si el ancho de banda es limitado).
[0006] EP 2056294 A2 describe una ampliación de ancho de banda que incluye la medida de un umbral de ruido a ser utilizada para reconstrucción de banda de alta frecuencia.
[0007] Un objetivo de la presente invención consiste, por lo tanto, en proveer un aparato, que permita una eficiente codificación sin artefactos que puedan percibirse, especialmente para señales de voz.
[0008] Este objetivo se logra mediante un aparato para generar datos de salida por ampliación de ancho de banda de acuerdo con la reivindicación 1, el codificador de acuerdo con la reivindicación 3, un método para generar datos de salida por ampliación de ancho de banda de acuerdo con la reivindicación 6 y un programa de ordenador de acuerdo con la reivindicación 7.
[0009] La presente invención se basa en el principio que una adaptación de un umbral de ruido medido que depende de la distribución de energía de la señal de audio dentro de una porción de tiempo puede mejorar la calidad perceptivo de una señal de audio sintetizada del lado del decodificador. Aunque desde el punto de vista teórico no es necesaria una adaptación o manipulación del umbral de ruido medido, las técnicas convencionales para generar el umbral de ruido muestran una cantidad de inconvenientes. Por otro lado, la estimación del umbral de ruido basada en una medición de tonalidad, desarrollada por métodos convencionales, es dificultosa y no siempre precisa. Por otro lado, el objetivo del umbral de ruido es reproducir la correcta impresión de tonalidad del lado del decodificador. Aunque la impresión de
10
15
20
25
30
35
40
45
50
55
60 E09776809
11-06-2015
tonalidad subjetiva para la señal de audio original y la señal decodificada sea la misma, existe aún la posibilidad de artefactos generados; por ejemplo para señales de voz.
[00010] Los tests subjetivos muestran que diferentes tipos de señales de voz deberían ser tratadas en forma diferente. En señales de discurso vocalizadas una disminución del umbral de ruido calculado produce una mayor calidad perceptiva al compararla con el umbral de ruido calculado original. En consecuencia la voz suena menos reverberante en este caso. En caso que la señal de audio comprenda sibilantes un aumento artificial de umbral de ruido podrá encubrir los inconvenientes en el método de implementación de parches (“patching”) relacionado con los sibilantes. Por ejemplo, las fluctuaciones de energía a corto plazo (transitorios) producen artefactos perturbadores al ser cambiadas o transformadas en la banda de frecuencia mayor y un aumento en el umbral de ruido podrá también encubrir estas fluctuaciones de energía.
[00011] Dichos transitorios pueden definirse como porciones dentro de señales convencionales s, donde un fuerte aumento en la energía aparece dentro de un corto período de tiempo, el que puede o no estar limitado a una región de frecuencia específica. Transitorios son golpes de castañuelas y de instrumentos de percusión, pero también ciertos sonidos de la voz humana como, por ejemplo, las letras: P, T, K, … . La detección de este tipo de transitorios es implementada siempre de la misma forma o por el mismo algoritmo (utilizando un valor umbral de transitorios), independiente de la señal, ya sea clasificado como voz o música. Además, una posible distinción entre el discurso vocalizado y no vocalizado no tiene influencia en el mecanismo de detección de transitorios convencional o clásico.
[00012] En consecuencia, las formas de realización proveen una disminución del umbral de ruido para una señal como un discurso vocalizado y un aumento del umbral de ruido para una señal s que comprende, por ejemplo, sibilantes.
[00013] Para distinguir las diferentes señales, las formas de realización utilizan datos de distribución de energía (por ejemplo un parámetro de sibilancia) que mide si la energía se encuentra mayormente en frecuencias mayores o frecuencias menores, o en otras palabras, si la representación espectral de la señal de audio muestra una pendiente en aumento o en disminución hacia frecuencias mayores. Otras formas de realización también utilizan el primer coeficiente LPC (LPC = sigla en inglés correspondiente a la traducción codificación predictiva lineal) para generar el parámetro de sibilancia.
[00014] Existen dos posibilidades para cambiar el umbral de ruido. La primera posibilidad consiste en transmitir dicho parámetro de sibilancia para que el decodificador pueda utilizar el parámetro de sibilancia con el fin de ajustar el umbral de ruido (por ejemplo aumentar o disminuir el umbral de ruido además del umbral de ruido calculado). Este parámetro de sibilancia puede ser transmitido además del parámetro de umbral de ruido calculado por métodos convencionales o calculado del lado del decodificador. Una segunda posibilidad consiste en cambiar el umbral de ruido transmitido utilizando el parámetro de sibilancia (o la distribución de datos de energía) para que el codificador transmita los datos del umbral de ruido modificados al decodificador y no se necesitan modificaciones del lado del decodificador –puede utilizarse el mismo decodificador. Por lo tanto, la manipulación del umbral de ruido puede en principio ser realizada del lado del codificador como así también del lado del decodificador.
[00015] La replicación de banda espectral como ejemplo de ancho de banda se basa en cuadros SBR que definen una porción de tiempo en la cual la señal de audio está separada en componentes en la primera banda de frecuencia y la segunda banda de frecuencia. El umbral de ruido puede medirse y/o cambiarse para todo la trama SBR. De manera alternativa, es también posible que el cuadro SBR se divida en envolventes de ruido, para que para cada envolvente de ruido, se realizar un ajuste para el umbral de ruido. En otras palabras, la resolución temporal resolución de las herramientas del umbral de ruido es determinada por las llamadas envolventes de ruido dentro de la trama SBR. De acuerdo con la Norma (ISO/IEC 14496-3), cada trama SBR comprende un máximo de dos envolventes de ruido, para que se pueda realizar un ajuste del umbral de ruido teniendo en cuenta los cuadros parciales SBR. Para algunas aplicaciones, esto podría ser suficiente. Sin embargo, también es posible incrementar la cantidad de envolventes de ruido para mejorar el modelo para la variación temporal de tonalidad.
[00016] En consecuencia, las formas de realización comprenden un aparato para generar datos de salida BWE para una señal de audio, donde la señal de audio comprende componentes en una primera banda de frecuencia y una segunda banda de frecuencia y los datos de salida BWE se adapta para controlar una síntesis de los componentes en la segunda banda de frecuencia. El aparato comprende un medidor de umbral de ruido para medir los datos del umbral de ruido de la segunda banda de frecuencia para una porción de tiempo de la señal de audio. Como el umbral de ruido medido ejerce influencia en la tonalidad de la señal de audio, el medidor del umbral de ruido puede comprender un medidor de tonalidad. En forma alternativa, el medidor del umbral de ruido puede ser implementado para medir el ruido de una señal para obtener el umbral de ruido. El aparato además comprende un caracterizador de energía de señal para derivar los datos de distribución de energía, donde los datos de distribución de energía caracterizan una distribución de energía en
E09776809
11-06-2015
un espectro de la porción de tiempo de la señal de audio y, finalmente, el aparato comprende un procesador para combinar los datos del umbral de ruido y los datos de distribución de energía para obtener datos de salida de BWE.
[00017] En otras formas de realización, el caracterizador de energía de señal se adapta para usar el parámetro de
5 sibilancia como datos de distribución de energía y el parámetro de sibilancia puede, por ejemplo, ser el primer coeficiente LPC. En otras formas de realización, el procesador se adapta para agregar los datos de distribución de energía a la secuencia de datos de los dador de audio codificados o, en forma alternativa, el procesador se adapta para ajustar el parámetro de umbral de ruido de modo que el umbral de ruido aumente o disminuya dependiendo de los datos de distribución de energía (dependiente de señal). En esta forma de realización, el medidor de umbral de ruido medirá
10 primero el umbral de ruido para generar datos del umbral de ruido, que serán ajustados o cambiados por el procesador más adelante.
[00018] En otras formas de realización, la porción de tiempo es una trama SBR y el caracterizador de energía de señal se adapta para generar una cantidad de envolventes de umbral de ruido por trama SBR. En consecuencia, el medidor de
15 umbral de ruido como el caracterizador de energía de señal pueden adaptarse para medir los datos del umbral de ruido como también los datos de la distribución de energía derivados para cada envolvente de umbral de ruido. La cantidad de envolvente de umbral de ruido puede, por ejemplo ser 1, 2, 4, ... por trama SBR.
[00019] Otros ejemplos comprenden además una herramienta de replicación de banda espectral utilizada en un
20 decodificador para generar componentes en una segunda banda de frecuencia de la señal de audio. En esta generación se utilizan datos de salida de replicación de banda espectral y representación espectral de señal cruda para los componentes en la segunda banda de frecuencia. La herramienta de replicación de banda espectral comprende una unidad de cálculo del umbral de ruido, configurada para calcular un umbral de ruido de acuerdo con los datos de distribución de energía, y un combinador para combinar la representación espectral de señal con el umbral de ruido
25 calculado para generar componentes en la segunda banda de frecuencia con el umbral de ruido calculado.
[00020] Una ventaja de las formas de realización consiste en la combinación de una decisión externa (voz/audio) con un detector interno de discurso vocalizado o detector interno de sibilante (un caracterizador de energía de señal) que controla el evento de ruido adicional señalizado al decodificador o ajustando el umbral de ruido calculado. Para señales
30 de discurso no vocalizado, se ejecuta el cálculo usual de umbral de ruido. Para señales de discurso vocalizado (derivadas de la decisión de conmutación externa) se realiza un análisis de discurso adicional para determinar la vocalización de la señal real. La cantidad de ruido a agregar en el decodificador o codificador es escalada dependiendo del grado de sibilancia (contrario al de vocalización) de la señal. El grado de sibilancia puede ser determinado, por ejemplo, midiendo la pendiente espectral de las partes de la señal corta.
35 Breve Descripción de los Dibujos
[00021] La presente invención será descripta a continuación a modo de ejemplos ilustrativos. Las características de la invención serán apreciadas con mayor facilidad y mejor comprensión teniendo en cuenta la siguiente descripción
40 detallada, que debería ser considerada con referencia a los dibujos adjuntos, donde:
La Fig. 1 muestra un diagrama de bloque de un aparato para generar datos de salida BWE de acuerdo con las formas de realización de la presente invención;
45 La Fig. 2a ilustra una pendiente espectral negativa de una señal no sibilante;
La Fig. 2b ilustra una pendiente espectral positiva para una señal del tipo sibilante;
La Fig. 2c explica el cálculo de la pendiente espectral m basada en orden bajo de parámetros LPC;
50 La Fig. 3 muestra un diagrama de bloque de un codificador;
La Fig. 4 muestra diagramas de bloque para procesar la secuencia de audio codificada para emitir muestras PCM (sigla en inglés correspondiente a la traducción modulación por código de pulso) del lado del 55 decodificador;
La Fig. 5a, b muestra una comparación de una herramienta de cálculo convencional de umbral de ruido con una herramienta de cálculo modificada de umbral de ruido de acuerdo con unos ejemplos; y
60 La Fig. 6 ilustra la partición de una trama SBR en una cantidad predeterminada de porciones de tiempo.
10
15
20
25
30
35
40
45
50
55
60 E09776809
11-06-2015
[00022] La Fig. 1 muestra un aparato 100 para generar datos de salida por ampliación de ancho de banda (BWE, por su sigla en inglés) 102 para una señal de audio 105. La señal de audio 105 comprende componentes en una primera banda de frecuencia 105a y componentes de una segunda banda de frecuencia 105b. Los datos de salida BWE 102 se adapta para controlar una síntesis de los componentes en la segunda banda de frecuencia 105b. El aparato 100 comprende un medidor de umbral de ruido 110, un caracterizador de energía de señal 120 y un procesador 130. El medidor de umbral de ruido 110 se adapta para medir o determinar los datos del umbral de ruido 115 de la segunda banda de frecuencia 105b para una porción de tiempo de la señal de audio 105. En detalle, el umbral de ruido puede ser determinado al comparar el ruido medido de la banda base con el ruido medido de la banda superior, para que la cantidad de ruido necesario después de la implementación del parche (“patch”) para reproducir una impresión de tonalidad natural pueda ser determinada. El caracterizador de energía de señal 120 deriva los datos de distribución de energía 125 caracterizando una distribución de energía en un espectro de porción de tiempo de la señal de audio 105. Por ende, el medidor de umbral de ruido 110 recibe, por ejemplo, la primera y/o segunda banda de frecuencia 105a,b y el caracterizador de energía de señal 120 recibe, por ejemplo, la primera y/o segunda banda de frecuencia 105a, b. El procesador 130 recibe los datos del umbral de ruido 115 y los datos de distribución de energía 125 y los combina para obtener los datos de salida BWE 102.La replicación de banda espectral comprende un ejemplo para la ampliación de ancho de banda, donde los datos de salida BWE 102 se transforman en datos de salida SBR. Las siguientes formas de realización describen principalmente el ejemplo de SBR, pero el aparato/método de invención no queda restringido a este ejemplo.
[00023] Los datos de distribución de energía 125 indican una relación entre la energía contenida dentro de la segunda banda de frecuencia en comparación con la energía contenida en la primera banda de frecuencia. En el caso más simple los datos de distribución de energía surgen de un bit que indica si hay más energía almacenada dentro de la banda base en comparación con la banda SBR (banda superior) o vice versa. La banda SBR (banda superior) puede, por ejemplo, definirse como componentes de frecuencia sobre un valor umbral, que puede estar dado, por ejemplo, por 4 kHz y la banda base (banda inferior) puede ser los componentes de la señal, que se encuentren debajo de este valor umbral de frecuencia (por ejemplo, debajo de 4 kHz u otra frecuencia). Ejemplos para este valor umbral de frecuencias serían 5 kHz o 6 kHz.
[00024] Las Figs. 2a y 2b muestran dos distribuciones de energía en el espectro dentro de una porción de tiempo de la señal de audio 105. Las distribuciones de energía mostradas por un nivel P como una función de la frecuencia F como señal análoga, que puede también ser una envolvente de una señal dada por una pluralidad de muestras o líneas (transformada en dominio de frecuencia). Los gráficos mostrados están más simplificados para visualizar el concepto de pendiente espectral. La banda de frecuencia superior e inferior pueden definirse como frecuencias por debajo o sobre el valor umbral de frecuencia F0 (frecuencia de cruce, por ejemplo 500 Hz, 1 kHz o 2 kHz).
[00025] La Fig. 2a muestra una distribución de energía que exhibe una pendiente espectral en caída (disminuyendo con frecuencias mayores). En otras palabras, en este caso, hay más energía almacenada en los componentes de baja frecuencia que en los componentes de alta frecuencia. Por ende, el nivel P disminuye para frecuencias mayores implicando una pendiente espectral negativa (función disminuyente). Por lo tanto, un nivel P comprende una pendiente espectral negativa si el nivel de señal P indica que hay menos energía en la banda superior (F > F0) que en la banda inferior (F < F0). Este tipo de señal ocurre, por ejemplo, para una señal de audio que comprende una baja sibilancia o nada de sibilancia.
[00026] La Fig. 2b muestra el caso, donde el nivel P aumenta con las frecuencias F implicando una pendiente espectral positiva (una función en aumento del nivel P dependiendo de las frecuencias). Por lo tanto, el nivel P comprende una pendiente espectral positiva si el nivel de señal P indica que hay más energía en la banda superior (F > F0) comparado con la banda inferior (F < F0). Dicha distribución de energía es generada si la señal de audio 105 comprende, por ejemplo, dichos sibilantes.
[00027] La Fig. 2a ilustra un espectro de potencia de una señal con pendiente espectral negativa. Una pendiente espectral negativa significa una pendiente en caída espectral. En contraposición, la Fig. 2b ilustra un espectro de potencia de una señal con pendiente espectral positiva. En otras palabras, esta pendiente espectral posee una pendiente en ascenso. Naturalmente, cada espectro como el espectro ilustrado en la Fig. 2a o el espectro ilustrado en la Fig. 2b sufrirán variaciones en una escala local que posee inclinaciones diferentes de la pendiente espectral.
[00028] La pendiente espectral puede ser obtenida, cuando, por ejemplo, una línea recta es ajustada al espectro de potencia minimizando las diferencias cuadráticas entre esta línea recta y el espectro real. Ajustar línea recta es ajustada al espectro puede constituir una de las formas para calcular la pendiente espectral de un espectro de tiempo corto. Sin embargo, es preferible calcular la pendiente espectral utilizando coeficientes LPC.
10
15
20
25
30
35
40
45
50
55
60 E09776809
11-06-2015
[00029] La publicación “Cálculo eficiente de la pendiente espectral desde varios parámetros LPC” por V. Goncharoff, E. Von Colln y R. Morris, Naval Command, Control and Ocean Surveillance Center (NCCOSC), RDT y E Division, San Diego, CA 92152-52001, 23 de Mayo 23, 1996 divulga varias maneras de calcular la pendiente espectral.
[00030] En una realización, la pendiente espectral se define como la inclinación de una función lineal de cuadrados mínimos contenida dentro espectral de potencia logarítmico. Sin embargo, las funciones lineales al espectro de potencia no logarítmicos o al espectro de amplitud u otro tipo de espectro pueden también ser aplicados. Esto es específicamente cierto en el contexto de la presente invención, donde, en la forma de realización preferida, uno está principalmente interesado en el signo de la pendiente espectral, es decir, donde el resultado de del desplazamiento del función lineal es positivo o negativo. El valor real de la pendiente espectral, sin embargo, no radica gran importancia en la alta eficiencia de la forma de realización de la presente invención, pero el valor real puede ser importante en formas de realización más elaboradas.
[00031] Cuando la codificación predictiva lineal (LPC, por su sigla en inglés) de voz se utiliza para modelar su espectro a tiempo corto, es computacionalmente más eficiente calcular la pendiente espectral directamente del modelo de parámetros LPC en vez espectral de potencia logarítmico. Fig. 2c ilustra un ecuación para los coeficientes cepstrales ck correspondientes al espectro de potencia logarítmico que contiene todos los polos de orden n. En esta ecuación, k es un índice entero, pn es el polo de orden n en la representación de todos los polos de la función de transferencia del dominio z H(z) del filtro LPC. La próxima ecuación en la Fig. 2c es la pendiente espectral en términos de coeficientes cepstrales. Específicamente, m es la pendiente espectral, k y n son enteros y N es el mayor polo de orden del modelo de todos los polos para H(z). La próxima ecuación en la Fig. 2c define espectro de potencia logarítmico S(ω) del filtro LPC de orden
N. G es la constante de ganancia y αk son los coeficientes de predicción lineal, y ω es igual a 2×π×f, donde f es la frecuencia. La ecuación menor en la Fig. 2c directamente resulta en los coeficientes cepstrales como función de los coeficientes LPC αk. Los coeficientes cepstrales ck son utilizados para calcular la pendiente espectral. Generalmente, este método será más eficiente computacionalmente que la factorización polinomial de LPC para obtener los valores de polo, y para resolver la pendiente espectral utilizando ecuaciones del polo. En consecuencia, después de haber calculado los coeficientes LPC αk, uno puede calcular los coeficientes cepstrales ck utilizando la ecuación en la parte inferior de la Fig. 2c y, luego, se pueden calcular los polos pn desde los coeficientes cepstrales utilizando la primera ecuación de la Fig. 2c. Luego, teniendo en cuenta los polos, se puede calcular la pendiente espectral m como se define en la segunda ecuación de la Fig. 2c.
[00032] Se ha descubierto que el coeficiente LPC α1 de primer orden es suficiente para obtener una buena estimación para el signo de pendiente espectral. α1 es, en consecuencia, una buena estimación para c1. En consecuencia, c1 es una buena estimación para p1. Cuando p1 es insertado en la ecuación para la pendiente espectral m, resulta obvio, que debido al signo menos en la segunda ecuación en la Fig. 2c, el signo de pendiente espectral m es inverso al signo del primer coeficiente LPC α1 en la definición de coeficiente LPC de la Fig. 2c.
[00033] Preferentemente, el caracterizador de energía de señal 120 está configurado para generar, como datos de distribución de energía, una indicación en un signo de la pendiente espectral de la señal de audio en una porción de tiempo actual de la señal de audio.
[00034] Preferentemente, el caracterizador de energía de señal 120 está configurado para generar, como datos de distribución de energía, datos derivados del análisis LPC de una porción de tiempo de la señal de audio para estimar uno
o más coeficientes LPC de bajo orden y derivar los datos de distribución de energía de los uno o más coeficientes LPC de bajo orden.
[00035] Preferentemente, el caracterizador de energía de señal 120 está configurado sólo para calcular el primer coeficiente LPC y para no calcular coeficientes LPC adicionales y para derivar los datos de distribución de energía de un signo del primer coeficiente LPC.
[00036] Preferentemente, el caracterizador de energía de señal 120 está configurado para determinar la pendiente espectral como pendiente espectral negativa, donde una energía espectral disminuye de frecuencias menores a frecuencias mayores, cuando el primer coeficiente LPC posee un signo positivo, y para detectar la pendiente espectral como pendiente espectral positiva, donde la energía espectral aumenta desde frecuencias menores a frecuencias mayores, cuando el primer coeficiente LPC posee un signo negativo.
[00037] En otras formas de realización, el detector de pendiente espectral detector o caracterizador de energía de señal 120 está configurado no sólo para calcular los coeficientes LPC de primer orden sino para calcular varios coeficientes LPC de bajo orden como los coeficientes LPC hasta el orden de 3 ó 4 ó aún mayor. En dicha forma de realización, la
10
15
20
25
30
35
40
45
50
55
60 E09776809
11-06-2015
pendiente espectral se calcula hasta tal alta precisión que no sólo se puede indicar el signo como parámetro de sibilancia, sino también un valor que depende de la pendiente, que posee más de dos valores como en la forma de realización relativa al signo.
[00038] Como se explicó previamente la sibilancia comprende una gran cantidad de energía en la región de frecuencia superior, mientras que para partes sin o con poca sibilancia (por ejemplo, vocales) la energía es mayormente distribuida dentro de la banda base (banda de frecuencia baja). Esta observación puede utilizarse con el fin de determinar si o hasta donde una parte de señal de voz comprende un sibilante o no.
[00039] Por lo tanto, el medidor del umbral de ruido 110 (detector) puede utilizar la pendiente espectral para la decisión sobre la cantidad de sibilancia o para otorgar el grado de sibilancia dentro de una señal. La pendiente espectral puede básicamente ser obtenida de un simple análisis LPC de la distribución de energía. Por ejemplo, puede ser suficiente calcular el primer coeficiente LPC para determinar el parámetro de pendiente espectral (parámetro de sibilancia), ya que desde el primer coeficiente LPC se puede inferir el comportamiento espectral (función de aumento o disminución). Este análisis puede realizarse dentro del caracterizador de energía de señal 20. En caso que el codificador de audio use LPC para la decodificación de la señal de audio, no habrá necesidad de transmitir el parámetro de sibilancia, ya que el primer coeficiente LPC puede ser utilizado como datos de distribución de energía del lado del decodificador.
[00040] En algunas formas de realización el procesador 130 puede estar configurado para cambiar los datos del umbral de ruido 115 de acuerdo con los datos de distribución de energía 125 (pendiente espectral) para obtener datos modificados del umbral de ruido, y el procesador 130 puede estar configurado para agregar los datos modificados del umbral de ruido a una secuencia de bits que comprende datos de salida de BWE 102. El cambio de datos del umbral de ruido 115 puede ser tal que el umbral de ruido modificado aumenta para una señal de audio 105 que comprende mayor sibilancia (Fig. 2b) en comparación con una señal de audio 105 que comprende menor sibilancia (Fig. 2a).
[00041] El aparato 100 para generar datos de salida por ampliación de ancho de banda (BWE, por su sigla en inglés) 102 puede ser parte de un codificador 300. La Fig. 3 muestra una forma de realización para el codificador 300, que comprende módulos relacionados con BWE 310 (que pueden, por ejemplo comprender módulos relacionados con SBR), un banco de análisis QMF (sigla en inglés correspondiente a la traducción filtro espejo en cuadratura) 320, un filtro paso bajo (filtro LP) 330, un codificador de núcleo AAC 340 y un formateador de secuencia de bits de carga útil 350. Además, el codificador 300 comprende el calculador de datos de la envolvente 210. El codificador 300 comprende una entrada para muestras PCM (señal de audio 105; PCM = modulación por código de pulso), conectada al banco de análisis QMF 320, y a los módulos relacionados con BWE 310 y al filtro LP 330. El banco de análisis QMF 320 puede comprender un filtro de paso alto para separar la segunda banda de frecuencia 105b y se conecta al calculador de datos de la envolvente 210, que a la vez se conecta con el formateador de secuencia de bits de carga útil 350. El filtro LP 330 puede comprender filtro de paso bajo para separar la primera banda de frecuencia de núcleo 105a y se conecta con el codificador de núcleo AAC 340, que a la vez se conecta con el formateador de secuencia de bits de carga útil 350. Finalmente, el módulo relacionado con BWE 310 se conecta al calculador de datos de la envolvente 210 y al codificador de núcleo AAC 340.
[00042] En consecuencia, el codificador 300 realiza un sub-muestreo de la señal de audio 105 para generar componentes en la banda de frecuencia de núcleo 105a (en el filtro LP 330), que son ingresados en el codificador de núcleo AAC 340, que codifica la señal de audio en la banda de frecuencia de núcleo y envía la señal codificada 355 al formateador de secuencia de bits de carga útil 350 en el cual la señal de audio codificada 355 de la banda de frecuencia de núcleo es agregada a la secuencia de audio codificada 345 (secuencia de bits). Por otro lado, la señal de audio 105 se analiza mediante el banco de análisis QMF 320, que extrae los componentes de frecuencia de la banda de frecuencia alta 105b e ingresa las señales en el calculador de datos de la envolvente 210 para generar datos BWE 375 Por ejemplo, un banco 64 de sub-banda QMF 320 realiza el filtrado de sub-banda de la señal de entrada. La salida desde el banco de filtro (es decir las muestras de sub-bandas) es valuada en forma compleja y por lo tanto, sometida a un sobre-muestreo por un factor de dos en comparación con un banco QMF regular.
[00043] El módulo relacionado con BWE 310 puede por ejemplo, comprender el aparato 100 para generar datos de salida de BWE 102 y controla el calculador de datos de la envolvente 210 proporcionando, por ejemplo, datos de salida BWE 102 (parámetro de sibilancia) al calculador de datos de la envolvente 210. Utilizando los componentes de audio 105b generados por el banco de análisis QMF 320, el calculador de datos de la envolvente 210 calcula los datos BWE 375 y envía los datos BWE 375 al formateador de secuencia de bits de carga útil 350, que combina los datos BWE 375 con los componentes 355 codificados por el codificador de núcleo 340 en la secuencia de audio codificada 345. Además, el calculador de datos de la envolvente 210 puede por ejemplo usar el parámetro de sibilancia 125 para ajustar el umbral de ruidos dentro de las envolventes de ruido.
10
15
20
25
30
35
40
45
50
55 E09776809
11-06-2015
[00044] En forma alternativa, el aparato 100 para generar datos de salida BWE data 102 puede también ser parte del calculador de datos de la envolvente 210 y el procesador puede también ser parte del formateador de secuencia de bits de carga útil 350. En consecuencia, los diferentes componentes del aparato 100 pueden ser parte de los diferentes componentes del codificador de la Fig. 3.
[00045] La Fig. 4 muestra un ejemplo para un decodificador 400, donde la secuencia de audio codificada 345 es ingresada en un desformateador de secuencia de bits de carga útil 357, que separa la señal de audio codificada 355 de los datos BWE 375. La señal de audio codificada 355 es ingresada, por ejemplo, en un decodificador de núcleo AAC 360, que genera la señal de audio decodificada 105a en la primera banda de frecuencia. La señal de audio 105a (componentes en la primera banda de frecuencia) es ingresada en un banco QMF de análisis de banda 32 370, que genera, por ejemplo, sub-bandas de frecuencia 32 10532 desde la señal de audio 105a en la primera banda de frecuencia. Las sub-bandas de frecuencia de la señal de audio 10532 ingresan en el generador del parche 410 para generar una representación espectral de señal cruda 425 (parche), que ingresa en una herramienta BWE 430a. La herramienta BWE 430a puede, por ejemplo, comprender una unidad de cálculo de umbral de ruido para generar un umbral de ruido. Además, la herramienta BWE 430a puede reconstruir harmónicos perdidos o realizar un paso de filtrado inverso. La herramienta BWE 430a puede implementar métodos conocidos de replicación de banda espectral a utilizar en la salida de datos espectrales QMF del generador de parche (“patching”) 410. El algoritmo de implementación de parches (“patching”) usado en el dominio de frecuencia podría, por ejemplo, emplear el método de espejo copiado simple de los datos espectrales dentro del dominio de frecuencia.
[00046] Por otro lado, los datos BWE 375 (por ejemplo que comprende datos de salida BWE 102) ingresan a un verificador de validez de secuencia de bits 380, que analiza los datos BWE 375 para obtener diferente sub-información 385 y los ingresan en por ejemplo, una decodificación Huffman y unidad de descuantización 390 que, por ejemplo, extrae la información de control 412 y parámetros de replicación de banda espectral102. La información de control 412 controla el generador de parche 430 (por ejemplo usar un algoritmo de implementación de parches (“patching”) específico) y el parámetro BWE 102 comprende, por ejemplo, también los datos de distribución de energía 125 (por ejemplo el parámetro de sibilancia). La información de control 412 ingresa a la herramienta BWE 430a y los parámetros de replicación de banda espectral102 ingresan a la herramienta BWE 430a y a un ajustador de envolvente 430b. El ajustador de envolvente 430b es operativo para ajustar la envolvente para el parche generado. En consecuencia, el ajustador de envolvente 430b genera la señal cruda ajustada 105b para la segunda banda de frecuencia y la ingresa en un banco QMF de síntesis QMF 440, que combina los componentes de la segunda banda de frecuencia 105b con la señal de audio en dominio de frecuencia 10532. El banco QMF de síntesis 440 puede, por ejemplo, comprender 64 bandas de frecuencia y genera combinando ambas señales (los componentes en la segunda banda de frecuencia 105b y la señal de audio en dominio de frecuencia 10532) la señal de audio de síntesis 105 (por ejemplo, salida de muestras PCM, PCM = modulación de código de pulso).
[00047] El banco QMF de síntesis 440 puede, por ejemplo, comprender un combinador, que combina la señal en dominio de frecuencia 10532 con la segunda banda de frecuencia 105b antes de ser transformada en el dominio de tiempo y antes de ser emitida como señal de audio 105. Opcionalmente, el combinador puede emitir la señal de audio 105 en dominio de frecuencia.
[00048] Las herramientas BWE 430a pueden comprender una herramienta convencional de umbral de ruido, que agrega ruido adicional al espectro con parche implementado (representación espectral de señal cruda 425), para que los componentes espectrales 105a que han sido transmitidos por un codificador de núcleo 340 y son usados para sintetizar los componentes de la segunda banda de frecuencia 105b exhiben la tonalidad de la segunda banda de frecuencia 105b de la señal original. Especialmente en vías de discurso vocalizado, sin embargo, el ruido adicional agregado por la herramienta convencional de umbral de ruido puede dañar la calidad percibida de la señal reproducida.
[00049] De acuerdo con unos ejemplos la herramienta del umbral de ruido puede ser modificada para que la herramienta del umbral de ruido tome en cuenta los datos de distribución de energía 125 (parte de los datos BWE 102) para cambiar el umbral de ruido según el grado de sibilancia detectado (ver Fig. 2). De modo alternativo, como se describe antes el decodificador no puede que no sea modificado y en cambio el codificador puede cambiar los datos del umbral de ruido según el grado de sibilancia detectado.
[00050] La Fig. 5 muestra una comparación de una herramienta de cálculo convencional del umbral de ruido con una herramienta de cálculo modificada del umbral de ruido de acuerdo con unos ejemplos.
[00051] Esta herramienta de cálculo modificada del umbral de ruido puede ser parte de la herramienta BWE 430.
10
15
20
25
30
35
40
45
50
55 E09776809
11-06-2015
[00052] La Fig. 5a muestra la herramienta de cálculo convencional del umbral de ruido que comprende un calculador 433, que utiliza los parámetros espectrales de replicación de banda 102 y la representación espectral de señal cruda 425 para calcular líneas espectrales crudas y líneas espectrales de ruido. Los datos BWE 375 pueden comprender datos de la envolvente y datos del umbral de ruido, are transmitidos desde el codificador como parte de la secuencia de audio codificada 345. La representación espectral de señal cruda 425 se obtiene, por ejemplo, de un generador de parche, que genera componentes de la señal de audio en la banda de frecuencia superior (componentes sintetizados en la segunda banda de frecuencia 105b). Las líneas espectrales crudas y líneas espectrales de ruido serán además procesadas, lo cual incluirá un filtrado inverso, ajuste de envolvente, adición de armonía perdida etc. Finalmente, un combinador 434 combina las líneas espectrales crudas con las líneas espectrales de ruido calculadas a los componentes en la segunda banda de frecuencia 105b.
[00053] La Fig. 5b muestra una herramienta de cálculo del umbral de ruido de acuerdo con unos ejemplos. Además, de la herramienta de cálculo convencional del umbral de ruido de la Fig. 5a, los ejemplos comprenden una unidad modificadora del umbral de ruido 431 configurada, por ejemplo, para modificar los datos transmitidos del umbral de ruido basados en los datos de distribución de energía 125 antes de ser procesados en la herramienta de cálculo del umbral de ruido 433. Los datos de distribución de energía 125 pueden también ser transmitidos desde el codificador como parte de
o además de os datos de BWE 375. La modificación de los datos transmitidos del umbral de ruido comprende, por ejemplo, un aumento de pendiente espectral positiva (ver Fig. 2a) o disminución de pendiente espectral negativa (ver Fig. 2b) del nivel del umbral de ruido, por ejemplo, un aumento de 3 dB o disminución de 3 dB u otro valor discreto (por ejemplo +/-1 dB o +/-2 dB). El valor discreto puede ser un valor entero dB o valor no entero dB. Puede haber además una dependencia funcional (por ejemplo una relación lineal) entre la disminución/aumento y la pendiente espectral.
[00054] Teniendo en cuenta estos datos modificados del umbral de ruido la herramienta de cálculo del umbral de ruido 433 calcula nuevamente las líneas espectrales crudas y las líneas espectrales de ruido modificado basada en la representación espectral de señal cruda 425, que nuevamente puede obtenerse desde un generador de parche. La herramienta de replicación de banda espectral 430 de la Fig. 5b comprende además un combinador 434 para combinar las líneas espectrales crudas con el umbral de ruido calculado (con la modificación desde la unidad modificadora 431) para generar los componentes en la segunda banda de frecuencia 105b.
[00055] Los datos de distribución de energía 125 pueden indicar en el caso más simple una modificación en el nivel de datos transmitidos del umbral de ruido. Como se explicó anteriormente, se puede utilizar también el primer coeficiente LPC como datos de distribución de energía 125. En consecuencia, si la señal de audio 105 fue codificada utilizando LPC, otros ejemplos usan el primer coeficiente LPC, ya transmitido por la secuencia de audio codificada 345, como datos de distribución de energía 125. En este caso no hay necesidad de transmitir además los datos de distribución de energía
125.
[00056] En forma alternativa una modificación del umbral de ruido puede realizarse también después del cálculo dentro del calculador 433 para que la unidad modificadora del umbral de ruido 431 pueda disponerse después del procesador
433. En otros ejemplos los datos de distribución de energía 125 pueden ingresarse directamente en el calculador 433 modificando directamente el cálculo del umbral de ruido como parámetro de cálculo. Por lo tanto, la unidad modificadora del umbral de ruido 431 y el calculador/procesador 433 pueden combinarse con la herramienta de modificadora del umbral de ruido 433, 431.
[00057] En otro ejemplo la herramienta BWE 430 que comprende la herramienta de cálculo del piso comprende un conmutador, donde el conmutador está configurado para conmutar entre un nivel alto para el umbral de ruido (pendiente espectral positiva) y un nivel bajo para el umbral de ruido (pendiente espectral negativa). El nivel alto puede, por ejemplo, corresponder al caso donde el nivel transmitido para el ruido es duplicado (o multiplicado por un factor), mientras que el nivel bajo corresponde al caso donde el nivel transmitido disminuye por factor. El conmutador puede ser controlado por un bit en la secuencia de bits de la señal de audio codificada 345 indicando una pendiente espectral positiva o negativa de la señal de audio. En forma alternativa el conmutador puede activarse mediante un análisis de la señal de audio decodificada 105a (componentes en la primera banda de frecuencia) o de la señal de audio de sub-bandas de frecuencia 10532, por ejemplo con respecto a la pendiente espectral (si la pendiente espectral es positiva o negativa). En forma alternativa el conmutador puede ser también controlado por el primer coeficiente LPC, ya que este coeficiente indica la pendiente espectral (ver arriba).
[00058] Aunque algunas de las Figs. 1, 3 a 5 se ilustran como diagramas de bloque de los aparatos, estas figuras simultáneamente son ilustraciones de un método, donde las funcionalidades del bloque corresponden a los pasos del método.
10
15
20
25
30
35
40
45
50
55 E09776809
11-06-2015
[00059] Como se explicó anteriormente, una unidad de tiempo SBR (trama SBR) o porción de tiempo pueden dividirse en varios bloques de datos, llamadas envolventes. Esta partición puede ser uniforme en todo la trama SBR y permite ajustar flexibilidad a la síntesis de la señal de audio dentro de la trama SBR.
[00060] La Fig. 6 ilustra dicha partición para la trama SBR en una cantidad n de envolventes. La trama SBR cubre un periodo de tiempo o porción de tiempo T entre el tiempo inicial t0 y el tiempo final tn. La porción de tiempo T es, por ejemplo, dividida en ocho porciones de tiempo, una primera porción de tiempo T1, una segunda porción de tiempo T2, ..., una octava porción de tiempo T8. En este ejemplo, el número máximo de envolventes coincide con el número de porciones de tiempo y está dado por n = 8. Las 8 porciones de tiempo T1, … , T8 están separadas por 7 bordes, lo que implica que un borde 1 separa la primera y segunda porción de tiempo T1, T2, un borde 2 se encuentra entre la segunda porción T2 y una tercera porción T3, y así hasta que un borde 7 separa la séptima porción T7 y la octava porción T8.
[00061] En otras formas de realización, la trama SBR se divide en cuatro envolventes de ruido (n = 4) o en dos envolventes de ruido (n = 2). En la forma de realización de la Fig. 6, todas las envolventes comprenden la misma longitud temporal, que puede ser diferente en otras formas de realización para que las envolventes de ruido cubran diferentes longitudes de tiempo. En detalle, el caso con dos envolventes de ruido (n = 2) comprende una primera envolvente que se extiende desde el tiempo t0 por las primeras cuatro porciones de tiempo (T1, T2, T3 y T4) y la segunda envolvente de ruido que cubre de la quinta a la octava porción de tiempo (T5, T6, T7 y T8). Debido a la Norma ISO/IEC 14496-3, la cantidad máxima de envolventes se restringe a dos. Pero las formas de realización pueden usar cualquier cantidad de envolventes (por ejemplo dos, cuatro u ocho envolventes).
[00062] En otras formas de realización el calculador de datos de envolvente 210 está configurado para cambiar la cantidad de envolventes dependiendo del cambio de los datos medidos del umbral de ruido 115. Por ejemplo, si los datos medidos del umbral de ruido 115 indican un umbral de ruido variado (por ejemplo sobre el valor umbral) la cantidad de envolventes puede aumentar mientras en caso que los datos del umbral de ruido 115 indican un ruido constante en el umbral de ruido la cantidad de envolventes puede disminuir.
[00063] En otras formas de realización, caracterizador de energía de la señal 120 puede basarse en información lingüística para detectar sibilantes en la voz. Cuando, por ejemplo, una señal de voz ha asociado meta información como la ortografía de fonética internacional, un análisis de esta meta información proveerá también una detección de sibilante de la porción de voz. En este contexto, se analiza la porción de meta datos de la señal de audio.
[00064] Aunque algunos aspectos han sido descriptos en el contexto de un aparato, queda claro que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a un paso del método o rasgo de un paso del método. En forma análoga, los aspectos descriptos en el contexto de un paso del método también representan una descripción de un bloque o ítem correspondiente o rasgo de un aparato correspondiente.
[00065] La señal de audio codificada puede almacenarse en un medio de almacenamiento digital o transmitida en un medio de transmisión como un medio de transmisión inalámbrico o por cable como la Internet.
[00066] Dependiendo de ciertos requisitos de implementación, las formas de realización de la invención pueden implementarse en hardware o software. La implementación puede realizarse utilizando un medio de almacenamiento digital por ejemplo un disquete, DVD, CD, memoria ROM, PROM, EPROM, EEPROM o FLASH, con señales de control capaces de ser leídas en forma electrónica almacenados en ellos, que cooperan (o son capaces de cooperar) con un sistema de ordenador programable tal que se lleve a cabo el método respectivo
[00067] Algunas formas de realización de acuerdo con la invención comprenden un portador de datos con señales de control capaces de ser leídas en forma electrónica, capaces de cooperar con un sistema de ordenador programable tal que se lleve a cabo uno de los métodos descriptos.
[00068] Generalmente, las formas de realización de la presente invención pueden implementarse como un producto de programa de ordenador con un código de programa, el código de programa es operativo para desarrollar uno de los métodos cuando el producto de programa de ordenador es utilizado en un ordenador. El código de programa puede por ejemplo ser almacenado en un portador capaz de ser leído por una máquina.
[00069] Otras formas de realización comprenden el programa de ordenador para desarrollar uno de los métodos descriptos en la presente, almacenado en un portador capaz de ser leído por una máquina.
E09776809
11-06-2015
[00070] En otras palabras, una forma de realización del método de invención consiste, por lo tanto, en un programa de ordenador con un código de programa para desarrollar uno de los métodos descriptos en la presente, cuando el programa de ordenador es utilizado en un ordenador.
5 [00071] Otra forma de realización del método de invención consiste, por lo tanto, un portador de datos (o medio almacenador digital, o medio capaz de ser leído por un ordenador) que comprende, el programa de ordenador grabado en los mismos, para desarrollar uno de los métodos descriptos en la presente.
[00072] Otra forma de realización del método de invención consiste, por lo tanto, en una secuencia de datos o secuencia
10 de señales que representan el programa de ordenador para desarrollar uno de los métodos descriptos en la presente. La secuencia de datos o secuencia de señales puede por ejemplo ser configurada para ser transferida a través de una conexión de comunicación de datos, por ejemplo por Internet.
[00073] Otra forma de realización comprende un medio de procesamiento, por ejemplo un ordenador, o un dispositivo 15 lógico programable, configurado o adaptado para desarrollar uno de los métodos descriptos en la presente.
[00074] Otra forma de realización comprende un ordenador con programa de ordenador instalado en la misma, para desarrollar uno de los métodos descriptos en la presente.
20 [00075] En algunas formas de realización, un dispositivo lógico programable (por ejemplo una matriz de puertas programables por campo) puede utilizarse para desarrollar una de las funcionalidades de los métodos descriptos en la presente. En algunas formas de realización, una matriz de puertas programables por campo puede cooperar con un microprocesador con el fin de desarrollar uno de los métodos descriptos en la presente. Generalmente, los métodos son preferentemente desarrollados por cualquier aparato de hardware.
25 [00076] Las formas de realización descriptas anteriormente son meramente ilustrativas para los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descriptos en la presente resultarán evidentes para los expertos en la técnica. Por lo tanto, se intenta limitar sólo por el alcance de las reivindicaciones de la patente inminentes y no por los detalle específicos presentados a modo de descripción y
30 explicación de las formas de realización de la presente.

Claims (4)

  1. REIVINDICACIONES
    1. Un aparato (100) para generar datos de salida por ampliación de ancho de banda (102) para una señal de audio (105), la señal de audio (105) comprende componentes en una primera banda de frecuencia (105a) y componentes en
    5 una segunda banda de frecuencia (105b), donde los datos de salida por ampliación del ancho de banda (102) están adaptados para controlar una síntesis de los componentes en la segunda banda de frecuencia (105b), el aparato comprende:
    un medidor de umbral de ruido (110) para medir un umbral de ruido para generar datos de umbral de ruido (115) de la 10 segunda banda de frecuencia (105b) para una porción de tiempo (T) de la señal de audio (105);
    un caracterizador de energía de señal (120) para derivar un parámetro de sibilancia o un parámetro de pendiente espectral como datos de distribución de energía (125), donde el caracterizador de energía de señal está adaptado para recibir la primera banda de frecuencia (105a) y la segunda banda de frecuencia (105b), los datos de distribución de
    15 energía (125) caracterizan una distribución de energía en un espectro de la porción de tiempo (T) de la señal de audio (105), el parámetro de sibilancia o el parámetro de pendiente espectral identifican un nivel en aumento o disminución de la señal de audio (105) con la frecuencia (F); y
    un procesador (130) para combinar los datos de umbral de ruido (115) y los datos de distribución de energía (125) para 20 obtener los datos de salida por ampliación de ancho de banda (102),
    donde el procesador (130) está configurado para cambiar los datos de umbral de ruido (115) según los datos de distribución de energía (125) para obtener datos de umbral de ruido modificados, los datos de umbral de ruido modificados indicando un umbral de ruido modificado que aumenta o disminuye, dependiendo de los datos de
    25 distribución de energía, con respecto al umbral de ruido indicado por los datos de umbral de ruido,
    donde el cambio de los datos de umbral de ruido (115) es tal que el umbral de ruido modificado se incrementa para una señal de audio (105) que comprende un primer grado de sibilancia en comparación con una señal de audio (105) que comprende un segundo grado de sibilancia, donde el segundo grado es menor que el primer grado,
    30 donde el aparato (100) para generar datos de salida por ampliación de ancho de banda (102) está configurado para ejecutar una decisión externa para determinar si la porción de tiempo (T) de la señal de audio (105) es una señal de voz
    o una señal que no es de voz,
    35 donde los datos de umbral de ruido medidos por el medidor de umbral de ruido (110) son utilizados como los datos de salida por ampliación de ancho de banda, cuando la porción de tiempo (T) de la señal de audio (105) es una señal que no es devoz, y
    donde el caracterizador de energía de señal (120) está configurado para realizar, cuando la porción de tiempo (T) de la
    40 señal de audio (105) es una señal de voz, un análisis de discurso adicional, para determinar un grado de sibilancia de la señal de voz, y donde el procesador (130) está configurado para agregar los datos de umbral de ruido modificados a una secuencia de bits como los datos de salida por ampliación de ancho de banda (102), cuando la porción de tiempo (T) de la señal de audio (105) es una señal de voz.
    45
  2. 2. El aparato (100) de la reivindicación 1, donde el caracterizador de energía de señal (120) está configurado para utilizar el primer coeficiente de codificación predictiva lineal como parámetro de sibilancia.
    50 3. Un codificador (300) para codificar una señal de audio (105), la señal de audio (105) comprende componentes en una primera banda de frecuencia (105a) y componentes en una segunda banda de frecuencia (105b), el codificador comprende:
    un codificador de núcleo (340) para codificar los componentes en la primera banda de frecuencia (105a);
    55 un aparato (100) para generar datos de salida por ampliación de ancho de banda (102) de acuerdo con una de las reivindicaciones 1 a 2; y
    12
    un calculador de datos de la envolvente (210) para calcular datos de ampliación de ancho de banda (375) basado en los componentes en la segunda banda de frecuencia (105b), donde los datos de ampliación de ancho de banda calculados
    (375) comprenden los datos de salida por ampliación de ancho de banda (102).
    5 4. El codificador (300) de la reivindicación 3, donde la porción de tiempo (T) cubre una trama SBR (replicación de banda espectral), la trama SBR comprende una pluralidad de envolventes de ruido, y donde el calculador de datos de la envolvente de ruido (210) está configurado para calcular diferentes datos de ampliación de ancho de banda (375) para diferentes envolventes de ruido de la pluralidad de envolventes de ruido.
    10 5. El codificador (300) de la reivindicación 3 o reivindicación 4, donde el calculador de datos de la envolvente (210) está configurado para cambiar un número de envolventes en función de un cambio de los datos medidos del umbral de ruido (115).
  3. 6. Un método para generar datos de salida por ampliación de ancho de banda (102) para una señal de audio
    15 (105), la señal de audio (105) comprende componentes en una primera banda de frecuencia (105a) y componentes en una segunda banda de frecuencia (105b), donde los datos de salida por ampliación de ancho de banda (102) están adaptados para controlar una síntesis de los componentes en la segunda banda de frecuencia (105b), el método comprende:
    20 la medición de un umbral de ruido para generar datos de umbral de ruido (115) de la segunda banda de frecuencia (105b) para una porción de tiempo (T) de la señal de audio (105);
    la derivación de un parámetro de sibilancia o de un parámetro de pendiente espectral como datos de distribución de energía (125), donde por tanto se reciben la primera banda de frecuencia (105a) y la segunda banda de frecuencia
    25 (105b), los datos de distribución de energía (125) caracterizan una distribución de energía en un espectro de la porción de tiempo (T) de la señal de audio (105), el parámetro de sibilancia o el parámetro de pendiente espectral identifican un nivel de aumento o disminución de la señal de audio (105) con la frecuencia (F); y
    la combinación de los datos de umbral de ruido (115) y los datos de distribución de energía (125) para obtener los datos 30 de salida por ampliación de ancho de banda (102),
    donde, en la etapa de combinación, los datos de umbral de ruido (115) cambian según los datos de distribución de energía (125) para obtener datos de umbral de ruido modificados, los datos de umbral de ruido modificados indican un umbral de ruido modificado que aumenta o disminuye, dependiendo de los datos de distribución de energía, con
    35 respecto al umbral de ruido indicado por los datos de umbral de ruido,
    donde el cambio de los datos de umbral de ruido (115) es tal que el umbral de ruido modificado se incrementa para una señal de audio (105) que comprende un primer grado de sibilancia en comparación con una señal de audio (105) que comprende un segundo grado de sibilancia, donde el segundo grado es menor que el primer grado,
    40 donde el método para generar datos de salida por ampliación de ancho de banda (102) ejecuta una decisión externa para determinar si la porción de tiempo (T) de la señal de audio (105) es una señal de voz o una señal que no es de voz,
    donde los datos de umbral de ruido medidos por el medidor de umbral de ruido (110) son utilizados como los datos de 45 salida por ampliación de ancho de banda, cuando la porción de tiempo (T) de la señal de audio (105) es una señal que no es devoz, y
    donde, cuando la porción de tiempo (T) de la señal de audio (105) es una señal de voz, se realiza un análisis de discurso adicional para determinar un grado de sibilancia de la señal de voz, y donde los datos de umbral de ruido modificados se 50 agregan a una secuencia de bits como los datos de salida por ampliación de ancho de banda (102), cuando la porción de tiempo (T) de la señal de audio (105) es una señal de voz.
  4. 7. Un programa de ordenador adaptado para implementar, al ejecutarse en un ordenador, el método de la 55 reivindicación 6.
    13
ES09776809.7T 2008-07-11 2009-06-23 Un aparato y un método para generar datos de salida por ampliación de ancho de banda Active ES2539304T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US7984108P 2008-07-11 2008-07-11
US79841 2008-07-11
PCT/EP2009/004521 WO2010003544A1 (en) 2008-07-11 2009-06-23 An apparatus and a method for generating bandwidth extension output data

Publications (1)

Publication Number Publication Date
ES2539304T3 true ES2539304T3 (es) 2015-06-29

Family

ID=40902067

Family Applications (2)

Application Number Title Priority Date Filing Date
ES09776809.7T Active ES2539304T3 (es) 2008-07-11 2009-06-23 Un aparato y un método para generar datos de salida por ampliación de ancho de banda
ES09776811T Active ES2398627T3 (es) 2008-07-11 2009-06-23 Aparato y procedimiento para calcular una cantidad de envolventes espectrales

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES09776811T Active ES2398627T3 (es) 2008-07-11 2009-06-23 Aparato y procedimiento para calcular una cantidad de envolventes espectrales

Country Status (20)

Country Link
US (2) US8612214B2 (es)
EP (2) EP2301028B1 (es)
JP (2) JP5628163B2 (es)
KR (5) KR101278546B1 (es)
CN (2) CN102089817B (es)
AR (3) AR072552A1 (es)
AU (2) AU2009267530A1 (es)
BR (2) BRPI0910523B1 (es)
CA (2) CA2729971C (es)
CO (2) CO6341676A2 (es)
ES (2) ES2539304T3 (es)
HK (2) HK1156141A1 (es)
IL (2) IL210196A (es)
MX (2) MX2011000367A (es)
MY (2) MY155538A (es)
PL (2) PL2301028T3 (es)
RU (2) RU2494477C2 (es)
TW (2) TWI415114B (es)
WO (2) WO2010003544A1 (es)
ZA (2) ZA201009207B (es)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9177569B2 (en) 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
CN102985970B (zh) 2010-03-09 2014-11-05 弗兰霍菲尔运输应用研究公司 在用于音频信号的基于相角声码器的带宽扩展中改善的幅值响应和时间对准
JP5649084B2 (ja) 2010-03-09 2015-01-07 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 再生速度またはピッチを変更する際にオーディオ信号における過渡音声事象を処理するための装置および方法
PL2545553T3 (pl) 2010-03-09 2015-01-30 Fraunhofer Ges Forschung Urządzenie i sposób do przetwarzania sygnału audio z użyciem zrównania granicy obszaru
BR112012026326B1 (pt) * 2010-04-13 2021-05-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V método e codificador e decodificador para representação com amostragem precisa de um sinal de áudio
MX2012011828A (es) * 2010-04-16 2013-02-27 Fraunhofer Ges Forschung Aparato, metodo y programa de computadora para generar una señal de banda amplia que utiliza extension de ancho de banda guiada y extension oculta de ancho de banda.
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5743137B2 (ja) * 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
WO2012158333A1 (en) 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Forensic detection of parametric audio coding schemes
CN103959376B (zh) * 2011-12-06 2019-04-23 英特尔公司 低功率语音检测
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
CN107945813B (zh) * 2012-08-29 2021-10-26 日本电信电话株式会社 解码方法、解码装置、和计算机可读取的记录介质
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
EP2717263B1 (en) * 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
CN110827841B (zh) * 2013-01-29 2023-11-28 弗劳恩霍夫应用研究促进协会 音频解码器
MX346945B (es) * 2013-01-29 2017-04-06 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de refuerzo de frecuencia mediante una operacion de limitacion de energia.
ES2790733T3 (es) * 2013-01-29 2020-10-29 Fraunhofer Ges Forschung Codificadores de audio, decodificadores de audio, sistemas, métodos y programas informáticos que utilizan una resolución temporal aumentada en la proximidad temporal de inicios o finales de fricativos o africados
BR112015025092B1 (pt) 2013-04-05 2022-01-11 Dolby International Ab Sistema de processamento de áudio e método para processar um fluxo de bits de áudio
CN110265047B (zh) 2013-04-05 2021-05-18 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
RU2662921C2 (ru) 2013-06-10 2018-07-31 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения
AU2014280256B2 (en) 2013-06-10 2016-10-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
EP3011560B1 (en) * 2013-06-21 2018-08-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder having a bandwidth extension module with an energy adjusting module
EP2830059A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling energy adjustment
WO2015017223A1 (en) * 2013-07-29 2015-02-05 Dolby Laboratories Licensing Corporation System and method for reducing temporal artifacts for transient signals in a decorrelator circuit
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
JP6319753B2 (ja) 2013-12-02 2018-05-09 華為技術有限公司Huawei Technologies Co.,Ltd. 符号化方法および装置
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US10120067B2 (en) 2014-08-29 2018-11-06 Leica Geosystems Ag Range data compression
TW202242853A (zh) 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
KR102219752B1 (ko) 2016-01-22 2021-02-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 채널 간 시간 차를 추정하기 위한 장치 및 방법
CN105513601A (zh) * 2016-01-27 2016-04-20 武汉大学 一种音频编码带宽扩展中频带复制的方法及装置
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US10084493B1 (en) * 2017-07-06 2018-09-25 Gogo Llc Systems and methods for facilitating predictive noise mitigation
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
US11811686B2 (en) * 2020-12-08 2023-11-07 Mediatek Inc. Packet reordering method of sound bar

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
RU2128396C1 (ru) * 1997-07-25 1999-03-27 Гриценко Владимир Васильевич Способ передачи и приема информации и устройство для его осуществления
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7469206B2 (en) * 2001-11-29 2008-12-23 Coding Technologies Ab Methods for improving high frequency reconstruction
CN1703736A (zh) * 2002-10-11 2005-11-30 诺基亚有限公司 用于源控制可变比特率宽带语音编码的方法和装置
JP2004350077A (ja) * 2003-05-23 2004-12-09 Matsushita Electric Ind Co Ltd アナログオーディオ信号送信装置および受信装置並びにアナログオーディオ信号伝送方法
SE0301901L (sv) 2003-06-26 2004-12-27 Abb Research Ltd Metod för att diagnostisera utrustningsstatus
JP4767687B2 (ja) * 2003-10-07 2011-09-07 パナソニック株式会社 スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
KR20060132697A (ko) * 2004-02-16 2006-12-21 코닌클리케 필립스 일렉트로닉스 엔.브이. 트랜스코더 및 트랜스코딩 방법
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
CN100511308C (zh) 2004-06-28 2009-07-08 Abb研究有限公司 用于抑制冗余报警的系统和方法
ATE429698T1 (de) * 2004-09-17 2009-05-15 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten tonsignalen
US8036394B1 (en) * 2005-02-28 2011-10-11 Texas Instruments Incorporated Audio bandwidth expansion
KR100803205B1 (ko) * 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
KR100647336B1 (ko) 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US8260620B2 (en) * 2006-02-14 2012-09-04 France Telecom Device for perceptual weighting in audio encoding/decoding
EP1852849A1 (en) 2006-05-05 2007-11-07 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
US20070282803A1 (en) * 2006-06-02 2007-12-06 International Business Machines Corporation Methods and systems for inventory policy generation using structured query language
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
EP2062255B1 (en) 2006-09-13 2010-03-31 Telefonaktiebolaget LM Ericsson (PUBL) Methods and arrangements for a speech/audio sender and receiver
US8417532B2 (en) 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
JP4918841B2 (ja) * 2006-10-23 2012-04-18 富士通株式会社 符号化システム
US8639500B2 (en) 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
JP5103880B2 (ja) * 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
US20110022924A1 (en) * 2007-06-14 2011-01-27 Vladimir Malenovsky Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
WO2009081315A1 (en) 2007-12-18 2009-07-02 Koninklijke Philips Electronics N.V. Encoding and decoding audio or speech
DE602008005250D1 (de) * 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer
RU2455709C2 (ru) * 2008-03-03 2012-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки аудиосигнала
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing

Also Published As

Publication number Publication date
PL2301027T3 (pl) 2015-09-30
RU2487428C2 (ru) 2013-07-10
KR20110038029A (ko) 2011-04-13
KR20130095841A (ko) 2013-08-28
KR101395252B1 (ko) 2014-05-15
AU2009267532B2 (en) 2013-04-04
US20110202352A1 (en) 2011-08-18
JP2011527450A (ja) 2011-10-27
AU2009267530A1 (en) 2010-01-14
ES2398627T3 (es) 2013-03-20
AR072552A1 (es) 2010-09-08
US8296159B2 (en) 2012-10-23
WO2010003544A1 (en) 2010-01-14
RU2011103999A (ru) 2012-08-20
BRPI0910523B1 (pt) 2021-11-09
WO2010003546A3 (en) 2010-03-04
BRPI0910523A2 (pt) 2020-10-20
JP5628163B2 (ja) 2014-11-19
PL2301028T3 (pl) 2013-05-31
CA2729971A1 (en) 2010-01-14
RU2494477C2 (ru) 2013-09-27
CN102089817B (zh) 2013-01-09
HK1156141A1 (en) 2012-06-01
CN102089817A (zh) 2011-06-08
MX2011000367A (es) 2011-03-02
CA2730200C (en) 2016-09-27
KR20110040820A (ko) 2011-04-20
KR101278546B1 (ko) 2013-06-24
MY155538A (en) 2015-10-30
TW201007700A (en) 2010-02-16
TWI415115B (zh) 2013-11-11
US20110202358A1 (en) 2011-08-18
AU2009267532A1 (en) 2010-01-14
EP2301028B1 (en) 2012-12-05
CA2730200A1 (en) 2010-01-14
US8612214B2 (en) 2013-12-17
AU2009267532A8 (en) 2011-03-17
AR097473A2 (es) 2016-03-16
ZA201009207B (en) 2011-09-28
HK1156140A1 (en) 2012-06-01
AR072480A1 (es) 2010-09-01
CO6341677A2 (es) 2011-11-21
MY153594A (en) 2015-02-27
KR101345695B1 (ko) 2013-12-30
KR101395250B1 (ko) 2014-05-15
CN102144259B (zh) 2015-01-07
JP5551694B2 (ja) 2014-07-16
BRPI0910517A2 (pt) 2016-07-26
CN102144259A (zh) 2011-08-03
IL210196A (en) 2015-10-29
MX2011000361A (es) 2011-02-25
TWI415114B (zh) 2013-11-11
CA2729971C (en) 2014-11-04
RU2011101617A (ru) 2012-07-27
EP2301027B1 (en) 2015-04-08
KR101395257B1 (ko) 2014-05-15
JP2011527448A (ja) 2011-10-27
BRPI0910517B1 (pt) 2022-08-23
TW201007701A (en) 2010-02-16
IL210196A0 (en) 2011-03-31
EP2301028A2 (en) 2011-03-30
IL210330A0 (en) 2011-03-31
KR20130095840A (ko) 2013-08-28
WO2010003546A2 (en) 2010-01-14
EP2301027A1 (en) 2011-03-30
KR20130033468A (ko) 2013-04-03
CO6341676A2 (es) 2011-11-21
ZA201100086B (en) 2011-08-31

Similar Documents

Publication Publication Date Title
ES2539304T3 (es) Un aparato y un método para generar datos de salida por ampliación de ancho de banda
US8135047B2 (en) Systems and methods for including an identifier with a packet associated with a speech signal
ES2391292T3 (es) Sistemas, procedimientos y aparato para la generación de una señal de excitación de banda alta
ES2705589T3 (es) Sistemas, procedimientos y aparatos para el suavizado del factor de ganancia
ES2288950T3 (es) Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable.
ES2703327T3 (es) Codificador, decodificador y métodos para codificación espacial de objetos de audio de multirresolución retrocompatible
JP4166673B2 (ja) 相互使用可能なボコーダ
AU2013257391B2 (en) An apparatus and a method for generating bandwidth extension output data