ES2223591T3 - Codificacion eficaz de envolvente especial utilizando una resolucion tiempo/frecuencia variable. - Google Patents
Codificacion eficaz de envolvente especial utilizando una resolucion tiempo/frecuencia variable.Info
- Publication number
- ES2223591T3 ES2223591T3 ES00968271T ES00968271T ES2223591T3 ES 2223591 T3 ES2223591 T3 ES 2223591T3 ES 00968271 T ES00968271 T ES 00968271T ES 00968271 T ES00968271 T ES 00968271T ES 2223591 T3 ES2223591 T3 ES 2223591T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- frequency
- resolution
- envelope
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000003595 spectral effect Effects 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 32
- 239000008187 granular material Substances 0.000 claims description 68
- 230000001052 transient effect Effects 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000007619 statistical method Methods 0.000 claims 5
- 230000009286 beneficial effect Effects 0.000 claims 2
- 230000003044 adaptive effect Effects 0.000 abstract description 3
- 238000013507 mapping Methods 0.000 abstract 1
- 230000011664 signaling Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000002592 echocardiography Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001020 rhythmical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 210000002196 fr. b Anatomy 0.000 description 1
- 210000003918 fraction a Anatomy 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Stabilization Of Oscillater, Synchronisation, Frequency Synthesizers (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
Método de codificación de envolvente espectral para una señal de entrada, teniendo la señal de entrada un ancho de banda, incluyendo el ancho de banda determinadas regiones de frecuencia, estando la señal de entrada representada por una versión codificada de fuente de la misma, teniendo la versión codificada de fuente un ancho de banda que no incluye las regiones de frecuencia determinadas, siendo una envolvente espectral de la señal de entrada representable en determinadas regiones de frecuencia por medio de una representación basta de envolvente espectral y una representación fina de envolvente espectral, siendo la representación fina de envolvente espectral una señal residual, que comprende las siguientes etapas: realizar (603) un análisis estadístico de la señal de entrada, caracterizado por, en base a una consecuencia del análisis estadístico, generar (604, 605, 606) datos sobre la representación basta de envolvente espectral para las regiones de frecuencia determinadas, mediante muestreo de la envolvente espectral en las regiones de frecuencia determinadas, con una resolución de tiempo variable o con una resolución de frecuencia variable, donde la resolución de tiempo o la resolución de frecuencia elegida para un instante de tiempo depende del resultado del análisis estadístico de la señal de entrada en el instante de tiempo; generar una señal de control que describe la resolución de tiempo variable o la resolución de frecuencia variable, y generar (607) una señal de entrada codificada mediante multiplexado de la versión codificada de fuente, los datos sobre la representación basta de envolvente espectral, y la señal de control, en el que la señal de entrada codificada no incluye la señal residual.
Description
Codificación eficaz de envolvente espectral
utilizando una resolución tiempo/frecuencia variable.
La presente invención se refiere a un nuevo
método y aparato para la codificación eficaz de envolventes
espectrales en sistemas de codificación de audio. El método puede
ser utilizado tanto para la codificación de audio natural como para
la codificación de habla, y resulta especialmente adecuado para
codificadores que utilizan SBR [WO 98/57436] u otros métodos de
reconstrucción de alta frecuencia.
Las técnicas de codificación de una fuente de
audio pueden dividirse en dos clases: codificación natural de audio
y codificación de habla. La codificación natural de audio se
utiliza habitualmente para señales musicales o arbitrarias a
velocidades de bit medias, y por lo general ofrecen un amplio ancho
de banda de audio. Los codificadores de habla están normalmente
limitados a la reproducción del habla, pero pueden ser utilizados,
por otra parte, a velocidades de bit muy bajas, aunque con un bajo
ancho de banda de audio. En ambas clases, la señal se separa por lo
general en dos componentes importantes de señal, la "envolvente
espectral" y la señal "residual" correspondiente. A través
de la descripción que sigue, el término "envolvente espectral"
se refiere a una distribución espectral tosca de la señal en
sentido general, por ejemplo coeficientes de filtro en un
codificador basado en predicción lineal o un conjunto de valores
medios de tiempo-frecuencia de muestras de
sub-banda en un codificador de
sub-banda. El término "residual" se refiere a
la distribución espectral fina en un sentido general, por ejemplo
la señal de error LPC o las muestras de sub-banda
normalizadas con la utilización de los valores medios de
tiempo-frecuencia anteriores. "Datos de
envolvente" hace referencia a la envolvente espectral
cuantificada y codificada, y "datos residuales" al residual
cuantificado y codificado. A velocidades de bit medias y altas, los
datos residuales constituyen la parte principal de la corriente de
bits. A velocidades de bit muy bajas, los datos de envolvente
constituyen la parte mayor de la corriente de bits. Por ello, es
importante representar la envolvente espectral de forma compacta
cuando se utilizan velocidades de bit más bajas.
Los codificadores de audio de la técnica anterior
y la mayor parte de los codificadores de habla, utilizan segmentos
de tiempo de longitud constante, relativamente cortos, para la
generación de datos de envolvente, con el fin de conseguir una
buena resolución temporal. Sin embargo, esto impide la utilización
óptima del enmascaramiento de dominio de frecuencia conocido a
partir de la psico-acústica. Para mejorar la
ganancia de codificación con el uso de bandas de filtro estrechas
de fuerte pendiente, y conseguir además una buena resolución
temporal durante los pasos transitorios, los codificadores de audio
de módem emplean conmutación de ventana adaptativa, es decir,
conmutan longitudes de segmentos de tiempo que dependen de la
estadística de las señales. De manera clara, una utilización mínima
de los segmentos cortos es un requisito previo para una ganancia de
codificación máxima. Desafortunadamente, las ventanas de transición
largas se hacen necesarias para alterar las longitudes de los
segmentos, limitando la flexibilidad de conmutación.
La envolvente espectral es una función de dos
variables: tiempo y frecuencia. La codificación puede realizarse
aprovechando la redundancia en cualquier dirección del plano
tiempo/frecuencia. En general, la codificación de la envolvente
espectral se lleva a cabo en la dirección de la frecuencia,
utilizando codificación delta (DPCM) o cuantificación vectorial
(VQ).
La presente invención proporciona un nuevo método
y un aparato para la codificación de envolvente espectral según se
expone en las reivindicaciones 1 y 17, y un aparato para la
decodificación de envolvente espectral y un método de
decodificación de envolvente espectral según se expone en las
reivindicaciones 18 y 19. El esquema de codificación está diseñado
de modo que cumple con los requisitos espectrales del sistema, en
el que la señal residual, dentro de ciertas regiones de frecuencia,
está excluida de los datos transmitidos. Ejemplos son sistemas que
emplean codificadores HFR (Reconstrucción de Alta Frecuencia), en
particular SBR (Replicación de Banda Espectral), o paramétricos. En
una implementación, se obtiene un muestreo no uniforme de tiempo y
frecuencia de la envolvente espectral agrupando adaptativamente
muestras de sub-banda a partir de un banco de
filtro de tamaño fijo, en bandas de frecuencia y en segmentos de
tiempo, cada uno de los cuales genera una muestra de envolvente.
Esto permite una selección instantánea de resolución arbitraria de
tiempo y frecuencia dentro de los límites del banco de filtro. El
sistema falla respecto a segmentos de tiempo largos y resolución de
alta frecuencia. En las proximidades de los transitorios, se
utilizan segmentos de tiempo más cortos, con lo que pueden
utilizarse escalones de frecuencia más grandes con el fin de
mantener el tamaño de los datos dentro de límites. Con el fin de
optimizar los beneficios del muestreo no uniforme en el tiempo, se
utiliza una longitud variable de los gránulos o tramas de la
corriente de bits. El método de resolución de tiempo/frecuencia
variable es también aplicable a la codificación de envolvente
basado en la predicción. En vez de agrupar las muestras de
sub-banda, se generan coeficientes predictivos para
los segmentos de tiempo de longitudes variables según el
sistema.
La invención describe dos esquemas para la
señalización de la resolución de tiempo y frecuencia utilizada. El
primer esquema permite una selección arbitraria, mediante
señalización explícita de las resoluciones de frecuencia y de los
límites de los segmentos de tiempo. Con el fin de reducir la
sobrecarga de la señalización, se utilizan cuatro clases de
gránulos, que ofrecen diferentes relaciones de coste/flexibilidad.
El segundo esquema aprovecha la propiedad de un material de
programa típico, consistente en que los transitorios están
separados al menos por un tiempo T_{\text{nmín}} con el fin de
reducir el número de bits de control adicionales. Con ello, un
detector de transitorio incluido en el codificador, que opera sobre
un intervalo de tiempo T_{del} <= T_{\text{nmín}} igual a la
longitud nominal del gránulo, determina la posición del inicio de
un posible transitorio. La posición dentro del intervalo se
codifica y se envía al decodificador. El codificador y el
decodificador comparten normas que especifican la distribución de
tiempo/frecuencia de las muestras de envolvente espectral, dada una
cierta combinación de señales posteriores de control, que
garantizan una decodificación no ambigua de los datos de
envolvente.
La presente invención presenta un nuevo método
eficaz para codificación de redundancia de factor de escala. Un
impulso unitario en el dominio del tiempo, se transforma en una
constante en el dominio de la frecuencia, y un impulso unitario en
el dominio de la frecuencia, es decir, una sinusoide simple,
corresponde a una señal de magnitud constante en el dominio del
tiempo. De manera simplificada, sobre la base de un período corto,
la señal muestra menos variaciones en un dominio que en el otro. De
ahí que, utilizando predicción o codificación delta, se incrementa
la eficacia de la codificación si la envolvente espectral se
codifica tanto en la dirección del tiempo como de la frecuencia,
dependiendo de las características de la señal.
La presente invención va a ser descrita ahora por
medio de ejemplos ilustrativos, no limitativos del alcance o
espíritu de la invención, con referencia a los dibujos adjuntos, en
los que:
Las figuras 1a-1b ilustran el
muestreo uniforme, respectivamente no uniforme, en el tiempo de la
envolvente espectral.
Las figuras 2\tilde{a}2b definen, e ilustran,
el uso de cuatro clases de gránulos.
Las figuras 3\tilde{a}3b son dos ejemplos de
gránulos, y de las señales de control correspondientes.
Las figuras 4\tilde{a}4c ilustran el sistema de
señalización de posición.
La figura 5 ilustra la codificación delta
conmutada de tiempo/frecuencia.
La figura 6 es un diagrama de bloques de un
codificador que utiliza codificación de envolvente según la
invención.
La figura 7 es un diagrama de bloques de un
decodificador que utiliza codificación de envolvente según la
invención.
Las realizaciones descritas en lo que sigue, son
simplemente ilustrativas de los principios de la presente invención
en cuanto a codificación eficaz de envolvente. Se entiende que las
modificaciones y variaciones de las disposiciones y detalles aquí
descritos resultarán evidentes para otros expertos en la materia.
Se pretende, por lo tanto, que esté limitada solamente por el
alcance de las reivindicaciones de patente que siguen a
continuación, y no por los detalles específicos presentados a
título de descripción y explicación de las realizaciones que
siguen.
La mayor parte de los codificadores de audio y de
habla tienen en común que tanto los datos de envolvente como los
datos residuales, son transmitidos y combinados durante la síntesis
en el decodificador. Dos excepciones las constituyen los
codificadores que emplean PNS ["Improving Audio Codecs by Noise
Substitution", D. Schultz, JAES, vol. 44, núm. 7/8, 1996], y los
codificadores que emplean SBR. En el caso del SBR, considerando la
banda alta, solamente necesita ser transmitida la estructura
espectral basta, puesto que se reconstruye una señal residual a
partir de la banda baja. Esto pone demandas más altas sobre cómo
generar datos de envolvente, en particular, debido a la falta de
información de "tiempo" contenida en la señal residual
original. Este problema va a ser demostrado ahora por medio de un
ejemplo:
La figura 1 muestra la representación de
tiempo/frecuencia de una señal musical, en la que los acordes
sostenidos se combinan con transitorios agudos con contenido de
alta frecuencia principalmente. En la banda baja, los acordes
tienen una potencia alta y la potencia de los transitorios es baja,
mientras que en la banda alta sucede lo contrario. Los datos de
envolvente que se generan durante los intervalos de tiempo en los
que están presentes los transitorios, están dominados por la alta
potencia de transitorio intermitente. Con el proceso SBR en el
decodificador, la envolvente espectral de la señal transportada, se
estima mediante la utilización de la misma resolución instantánea de
tiempo-/frecuencia que se utiliza para el análisis de la banda alta
original. A continuación se realiza una ecualización de la señal
transportada, en base a las diferencias entre las envolventes
espectrales. Por ejemplo, los factores de amplificación en un banco
de filtro de ajuste de envolvente, se calculan como la raíz
cuadrada de los cocientes entre la potencia media de la señal
original y la señal transportada. Para este tipo de señal, se
presenta un problema: La señal transportada tiene la misma relación
de potencia de
"acorde-respecto-a-transitorio"
que la banda baja. Las ganancias necesarias con vistas a ajustar
los transitorios transportados hasta el nivel correcto, provocan
así que los acordes sean amplificados en relación con el nivel de la
banda alta original durante la duración completa de los datos de
envolvente que contienen la energía transitoria. Estos fragmentos
de acorde que momentáneamente son demasiado pesados, son percibidos
como pre- y post- ecos respecto al transitorio, véase la figura 1a.
Esta clase de distorsión será citada en lo que sigue como
"ganancia inducida pre- y post- ecos". El fenómeno puede ser
eliminado actualizando constantemente los datos de envolvente a una
velocidad alta tal que se garantice que el tiempo entre un
transitorio actualizado y uno localizado arbitrariamente sea lo
suficientemente corto como para que no pueda ser resuelto por el
oído humano. Sin embargo, este enfoque incrementaría drásticamente
la cantidad de datos que han de ser transmitidos, y por lo tanto no
es factible.
Por lo tanto, se presenta un nuevo esquema de
generación de datos de envolvente. La solución consiste en mantener
una baja velocidad de actualización durante los pasajes tonales,
que forman las partes más importantes de un material típico de
programa, y por medio de un detector de transitorio para localizar
las posiciones de los transitorios y actualizar los datos de
envolvente cerca de los flancos de ataque, véase la figura 1b. Esto
elimina los pre-ecos inducidos por la ganancia. Con
el fin de representar bien la caída de los transitorios, la
velocidad de actualización se incrementa momentáneamente durante un
intervalo de tiempo tras el inicio del transitorio. Esto elimina
los post-ecos inducidos por la ganancia. La
segmentación de tiempo durante la caída, no es tan crucial como
encontrar el comienzo del transitorio, como se explicará
posteriormente. Con el fin de compensar los incrementos de tiempo
más pequeños, se pueden utilizar incrementos de frecuencia más
grandes durante el transitorio, manteniendo el tamaño de los datos
dentro de sus límites. Un muestreo no uniforme en cuanto a tiempo y
frecuencia, como se ha expuesto en lo que antecede, resulta
aplicable a la codificación de envolvente en base tanto a un banco
de filtro como a una predicción lineal. Se pueden utilizar
diferentes órdenes predictivas para segmentos transitorios y
casi-estacionarios (tonales).
En el caso de los codificadores basados en
predicción, no se conocen en la técnica anterior esquemas
elaborados de conmutación de resolución de tiempo/frecuencia. Sin
embargo, algunos codificadores basados en banco de filtro emplean
resolución variable de tiempo/frecuencia. Esto se consigue
habitualmente mediante conmutación del tamaño de banco de filtro.
Un cambio de tamaño de este tipo puede no tener lugar de forma
inmediata, requiriéndose las denominadas ventanas de transición, y
de este modo los puntos de actualización no pueden ser elegidos
libremente. Cuando se utiliza SBR o cualquier otro método HFR, el
objetivo es diferente, se puede diseñar un banco de filtro que
cumpla tanto una resolución temporal más alta como de frecuencia
más alta, necesaria para extraer una representación de envolvente
adecuada. De este modo, el muestreo no uniforme de tiempo y
frecuencia de la envolvente espectral, puede ser obtenido mediante
agrupamiento adaptativo de las muestras de sub-banda
a partir de un banco de filtro de tamaño fijo, en "bandas de
frecuencia" y en "segmentos de tiempo". A continuación se
calcula una muestra de envolvente por banda y segmento. A través de
la descripción que sigue, "resolución de frecuencia" se refiere
a un conjunto específico de bandas de frecuencia, de coeficientes
LPC o similares, utilizados en el cálculo de envolvente para un
segmento de tiempo particular. En otras palabras, a partir de una
perspectiva de codificación de envolvente, se puede obtener
instantáneamente alta resolución de frecuencia o alta resolución de
tiempo.
Desde un punto de vista sintáctico, todas las
corrientes de bits de codificador-decodificador
práctico, comprenden períodos de datos, de los que cada uno
corresponde a un segmento de tiempo corto de la señal de entrada. El
segmento de tiempo asociado a un período de datos de este tipo, se
cita en lo que sigue como "gránulo". Los codificadores típicos
utilizan gránulos de longitud fija. La presencia de límites de
gránulo impone limitaciones al diseño de los segmentos de tiempo
utilizados para la estimación de envolvente. El algoritmo que
genera estos segmentos de tiempo puede establecer que se requiera
un "límite" de segmento en una posición particular, y que los
segmentos siguientes deban tener un longitud determinada. Sin
embargo, si el límite de un gránulo cae dentro de este intervalo
debido a gránulos de longitud fija, el segmento debe ser cortado en
dos partes. Esto tiene dos implicaciones: En primer lugar, se
incrementa el número de segmentos a codificar, incrementándose
posiblemente la cantidad de datos a transmitir. En segundo lugar,
los límites forzados pueden generar segmentos que sean demasiado
cortos para cálculos fiables de potencia media. Para evitar estos
defectos, la presente invención utiliza gránulos de longitud
variable. Esto requiere un adelantamiento en el codificador, así
como también una disposición extra en memoria intermedia en el
decodificador.
Supóngase que el término "rejilla" indica
los segmentos de tiempo y las resoluciones de frecuencia
correspondientes que deben usarse para una señal particular, y
"gnd local" indica la rejilla de un gránulo. De manera clara,
la rejilla debe ser indicada al decodificador, para corregir la
decodificación de las muestras de envolvente. Sin embargo, en
aplicaciones de baja velocidad de bit, el número de bits de esta
"señal de control" debe mantenerse en un mínimo. Se proponen
en la presente invención dos esquemas de señalización. Antes de
describirlos en detalle, se establece un "sistema de base" y
algunos criterios de diseño.
Supóngase que el incremento de la cuantificación
de tiempo para la envolvente espectral sea T_{q}. Estos
incrementos pueden ser vistos como
"sub-gránulos" que están agrupados según los
segmentos de tiempo mencionados anteriormente. En el caso general,
un gránulo comprende S sub-gránulos, donde S varía
de gránulo a gránulo. El número de combinaciones posibles de
segmentos dentro de un gránulo, en la gama de un segmento para el
gránulo completo hasta S segmentos, viene dado por:
Con el fin de señalar estados C, se requieren
ceil(ln_{2}(C)) =
ceil(ln_{2}(2^{S})) = S bits, que corresponden a
un bit por sub-gránulo. Una
sub-división arbitraria del gránulo puede ser
señalada mediante S-1 bits, que representan los
sub-gránulos consecutivos, indicando si se
encuentra presente o no el límite de un segmento delantero en el
sub-gránulo correspondiente. (Los límites del
primero y del último gránulos no están aquí señalados). Puesto que
S es variable, debe ser señalada, y si este esquema se combina con
un codificador-decodificador de banda baja de
gránulo de longitud fija, la posición en relación con los gránulos
de longitud constante deben ser también señalados. Las resoluciones
de frecuencia de segmento pueden ser señaladas con bits de control
asignados dinámicamente, por ejemplo un bit por segmento. De forma
clara, tal método directo puede conducir a un número
inaceptablemente alto de bits de señal de control.
Como se va a mostrar en lo que sigue, muchos de
los estados descritos por la Ec. 1 no son muy probables, y
generarían también cantidades demasiado grandes de datos de
envolvente como para ser prácticos a velocidad de bit limitada.
El mínimo lapso de tiempo entre transitorios
consecutivos en un material de programa musical, puede ser estimado
de la forma siguiente: En notación musical, el "pulso" rítmico
se describe mediante un compás expresado en forma de fracción A/B,
en la que A indica el número de "golpes" por compás, y 1/B es
el tipo de nota correspondiente a un golpe, por ejemplo 1/4 de
nota, denominado normalmente como un cuarto de nota. Supóngase que
t indica el tiempo en Golpes Por Minuto (BPM). El tiempo por nota
de tipo 1/C viene dado por:
(Ec. 2)T_{n} =
(60 / t)\text{*}(B /
C)[s]
La mayor parte de las piezas musicales está
dentro del intervalo 70-160 BPM, y en el compás 4/4
los patrones rítmicos más rápidos se forman, para la mayor parte de
los casos prácticos, a partir de las notas 1/32 ó 32:nd. Esto genera
un tiempo mínimo T_{\text{nmín}} = (60/160)*(4/32) = 47 ms. Por
supuesto, se pueden presentar períodos de tiempo más cortos que
éste, pero tales secuencias rápidas (> 21 eventos por segundo)
tienen carácter de zumbido y no necesitan ser totalmente
resueltas.
La resolución de tiempo necesaria T_{q} debe
ser también establecida. En algunos casos, una señal transitoria
tiene su energía principal en la banda alta que ha de ser
reconstruida. Esto significa que la envolvente espectral codificada
debe portar toda la información de "temporización". La
precisión de temporización deseada determina así la resolución
necesaria para la codificación de los flancos delanteros. T_{q}
es mucho más pequeño que el período mínimo de nota
T_{\text{nmín}} puesto que se pueden oír claramente pequeñas
desviaciones de tiempo dentro del período. En la mayor parte de los
casos, sin embargo, el transitorio tiene energía significativa en
la banda baja. Los pre-ecos inducidos por la
ganancia descritos anteriormente, deben caer dentro de lo que se
denomina tiempo T_{m} de pre- o post- enmascaramiento del sistema
auditivo humano, con el fin de que sean inaudibles. De ahí que
T_{q} deba satisfacer dos condiciones:
(Ec. 3)T_{q}
<<
T_{\text{nmín}}
(Ec. 4)T_{q}
<
T_{m}
Obviamente, T_{m} < T_{\text{nmín}} (en
otro caso, las notas serían tan rápidas que no podrían ser
resueltas), y según ["Modeling the Additivity of Nonsimultaneous
Masking", Hearing Res., vol. 80, pp. 105-118
(1994)], T_{m} asciende a 10-20 ms. Puesto que
T_{\text{nmín}} está en el intervalo de 50 ms, una selección
razonable de T_{q} según la Ec. 3, da como resultado el hecho de
que se cumpla también la segunda condición. Por supuesto, la
precisión de la detección de transitorio en el codificador y la
resolución de tiempo del banco de filtro de análisis/síntesis deben
ser tomados también en consideración cuando se selecciona
T_{q}.
El rastreo de los flancos de salida es menos
crucial, por varias razones: En primer lugar, la posición fuera de
la nota tiene un pequeño, o ningún, efecto sobre el ritmo
percibido. En segundo lugar, la mayor parte de los instrumentos no
presentan flancos traseros agudos, sino por el contrario una curva
de caída suave, es decir, no existe un tiempo fuera de nota bien
definido. En tercer lugar, el tiempo de enmascaramiento posterior o
delantero es sustancialmente más largo que el tiempo de
pre-enmascaramiento.
En resumen, se pueden realizar las
simplificaciones que siguen con ningún, o muy poco, sacrificio de
calidad para las señales prácticas:
1. Solamente la posición de inicio de transitorio
necesita ser transmitida con la mayor precisión T_{q}.
2. Solamente los transitorios separados por
T_{p} >> T_{q} necesitan ser resueltos totalmente en los
datos de envolvente.
Con el fin de reducir la sobrecarga de
señalización, ambos sistemas conforme a la presente invención
emplean dos modos de muestreo de tiempo: el muestreo uniforme y el
no uniforme en el tiempo. El modo uniforme se utiliza durante las
fases casi-estacionarias, por lo que se utilizan
segmentos de longitud fija, y se requiere poca señalización extra.
En las proximidades de los transitorios, el sistema conmuta a un
funcionamiento no uniforme y se utilizan gránulos de longitud
variable, permitiendo una buena adaptación a la rejilla global
ideal.
En el primer sistema, los gránulos se dividen en
cuatro clases, y las señales de control se ajustan a las
necesidades específicas de cada clase. Las clases están definidas
en la figura 2a. La clase "FixFix" corresponde a gránulos
convencionales de longitud constante. La clase "FixVar" tiene
un límite móvil de parada, lo que hace que la longitud de gránulo
varíe. La clase "VarFix" tiene un límite variable de inicio,
mientras que el límite de parada es fijo. La última clase
"VarVar" tiene límites variables por ambos extremos. Todos los
límites variables pueden desviarse en -a/+b frente a las
"posiciones nominales".
La figura 2b proporciona un ejemplo de una
secuencia de gránulos. El sistema por defecto es de clase FixFix.
Un detector de transitorio (o modelo psico-acústico)
opera en una región de tiempo por delante del gránulo actual, según
se ha representado en la figura. Cuando se detecta un transitorio,
se utiliza un gránulo FixVar (el sistema conmuta de funcionamiento
uniforme a no uniforme). Normalmente, este gránulo va seguido de un
gránulo de clase VarFix, puesto que los transitorios están
separados la mayor parte del tiempo por un número de gránulos para
todas las selecciones prácticas de longitudes de gránulo. En caso
de transitorios incluidos en series de bits consecutivas, se pueden
utilizar series de bits de clase VarVar.
La figura 3a es un ejemplo de un par de clase
FixVar - VarFix, y de la señal de control correspondiente. Se
encuentra presente un transitorio, y el flanco delantero
(cuantificado en T_{q}) se ha indicado con t. La primera parte de
la corriente de bits está constituida por la señal de "clase".
Puesto que se utilizan cuatro clases, se usan dos bits para esta
señal. En caso de clases FixVar o VarFix, la señal siguiente
describe la posición del límite variable, expresada como desviación
de la posición nominal. Este límite se menciona como "límite
absoluto". Los límites de segmento dentro de los gránulos se
describen por medio de "límites relativos". El límite absoluto
se utiliza como referencia, y los otros límites están descritos
como distancias acumulativas a la referencia. El número de límites
relativos es variable, y está señalado para el decodificador,
después del límite absoluto. Un número cero significa que el
gránulo comprende solamente un segmento de tiempo. Así, en caso de
clase FixVar, las longitudes de segmento se indican en una
secuencia inversa, moviéndose por fuera del límite absoluto en el
extremo del gránulo. La longitud del primer segmento en un gránulo
FixVar se deriva de los límites relativos y de la longitud total, y
no está señalada. Las señales de límite relativo de clase VarFix
están insertadas en la corriente de bits en una secuencia delantera,
por lo que se excluye la longitud del último segmento. El orden de
señal de corriente de bits es el mismo que el de la clase FixVar,
es decir: [clase, límite abs., número de límites rel., límite 0
rel., límite 1 rel., ..., límite N-1 rel.]. En la
figura, las señales se han representado en "texto claro" en vez
de con las palabras reales de código binario enviadas en la
corriente de bits.
La figura 3b muestra una codificación alternativa
de la señal. El límite variable ofrece versatilidad cuando se
agrupan los segmentos en una rejilla global dada. De este modo se
puede realizar cualquier control de carga útil a este nivel, por
ejemplo para ecualizar el número de bits por gránulo. Esto puede
facilitar la operación del codificador de banda baja. Con un
adelantamiento suficiente dado, se puede realizar una codificación
multipaso, y se puede usar una combinación óptima de rejillas
locales.
Con el fin de reducir el conjunto de símbolos
para señalar los límites relativos, y con ello el número de bits
por símbolo, esas longitudes pueden ser cuantificadas en un
múltiplo entero (>1) de T_{q}, si el borde absoluto tiene la
precisión T_{q}. En este caso, el límite absoluto sirve, junto con
la función anterior, para alinear un grupo de límites alrededor del
transitorio con la precisión T_{q}. En otras palabras, la más
alta precisión se encuentra siempre disponible para codificar los
flancos de delanteros de transitorio, y se utiliza una resolución
"más basta" en el rastreo de la caída.
Las series de bits de clase VarVar utilizan una
combinación de señalización FixVar y VarFix, por ejemplo
intercalada: [clase, límite abs. izquierdo d:o derecho, núm. límite
rel. izquierdo, d:o derecho, [límite rel. izquierdo 0, ..., límite
rel. izquierdo N-1], [d:o derecho]]. Esta clase
ofrece la mayor flexibilidad en cuanto a selección de rejilla
local, a costa de una sobrecarga de señalización incrementada.
Finalmente, la clase FixFix no requiere otras señales que la señal
de clase en sí misma, en cuyo caso, por ejemplo, se utilizan dos
segmentos (de igual longitud). Sin embargo, es posible añadir una
señal que permita una selección dentro de un conjunto de rejillas
predefinidas. Por ejemplo, se puede calcular la envolvente
espectral para dos segmentos, y si los dos segmentos no difieren en
más de una cantidad determinada, solamente se envía un conjunto de
datos de envolvente.
Hasta ahora, solamente se ha descrito la
segmentación en el tiempo. Por muchas razones, puede resultar
deseable indicar al decodificador cuál de los límites corresponde
con el límite delantero de transitorio. Esto puede realizarse
enviando un "puntero" que apunte al límite relevante. La
dirección de referencia puede seguir a la de los límites relativos,
y un valor cero implica que no se encuentra presente ningún inicio
de transitorio dentro del gránulo actual. Además, la resolución de
frecuencia (número de estimaciones de potencia u orden de variable
explicativa) utilizada para los segmentos individuales, debe estar
también definida. Esto puede ser señalado explícitamente, como en el
"sistema de base", o implícitamente, es decir, la resolución
se acopla a las longitudes de segmento, y posiblemente a la
posición del puntero.
Cuando se utilizan canales de transmisión
propensos a errores, es importante evitar la propagación del error.
En el sistema anterior, la rejilla local está completamente
descrita por medio de la señal de control del gránulo
correspondiente. De ahí que no existan dependencias entre tramas, en
la señal de control. Esto significa que los límites de gránulo
están "sobrecodificados", puesto que las intersecciones de
gránulo están señaladas en ambos gránulos consecutivos. Esta
redundancia puede ser utilizada para la detección de un error
simple, si los límites no corresponden, un error de transmisión que
se ha producido, y que pueda ser activada la ocultación de
error.
El segundo sistema, citado en lo que sigue como
"sistema de señalización de posición", está previsto para
aplicaciones de velocidad de bit muy baja. Las normas de diseño
establecidas previamente son utilizadas en mayor medida, con el fin
de reducir incluso mucho más el número de bits de la señal de
control. Según la presente invención, la información de inicio de
transitorio puede ser utilizada para la indicación implícita de los
bordes de segmento y resoluciones de frecuencia en las proximidades
de los transitorios. Esto va a ser descrito ahora en lo que sigue,
suponiendo un tamaño nominal de gránulo de N
sub-gránulos, elegido según NT_{q} <=
T_{\text{nmín}}, es decir, es posible que se produzca un máximo
de un transitorio dentro de un gránulo, véase la figura 4a, donde N
= 8. Se emplea un detector de transitorio, que opera sobre
intervalos de longitud N, situado N/2 por delante del gránulo
actual, figura 4b. Cuando se detecta un transitorio, se establece
un indicador asociado a esta región. En el ejemplo, el detector de
transitorio ha detectado un transitorio en el
sub-gránulo 2 en el instante n-1, y
un transitorio en el sub-gránulo 3 en el instante
n. Estas posiciones, pos(n-1) y
pos(n), así como también los correspondientes indicadores,
indicador(n-1) e indicador (n), son
utilizados como entrada al algoritmo de generación de rejilla, y la
rejilla local correspondiente para el gránulo n podría ser como el
representado en la figura 4c. Según se ve a partir de la figura, el
sub-gránulo 3 del gránulo en el instante
n-1 está incluido en la rejilla de tiempo/frecuencia
del gránulo n. Las únicas señales alimentadas a la corriente de
bits, son indicador(n) [1 bit], y pos(n)
[ceil(ln_{2}(N)) bits]. El algoritmo de rejilla es
también conocido por el decodificador, con lo que esas señales,
junto con las señales correspondientes del gránulo
n-1 anterior, son suficientes para una
reconstrucción no ambigua de la rejilla utilizada por el
decodificador. Cuando no se detecta ningún transitorio, la señal de
posición es obsoleta, y puede ser sustituida, por ejemplo, por una
señal de 1 bit, constatando si se utilizan uno o dos segmentos.
Así, la operación en modo uniforme es idéntica a la del sistema de
señalización de clase.
Este sistema puede ser considerado como una
máquina de estado finito, donde las señales descritas anteriormente
controlan las transiciones de un estado a otro, y los estados
definen las rejillas locales. De forma clara, los estados pueden
estar representados por tablas, almacenadas tanto en el codificador
como en el decodificador. Puesto que las rejillas están codificadas
de forma compacta, la capacidad de alterar adaptativamente la carga
útil ha sido sacrificada. Una aproximación razonable consiste en
mantener el tamaño de la matriz de datos de tiempo/frecuencia (por
ejemplo, el número de estimaciones de potencia) aproximadamente
constante. Suponiendo que el número de coeficientes o de factores
de escala en un segmento de alta resolución sea dos veces el de un
segmento de baja resolución, se puede intercambiar un segmento de
alta resolución por dos segmentos de baja resolución.
Utilizando una transformación de tiempo en
frecuencia, se puede demostrar que un impulso en el dominio del
tiempo corresponde a un espectro plano en el dominio de la
frecuencia, y un "impulso" en el dominio de la frecuencia, es
decir, una sinusoide simple, corresponde con una señal
casi-estacionaria en el dominio del tiempo. En
otras palabras, una señal muestra normalmente más propiedades
transitorias en un dominio que en el otro. En un espectrograma, es
decir, una presentación de matriz de tiempo/frecuencia, esta
propiedad resulta evidente, y puede ser utilizada ventajosamente
cuando se codifican envolventes espectrales.
Una señal tonal estacionaria puede tener un
espectro muy dispersado, no adecuado para codificación delta en la
dirección de frecuencia, pero muy adecuado para codificación delta
en la dirección de tiempo, y viceversa. Esto se ha representado en
la figura 5. En la descripción que sigue, un vector de factores de
escala calculados en el instante n_{0}, representa la envolvente
espectral:
(Ec.
5)Y(k, n_{0}) = [a_{1}, a_{2}, a_{3}, ...,
a_{k}, ...,
a_{N}]
donde a_{1}, ..., a_{N} son
valores de amplitud para frecuencias diferentes. Una práctica común
consiste en codificar la diferencia entre valores adyacentes en la
dirección de la frecuencia en un instante dado, lo que
proporciona:
(Ec.
6)D(k, n_{0}) - [a_{2} - a_{1}, a_{3} - a_{2},
..., a_{N} -
a_{(N-1)}
Con el fin de poder decodificar todo esto, el
valor inicial a_{1} necesita ser transmitido. Según se ha
expuesto en lo que antecede, este esquema de codificación delta
puede demostrar ser más ineficaz si el espectro contiene solamente
unos pocos tonos estacionarios. Esto puede dar como resultado una
codificación delta que produce una velocidad de bit más alta que la
codificación PCM regular. Con el fin de tratar este problema, se
propone un método de conmutación de tiempo/frecuencia, citado en lo
que sigue como codificación T/F: Los factores de escala son
cuantificados y codificados tanto en la dirección de tiempo como de
frecuencia. Para ambos casos, se calcula el número de bits
requeridos para un error de codificación dado, o se calcula el error
para un número de bits dado. En base a todo esto, se elige la
dirección de codificación que sea más ventajosa.
Como ejemplo, se puede utilizar codificación de
redundancia DPCM y de Huffman. Se calculan dos vectores, D_{f} y
D_{t}:
(Ec. 7)D_{f}
(k, n_{0}) = [a_{2} - a_{1}, a_{3} - a_{2}, ..., a_{N} -
a_{(N-1)}]
(Ec. 8)D_{t}
(k, n_{0}) = [a_{1} (n_{0}) - a_{1} (n_{0} - 1), a_{2} (n_{0}) -
a_{2} (n_{0} - 1), ..., a_{N} (n_{0}) - a_{N} (n_{0} -
1)
Las tablas de Huffman correspondientes, una para
la dirección de frecuencia y una para la dirección de tiempo,
establecen el número de bits requeridos para codificar los
vectores. El vector codificado que requiere el menor número de bits
a codificar, representa la dirección de codificación preferible. Las
tablas pueden ser generadas inicialmente utilizando alguna
distancia mínima como criterio de conmutación de
tiempo/frecuencia.
Los valores iniciales son transmitidos siempre
que la envolvente espectral sea codificada en la dirección de la
frecuencia, pero no cuando se codifica en la dirección del tiempo
desde que los mismos se encuentran disponibles en el decodificador,
mediante la envolvente previa. El algoritmo propuesto requiere
también información extra a ser transmitida, especialmente un
indicador de tiempo/frecuencia que indique en qué dirección fue
codificada la envolvente espectral. El algoritmo de T/F puede ser
utilizado ventajosamente con varios esquemas diferentes de
codificación de representación de envolvente/factor de escala,
aparte del DPCM y de Huffman, tal como ADPCM, LPC y cuantificación
vectorial. El algoritmo de T/F propuesto proporciona una reducción
significativa de velocidad de bit para los datos de envolvente
espectral.
Un ejemplo de la parte de codificador de la
invención, ha sido representado en la figura 6. La señal analógica
de entrada se alimenta a un convertidor 601 A/D, que forma una
señal digital. La señal digital de audio se alimenta a un
codificador 602 perceptual de audio, donde se realiza la
codificación de fuente. Adicionalmente, la señal digital se
alimenta a un detector 603 de transitorio y a un banco 604 de
filtro de análisis, que divide la señal en sus componentes
espectrales (señales de sub-banda). El detector de
transitorio podría operar sobre las señales de
sub-banda a partir del banco de análisis, pero a
efectos generales, aquí se supone que opera directamente sobre
muestras del dominio digital de tiempo. El detector de transitorio
divide la señal en gránulos y determina, según la invención, si los
sub-gránulos del interior de los gránulos han de
ser indicados como transitorio. Esta información se envía al bloque
605 de agrupamiento de envolvente, la cual especifica la rejilla de
tiempo/frecuencia que ha de ser utilizada para el gránulo actual.
Según la rejilla, el bloque combina las señales de
sub-banda muestreadas uniformes, para formar los
valores de envolvente muestreados no uniformes. Como ejemplo, estos
valores pueden representar la densidad de potencia media de las
muestras de sub-banda agrupadas. Los valores de
envolvente son, junto con la información de agrupamiento,
alimentados al bloque 606 codificador de envolvente. Este bloque
decide en qué dirección (tiempo o frecuencia) codificar los valores
de envolvente. Las señales resultantes, la salida desde el
codificador de audio, la información de envolvente de banda ancha,
y las señales de control, son alimentadas al multiplexor 607,
formando una corriente de bits en serie que es transmitida o
almacenada.
El lado de decodificador de la invención, ha sido
representado en la figura 7, utilizando transposición SBR como
ejemplo de generación de la señal residual que falta. El
demultiplexor 701 restaura las señales y alimenta la parte apropiada
a un decodificador 702 de audio, lo que produce una señal de audio
digital de banda baja. La información de envolvente se alimenta
desde el demultiplexor hasta el bloque 703 de decodificación de
envolvente, lo que, mediante el uso de datos de control, determina
en qué dirección están codificados los datos de la envolvente
actual, y los decodifica. La señal de banda baja procedente del
decodificador de audio es enrutada hasta el módulo 704 de
transposición, lo que genera una señal replicada de banda alta a
partir de la banda baja. La señal de banda alta se alimenta a un
banco 706 de filtro de análisis, el cual es del mismo tipo que el
del lado del codificador. Las señales de sub-banda
son combinadas en la unidad 707 de agrupamiento de factor de
escala. Con el uso de datos de control procedentes del
demultiplexor, se adopta el mismo tipo de combinación y
distribución de tiempo/frecuencia de las muestras de
sub-banda que en el lado del codificador. La
información de envolvente procedente del demultiplexor y la
información procedente de la unidad de agrupamiento de factor de
escala, se procesa en el módulo 708 de control de ganancia. El
módulo calcula los factores de ganancia que han de ser aplicados a
las muestras de sub-banda con anterioridad a la
recombinación en el bloque 709 de banco de filtro de síntesis. La
salida procedente del conjunto de filtro de síntesis es así una
señal de audio de banda alta ajustada a la envolvente. Esta señal se
añade a la salida procedente de la unidad 705 de retardo, la cual
se alimenta con la señal de audio de banda baja. El retardo
compensa el tiempo de procesamiento de la señal de banda alta.
Finalmente, la señal digital de banda ancha obtenida, se convierte
en una señal m analógica de audio en el convertidor 710
digital/analógico.
Claims (19)
1. Método de codificación de envolvente espectral
para una señal de entrada, teniendo la señal de entrada un ancho de
banda, incluyendo el ancho de banda determinadas regiones de
frecuencia, estando la señal de entrada representada por una
versión codificada de fuente de la misma, teniendo la versión
codificada de fuente un ancho de banda que no incluye las regiones
de frecuencia determinadas, siendo una envolvente espectral de la
señal de entrada representable en determinadas regiones de
frecuencia por medio de una representación basta de envolvente
espectral y una representación fina de envolvente espectral, siendo
la representación fina de envolvente espectral una señal residual,
que comprende las siguientes etapas:
realizar (603) un análisis estadístico de la
señal de entrada,
caracterizado por,
en base a una consecuencia del análisis
estadístico, generar (604, 605, 606) datos sobre la representación
basta de envolvente espectral para las regiones de frecuencia
determinadas, mediante muestreo de la envolvente espectral en las
regiones de frecuencia determinadas, con una resolución de tiempo
variable o con una resolución de frecuencia variable, donde la
resolución de tiempo o la resolución de frecuencia elegida para un
instante de tiempo depende del resultado del análisis estadístico
de la señal de entrada en el instante de tiempo;
generar una señal de control que describe la
resolución de tiempo variable o la resolución de frecuencia
variable, y
generar (607) una señal de entrada codificada
mediante multiplexado de la versión codificada de fuente, los datos
sobre la representación basta de envolvente espectral, y la señal
de control, en el que la señal de entrada codificada no incluye la
señal residual.
2. Método según la reivindicación 1, en el que la
etapa de generación (604, 605, 606) de los datos sobre la
representación basta de la envolvente para las regiones de
frecuencia determinadas, incluye la etapa de seleccionar una rejilla
de resolución de tiempo/frecuencia que ha de ser utilizada para la
representación basta de envolvente espectral, y en la que se genera
la señal de control para describir la rejilla.
3. Método según la reivindicación 1 ó 2, en el
que la etapa de generar la información basta de envolvente incluye
las siguientes etapas:
obtener elementos de una representación de
tiempo/frecuencia de la señal de entrada;
agrupar elementos en la representación de
tiempo/frecuencia de la señal de entrada, y
calcular un factor de escala para cada grupo.
4. Método según la reivindicación 3, en el que la
etapa de obtención incluye la etapa de utilizar un banco de
filtro.
5. Método según la reivindicación 4, en el que el
banco de filtro es de tamaño fijo.
6. Método según la reivindicación 1, en el que la
etapa de generación de los datos sobre la representación basta de
envolvente espectral para regiones de frecuencia determinadas,
incluye la etapa de utilizar una variable explicativa lineal.
7. Método según la reivindicación 1, en el que la
etapa de realizar un análisis estadístico incluye la etapa de
emplear un detector de transitorio.
8. Método según la reivindicación 1, en el que la
etapa de generar los datos sobre la representación basta de
envolvente espectral incluye la etapa de conmutar una resolución
instantánea desde una combinación por defecto de resolución de
frecuencia más alta y resolución de tiempo inferior, hasta una
combinación de resolución de frecuencia inferior y resolución de
tiempo más alta al comienzo de un transitorio, con el fin de
obtener la resolución de tiempo variable de la resolución de
frecuencia variable.
9. Método según la reivindicación 1, en el que la
etapa de generar la señal de control es operativa para generar la
señal de control de tal modo que la señal de control describa
posiciones en el interior de un gránulo de velocidad de
actualización constante,
en el que la etapa de realizar el análisis
estadístico es operativa para aplicar la velocidad de actualización
constante, y
en el que la etapa de generar (604, 605, 606)
datos sobre la representación basta de envolvente espectral es
operativa para elegir una resolución instantánea en base a
posiciones de transitorios en las señales de entrada dentro de los
gránulos actuales y de los adyacentes, con el uso de normas
disponibles para un codificador y un decodificador.
10. Método según la reivindicación 9, en el que
la etapa de generar la señal de control es operativa para generar
la señal de control de tal modo que quede señalada a lo sumo en una
posición por gránulo.
11. Método según la reivindicación 1, en el que
la etapa de generar (604, 605, 606) datos sobre la representación
basta de envolvente espectral es operativa para usar gránulos de
longitud variable.
12. Método según la reivindicación 11, en el que
se utilizan cuatro clases de gránulos, según los cuales la primera
clase tiene límites de gránulo de posición fija, y longitud L,
la segunda clase tiene un límite inicial de
posición fija, y un límite de parada de posición variable,
la tercera clase tiene un límite inicial de
posición variable, y un límite de parada de posición fija,
la cuarta clase tiene límites inicial y de parada
de posición variable, y
dichas posiciones fijas coinciden con posiciones
de referencia, separadas por la distancia L, y
dichas posiciones variables pueden estar
desviadas [-a, b] frente a dichas posiciones de referencia.
13. Método según la reivindicación 3, en el que
la etapa de generar (604, 605, 606) datos sobre la representación
basta de envolvente espectral comprende además la etapa de
codificar los factores de escala tanto en la dirección del tiempo
como de la frecuencia, en el que se determina la dirección
momentáneamente más beneficiosa, y en el que la dirección más
beneficiosa se elige en la etapa de codificación.
14. Método según la reivindicación 3, en el que
la etapa de generar (604, 605, 606) datossobre la representación
basta de envolvente espectral comprende además la etapa de
codificar los factores de escala tanto la dirección del tiempo como
de la frecuencia, en el que se elige, para la etapa de codificación,
una dirección que genera un menor error de codificación para un
número dado de bits.
15. Método según la reivindicación 3, en el que
la etapa de generar (604, 605, 606) datos sobre la representación
basta de envolvente espectral comprende además la etapa de
codificar los factores de escala tanto en la dirección de tiempo
como de frecuencia, en el que se elige, para la etapa de
codificación, la dirección que genera el menor número de bits para
un error de codificación dado.
16. Método según la reivindicación 13, 14 ó 15,
en el que la etapa de codificación incluye las etapas de emplear
codificación sin pérdidas, en el que se utilizan tablas separadas
para la dirección de tiempo y la dirección de frecuencia, en el que
se utiliza un resultado de la codificación que usa las tablas, para
la elección de la dirección para la codificación.
17. Aparato para codificación de envolvente
espectral para una señal de entrada, teniendo la señal de entrada
un ancho de banda, incluyendo el ancho de banda determinadas
regiones de frecuencia, estando la señal de entrada representada
por una versión codificada de fuente de la misma, teniendo la
versión codificada de fuente un ancho de banda que no incluye las
regiones de frecuencia determinadas, siendo una envolvente
espectral de la señal de entrada en las regiones de frecuencia
determinadas representable por medio de una representación basta de
envolvente espectral y una representación fina de envolvente
espectral, teniendo la representación fina de envolvente espectral
una señal residual, que comprende:
medios (603) para llevar a cabo un análisis
estadístico de la señal de entrada,
caracterizado por:
medios para generar (604, 605, 606) datos, en
base al resultado del análisis estadístico, sobre la representación
basta de envolvente espectral para las regiones de frecuencia
determinadas, mediante muestreo de la envolvente espectral en las
regiones de frecuencia determinadas con una resolución de tiempo
variable y una resolución de frecuencia variable, en el que una
resolución de tiempo o una resolución de frecuencia elegida para un
instante de tiempo depende del resultado del análisis estadístico
de la señal de entrada en el instante de tiempo,
medios para generar una señal de control que
describe la resolución de tiempo variable o la resolución de
frecuencia variable, y
medios para generar (607) una señal de entrada
codificada mediante multiplexado de la versión codificada de
fuente, de los datos sobre la representación basta de envolvente
espectral y de la señal de control, en el que la señal codificada
de entrada no incluye la señal residual.
18. Aparato para decodificar la envolvente
espectral de una señal codificada, incluyendo la señal codificada
una versión codificada de fuente de una señal original, teniendo la
señal original un ancho de banda que incluye determinadas regiones
de frecuencia, teniendo la versión codificada de fuente un ancho de
banda que no incluye las regiones de frecuencia determinadas,
teniendo la señal codificada datos sobre la representación basta de
envolvente espectral para las regiones de frecuencia determinadas,
caracterizado porque los datos sobre la representación basta
de envolvente espectral representa la envolvente espectral con una
resolución de tiempo variable o una resolución de frecuencia
variable, teniendo la señal codificada una señal de control que
indica la resolución de tiempo variable o la resolución de
frecuencia variable, dando como resultado la señal codificada de
fuente, tras la decodificación (702) de la fuente, una versión
decodificada de la señal original, teniendo la versión decodificada
de la señal original un ancho de banda que no incluye las regiones
de frecuencia determinadas, que comprende:
un demultiplexor (701) para demultiplexar la
señal codificada con el fin de obtener la versión codificada de
fuente, los datos sobre la representación basta de la envolvente
espectral, y la señal de control;
medios (704) para generar una señal replicada de
la banda espectral para las regiones de frecuencia determinadas;
medios para interpretar la señal de control con
el fin de determinar la resolución de tiempo variable o la
resolución de frecuencia variable;
medios (708, 709) para ajuste de la señal
replicada de banda espectral de envolvente, utilizando los datos
sobre la información basta de envolvente espectral y la resolución
de tiempo variable o la resolución de frecuencia variable, y
medios para añadir la señal ajustada de
envolvente y la versión decodificada de la señal original, para
obtener una señal decodificada que tiene un ancho de banda que
incluye las regiones de frecuencia determinadas.
19. Método de decodificación de una señal
codificada de envolvente espectral, incluyendo la señal codificada
una versión codificada de fuente de una señal original, teniendo la
señal original un ancho de banda que incluye determinadas regiones
de frecuencia, teniendo la versión codificada de fuente un ancho de
banda que no incluye las regiones de frecuencia determinadas,
teniendo la señal codificada datos sobre la representación basta de
envolvente espectral para las regiones de frecuencia determinadas,
caracterizado porque los datos sobre la representación basta
de envolvente espectral representan la envolvente espectral con una
resolución de tiempo variable o una resolución de frecuencia
variable, teniendo la señal codificada una señal de control que
indica la resolución de tiempo variable o la resolución de
frecuencia variable, dando como resultado la señal codificada de
fuente, tras la decodificación (702) de la fuente, una versión
decodificada de la señal original, teniendo la versión decodificada
de la señal original un ancho de banda que no incluye las regiones
de frecuencia determinadas, que comprende las siguientes
etapas:
demultiplexar (701) la señal codificada para
obtener la versión codificada de fuente, los datos de la
representación basta de envolvente espectral, y la señal de
control;
generar (704) una señal replicada de banda
espectral para las regiones de frecuencia determinadas;
interpretar (703) la señal de control para
determinar la resolución de tiempo variable o la resolución de
frecuencia variable;
ajustar (708, 709) la señal replicada de banda
espectral de envolvente, utilizando los datos sobre la información
basta de envolvente espectral y la resolución de tiempo variable o
la resolución de frecuencia variable, y
añadir la señal ajustada de envolvente y la
versión decodificada de la señal original, para obtener una señal
decodificada que tenga un ancho de banda que incluya las regiones
de frecuencia determinadas.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9903552 | 1999-10-01 | ||
SE9903552A SE9903552D0 (sv) | 1999-01-27 | 1999-10-01 | Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching |
PCT/SE2000/000158 WO2000045378A2 (en) | 1999-01-27 | 2000-01-26 | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
WOPCT/SE00/00158 | 2000-01-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2223591T3 true ES2223591T3 (es) | 2005-03-01 |
Family
ID=20417226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00968271T Expired - Lifetime ES2223591T3 (es) | 1999-10-01 | 2000-09-29 | Codificacion eficaz de envolvente especial utilizando una resolucion tiempo/frecuencia variable. |
Country Status (14)
Country | Link |
---|---|
US (3) | US6978236B1 (es) |
EP (1) | EP1216474B1 (es) |
JP (3) | JP4035631B2 (es) |
CN (1) | CN1172293C (es) |
AT (1) | ATE271250T1 (es) |
AU (1) | AU7821200A (es) |
BR (1) | BRPI0014642B1 (es) |
DE (1) | DE60012198T2 (es) |
DK (1) | DK1216474T3 (es) |
ES (1) | ES2223591T3 (es) |
HK (1) | HK1049401B (es) |
PT (1) | PT1216474E (es) |
RU (1) | RU2236046C2 (es) |
WO (1) | WO2001026095A1 (es) |
Families Citing this family (124)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7742927B2 (en) | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
KR100830857B1 (ko) * | 2001-01-19 | 2008-05-22 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 전송 시스템, 오디오 수신기, 전송 방법, 수신 방법 및 음성 디코더 |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
JP3469567B2 (ja) * | 2001-09-03 | 2003-11-25 | 三菱電機株式会社 | 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法 |
DE60202881T2 (de) * | 2001-11-29 | 2006-01-19 | Coding Technologies Ab | Wiederherstellung von hochfrequenzkomponenten |
WO2003065353A1 (en) | 2002-01-30 | 2003-08-07 | Matsushita Electric Industrial Co., Ltd. | Audio encoding and decoding device and methods thereof |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US7328150B2 (en) * | 2002-09-04 | 2008-02-05 | Microsoft Corporation | Innovations in pure lossless audio compression |
US7536305B2 (en) | 2002-09-04 | 2009-05-19 | Microsoft Corporation | Mixed lossless audio compression |
SE0301273D0 (sv) * | 2003-04-30 | 2003-04-30 | Coding Technologies Sweden Ab | Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods |
JP4789622B2 (ja) * | 2003-09-16 | 2011-10-12 | パナソニック株式会社 | スペクトル符号化装置、スケーラブル符号化装置、復号化装置、およびこれらの方法 |
US7451091B2 (en) | 2003-10-07 | 2008-11-11 | Matsushita Electric Industrial Co., Ltd. | Method for determining time borders and frequency resolutions for spectral envelope coding |
KR101217649B1 (ko) * | 2003-10-30 | 2013-01-02 | 돌비 인터네셔널 에이비 | 오디오 신호 인코딩 또는 디코딩 |
EP1719117A1 (en) * | 2004-02-16 | 2006-11-08 | Koninklijke Philips Electronics N.V. | A transcoder and method of transcoding therefore |
WO2005091275A1 (en) * | 2004-03-17 | 2005-09-29 | Koninklijke Philips Electronics N.V. | Audio coding |
WO2005104094A1 (ja) | 2004-04-23 | 2005-11-03 | Matsushita Electric Industrial Co., Ltd. | 符号化装置 |
JP2008503766A (ja) * | 2004-06-21 | 2008-02-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオエンコードの方法 |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
KR100657916B1 (ko) * | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
KR100721537B1 (ko) * | 2004-12-08 | 2007-05-23 | 한국전자통신연구원 | 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법 |
EP1814106B1 (en) * | 2005-01-14 | 2009-09-16 | Panasonic Corporation | Audio switching device and audio switching method |
US20060235683A1 (en) * | 2005-04-13 | 2006-10-19 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Lossless encoding of information with guaranteed maximum bitrate |
US7991610B2 (en) * | 2005-04-13 | 2011-08-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Adaptive grouping of parameters for enhanced coding efficiency |
US7788106B2 (en) * | 2005-04-13 | 2010-08-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Entropy coding with compact codebooks |
ES2327566T3 (es) * | 2005-04-28 | 2009-10-30 | Siemens Aktiengesellschaft | Procedimiento y dispositivo para la supresion de ruidos. |
EP1742509B1 (en) * | 2005-07-08 | 2013-08-14 | Oticon A/S | A system and method for eliminating feedback and noise in a hearing device |
DE102005032724B4 (de) * | 2005-07-13 | 2009-10-08 | Siemens Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
US8473298B2 (en) * | 2005-11-01 | 2013-06-25 | Apple Inc. | Pre-resampling to achieve continuously variable analysis time/frequency resolution |
JP4876574B2 (ja) | 2005-12-26 | 2012-02-15 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
US7590523B2 (en) * | 2006-03-20 | 2009-09-15 | Mindspeed Technologies, Inc. | Speech post-processing using MDCT coefficients |
US9159333B2 (en) | 2006-06-21 | 2015-10-13 | Samsung Electronics Co., Ltd. | Method and apparatus for adaptively encoding and decoding high frequency band |
EP2040252A4 (en) | 2006-07-07 | 2013-01-09 | Nec Corp | AUDIO CODING DEVICE, AUDIO CODING METHOD, AND PROGRAM THEREOF |
JP4757158B2 (ja) * | 2006-09-20 | 2011-08-24 | 富士通株式会社 | 音信号処理方法、音信号処理装置及びコンピュータプログラム |
US9583117B2 (en) * | 2006-10-10 | 2017-02-28 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
DE102006049154B4 (de) * | 2006-10-18 | 2009-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodierung eines Informationssignals |
US8041578B2 (en) | 2006-10-18 | 2011-10-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8126721B2 (en) * | 2006-10-18 | 2012-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8417532B2 (en) * | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
JP4918841B2 (ja) * | 2006-10-23 | 2012-04-18 | 富士通株式会社 | 符号化システム |
JP5141180B2 (ja) * | 2006-11-09 | 2013-02-13 | ソニー株式会社 | 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体 |
US8295507B2 (en) | 2006-11-09 | 2012-10-23 | Sony Corporation | Frequency band extending apparatus, frequency band extending method, player apparatus, playing method, program and recording medium |
US20080243518A1 (en) * | 2006-11-16 | 2008-10-02 | Alexey Oraevsky | System And Method For Compressing And Reconstructing Audio Files |
JP5103880B2 (ja) * | 2006-11-24 | 2012-12-19 | 富士通株式会社 | 復号化装置および復号化方法 |
JP4967618B2 (ja) * | 2006-11-24 | 2012-07-04 | 富士通株式会社 | 復号化装置および復号化方法 |
US20080208575A1 (en) * | 2007-02-27 | 2008-08-28 | Nokia Corporation | Split-band encoding and decoding of an audio signal |
JP4871894B2 (ja) * | 2007-03-02 | 2012-02-08 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法および復号方法 |
JP4984983B2 (ja) | 2007-03-09 | 2012-07-25 | 富士通株式会社 | 符号化装置および符号化方法 |
WO2008114080A1 (en) * | 2007-03-16 | 2008-09-25 | Nokia Corporation | Audio decoding |
US8630863B2 (en) * | 2007-04-24 | 2014-01-14 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding audio/speech signal |
US20090006081A1 (en) * | 2007-06-27 | 2009-01-01 | Samsung Electronics Co., Ltd. | Method, medium and apparatus for encoding and/or decoding signal |
JP5434592B2 (ja) * | 2007-06-27 | 2014-03-05 | 日本電気株式会社 | オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム |
ES2658942T3 (es) * | 2007-08-27 | 2018-03-13 | Telefonaktiebolaget Lm Ericsson (Publ) | Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable |
CN101790756B (zh) * | 2007-08-27 | 2012-09-05 | 爱立信电话股份有限公司 | 瞬态检测器以及用于支持音频信号的编码的方法 |
CN101471072B (zh) * | 2007-12-27 | 2012-01-25 | 华为技术有限公司 | 高频重建方法、编码装置和解码装置 |
US9159325B2 (en) * | 2007-12-31 | 2015-10-13 | Adobe Systems Incorporated | Pitch shifting frequencies |
EP2242048B1 (en) * | 2008-01-09 | 2017-06-14 | LG Electronics Inc. | Method and apparatus for identifying frame type |
KR101413968B1 (ko) * | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
KR101441897B1 (ko) * | 2008-01-31 | 2014-09-23 | 삼성전자주식회사 | 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치 |
BR122012006265B1 (pt) * | 2008-03-10 | 2024-01-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V | Equipamento e método para a manipulação de um sinal de áudio tendo um evento transiente |
US8386271B2 (en) | 2008-03-25 | 2013-02-26 | Microsoft Corporation | Lossless and near lossless scalable audio codec |
MY154452A (en) * | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
AU2009267525B2 (en) * | 2008-07-11 | 2012-12-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio signal synthesizer and audio signal encoder |
EP2346030B1 (en) * | 2008-07-11 | 2014-10-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, method for encoding an audio signal and computer program |
CN102089814B (zh) | 2008-07-11 | 2012-11-21 | 弗劳恩霍夫应用研究促进协会 | 对编码的音频信号进行解码的设备和方法 |
AU2009267532B2 (en) | 2008-07-11 | 2013-04-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | An apparatus and a method for calculating a number of spectral envelopes |
US8326640B2 (en) * | 2008-08-26 | 2012-12-04 | Broadcom Corporation | Method and system for multi-band amplitude estimation and gain control in an audio CODEC |
RU2520402C2 (ru) * | 2008-10-08 | 2014-06-27 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Переключаемая аудио кодирующая/декодирующая схема с мультиразрешением |
CN101751926B (zh) * | 2008-12-10 | 2012-07-04 | 华为技术有限公司 | 信号编码、解码方法及装置、编解码系统 |
WO2010070770A1 (ja) * | 2008-12-19 | 2010-06-24 | 富士通株式会社 | 音声帯域拡張装置及び音声帯域拡張方法 |
BR122019023704B1 (pt) | 2009-01-16 | 2020-05-05 | Dolby Int Ab | sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta |
MX2011007925A (es) * | 2009-01-28 | 2011-08-17 | Dten Forschung E V Fraunhofer Ges Zur Foeerderung Der Angewan | Codificador de audio, decodificador de audio, información de audio codificada, métodos para la codificación y decodificación de una señal de audio y programa de computadora. |
EP2214165A3 (en) * | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
EP2407963B1 (en) | 2009-03-11 | 2015-05-13 | Huawei Technologies Co., Ltd. | Linear prediction analysis method, apparatus and system |
RU2520329C2 (ru) | 2009-03-17 | 2014-06-20 | Долби Интернешнл Аб | Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
CN101866649B (zh) * | 2009-04-15 | 2012-04-04 | 华为技术有限公司 | 语音编码处理方法与装置、语音解码处理方法与装置、通信系统 |
US11657788B2 (en) | 2009-05-27 | 2023-05-23 | Dolby International Ab | Efficient combined harmonic transposition |
WO2011047887A1 (en) | 2009-10-21 | 2011-04-28 | Dolby International Ab | Oversampling in a combined transposer filter bank |
TWI643187B (zh) | 2009-05-27 | 2018-12-01 | 瑞典商杜比國際公司 | 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體 |
ES2400661T3 (es) * | 2009-06-29 | 2013-04-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de extensión de ancho de banda |
JP5771618B2 (ja) | 2009-10-19 | 2015-09-02 | ドルビー・インターナショナル・アーベー | 音声オブジェクトの区分を示すメタデータ時間標識情報 |
MX2012004569A (es) | 2009-10-20 | 2012-06-08 | Fraunhofer Ges Forschung | Codificador de audio, decodificador de audio, metodo para codificar informacion de audio, metodo para decodificar informacion de audio y programa de computacion que usa la deteccion de un grupo de valores espectrales previamente decodificados. |
TWI484473B (zh) | 2009-10-30 | 2015-05-11 | Dolby Int Ab | 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統 |
WO2011086066A1 (en) | 2010-01-12 | 2011-07-21 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a modification of a number representation of a numeric previous context value |
EP2372703A1 (en) * | 2010-03-11 | 2011-10-05 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window |
JP5850216B2 (ja) * | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
KR101501664B1 (ko) * | 2010-08-25 | 2015-03-12 | 인디안 인스티투트 오브 싸이언스 | 비균일하게 이격된 주파수에서 유한 길이 시퀀스의 스펙트럼 샘플 결정 |
US9008811B2 (en) | 2010-09-17 | 2015-04-14 | Xiph.org Foundation | Methods and systems for adaptive time-frequency resolution in digital data coding |
JP5707842B2 (ja) * | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
JP5724338B2 (ja) * | 2010-12-03 | 2015-05-27 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
JP5633431B2 (ja) | 2011-03-02 | 2014-12-03 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
US9015042B2 (en) | 2011-03-07 | 2015-04-21 | Xiph.org Foundation | Methods and systems for avoiding partial collapse in multi-block audio coding |
US9009036B2 (en) | 2011-03-07 | 2015-04-14 | Xiph.org Foundation | Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding |
WO2012122303A1 (en) | 2011-03-07 | 2012-09-13 | Xiph. Org | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
CN102800317B (zh) * | 2011-05-25 | 2014-09-17 | 华为技术有限公司 | 信号分类方法及设备、编解码方法及设备 |
RU2464649C1 (ru) * | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
JP5807453B2 (ja) * | 2011-08-30 | 2015-11-10 | 富士通株式会社 | 符号化方法、符号化装置および符号化プログラム |
CN104025190B (zh) | 2011-10-21 | 2017-06-09 | 三星电子株式会社 | 能量无损编码方法和设备、音频编码方法和设备、能量无损解码方法和设备、以及音频解码方法和设备 |
JP5997592B2 (ja) * | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
EP2682941A1 (de) * | 2012-07-02 | 2014-01-08 | Technische Universität Ilmenau | Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne |
EP2717261A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding |
PL2951815T3 (pl) | 2013-01-29 | 2018-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodery audio, dekodery audio, systemy, sposoby i programy komputerowe wykorzystujące zwiększoną rozdzielczość czasową w otoczeniu czasowym początków lub końców spółgłosek szczelinowych lub spółgłosek zwarto-szczelinowych |
CA3029037C (en) | 2013-04-05 | 2021-12-28 | Dolby International Ab | Audio encoder and decoder |
JP6439682B2 (ja) * | 2013-04-11 | 2018-12-19 | 日本電気株式会社 | 信号処理装置、信号処理方法および信号処理プログラム |
WO2014185569A1 (ko) | 2013-05-15 | 2014-11-20 | 삼성전자 주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
SG11201510164RA (en) * | 2013-06-10 | 2016-01-28 | Fraunhofer Ges Forschung | Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding |
KR101789083B1 (ko) | 2013-06-10 | 2017-10-23 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 분포 양자화 및 코딩을 사용하는 누적 합계 표현의 모델링에 의한 오디오 신호 엔벨로프 인코딩, 처리 및 디코딩을 위한 장치 및 방법 |
EP2830064A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
EP2830055A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Context-based entropy coding of sample values of a spectral envelope |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
BR112016007515B1 (pt) * | 2013-10-18 | 2021-11-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Método de codificação de segmento de sinal de áudio, codificador de segmento de sinal de áudio, e, terminal de usuário. |
US20150149157A1 (en) * | 2013-11-22 | 2015-05-28 | Qualcomm Incorporated | Frequency domain gain shape estimation |
CN106030693A (zh) | 2014-02-18 | 2016-10-12 | 杜比国际公司 | 从音频比特流估计节奏度量 |
GB2528460B (en) | 2014-07-21 | 2018-05-30 | Gurulogic Microsystems Oy | Encoder, decoder and method |
WO2016024853A1 (ko) * | 2014-08-15 | 2016-02-18 | 삼성전자 주식회사 | 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기 |
CN105280190B (zh) * | 2015-09-16 | 2018-11-23 | 深圳广晟信源技术有限公司 | 带宽扩展编码和解码方法以及装置 |
CN105261373B (zh) * | 2015-09-16 | 2019-01-08 | 深圳广晟信源技术有限公司 | 用于带宽扩展编码的自适应栅格构造方法和装置 |
JP6763194B2 (ja) * | 2016-05-10 | 2020-09-30 | 株式会社Jvcケンウッド | 符号化装置、復号装置、通信システム |
EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
JP7257975B2 (ja) * | 2017-07-03 | 2023-04-14 | ドルビー・インターナショナル・アーベー | 密集性の過渡事象の検出及び符号化の複雑さの低減 |
CN108828427B (zh) * | 2018-03-19 | 2020-10-27 | 深圳市共进电子股份有限公司 | 信号完整性测试的判据查找方法、装置、设备及存储介质 |
CN111210832B (zh) * | 2018-11-22 | 2024-06-04 | 广州广晟数码技术有限公司 | 基于频谱包络模板的带宽扩展音频编解码方法及装置 |
CN113571073A (zh) * | 2020-04-28 | 2021-10-29 | 华为技术有限公司 | 一种线性预测编码参数的编码方法和编码装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6439897A (en) | 1987-08-06 | 1989-02-10 | Canon Kk | Communication control unit |
DE69127842T2 (de) * | 1990-03-09 | 1998-01-29 | At & T Corp | Hybride wahrnehmungsgebundene Kodierung von Audiosignalen |
CN1062963C (zh) * | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
JP3144009B2 (ja) | 1991-12-24 | 2001-03-07 | 日本電気株式会社 | 音声符号復号化装置 |
JP3088580B2 (ja) * | 1993-02-19 | 2000-09-18 | 松下電器産業株式会社 | 変換符号化装置のブロックサイズ決定法 |
US5581653A (en) | 1993-08-31 | 1996-12-03 | Dolby Laboratories Licensing Corporation | Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder |
JP3277692B2 (ja) | 1994-06-13 | 2002-04-22 | ソニー株式会社 | 情報符号化方法、情報復号化方法及び情報記録媒体 |
US6141353A (en) * | 1994-09-15 | 2000-10-31 | Oki Telecom, Inc. | Subsequent frame variable data rate indication method for various variable data rate systems |
US5682463A (en) * | 1995-02-06 | 1997-10-28 | Lucent Technologies Inc. | Perceptual audio compression based on loudness uncertainty |
US5852806A (en) | 1996-03-19 | 1998-12-22 | Lucent Technologies Inc. | Switched filterbank for use in audio signal coding |
JP3266819B2 (ja) * | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
JP3464371B2 (ja) | 1996-11-15 | 2003-11-10 | ノキア モービル フォーンズ リミテッド | 不連続伝送中に快適雑音を発生させる改善された方法 |
SE9700772D0 (sv) * | 1997-03-03 | 1997-03-03 | Ericsson Telefon Ab L M | A high resolution post processing method for a speech decoder |
EP0878790A1 (en) | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Voice coding system and method |
KR100330196B1 (ko) * | 1997-05-16 | 2002-03-28 | 다치카와 게이지 | 가변길이 프레임 전송방법과 전송장치 및 수신장치 |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
JP4216364B2 (ja) | 1997-08-29 | 2009-01-28 | 株式会社東芝 | 音声符号化/復号化方法および音声信号の成分分離方法 |
DE19747132C2 (de) | 1997-10-24 | 2002-11-28 | Fraunhofer Ges Forschung | Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms |
JP2000221988A (ja) * | 1999-01-29 | 2000-08-11 | Sony Corp | データ処理装置、データ処理方法、プログラム提供媒体及び記録媒体 |
US6658382B1 (en) * | 1999-03-23 | 2003-12-02 | Nippon Telegraph And Telephone Corporation | Audio signal coding and decoding methods and apparatus and recording media with programs therefor |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
-
2000
- 2000-01-26 US US09/763,128 patent/US6978236B1/en not_active Expired - Lifetime
- 2000-09-29 DK DK00968271T patent/DK1216474T3/da active
- 2000-09-29 PT PT00968271T patent/PT1216474E/pt unknown
- 2000-09-29 WO PCT/SE2000/001887 patent/WO2001026095A1/en active Search and Examination
- 2000-09-29 DE DE60012198T patent/DE60012198T2/de not_active Expired - Lifetime
- 2000-09-29 BR BRPI0014642A patent/BRPI0014642B1/pt active IP Right Grant
- 2000-09-29 EP EP00968271A patent/EP1216474B1/en not_active Expired - Lifetime
- 2000-09-29 AU AU78212/00A patent/AU7821200A/en not_active Abandoned
- 2000-09-29 RU RU2002111665/09A patent/RU2236046C2/ru active
- 2000-09-29 AT AT00968271T patent/ATE271250T1/de active
- 2000-09-29 CN CNB008136025A patent/CN1172293C/zh not_active Expired - Lifetime
- 2000-09-29 ES ES00968271T patent/ES2223591T3/es not_active Expired - Lifetime
- 2000-09-29 JP JP2001528974A patent/JP4035631B2/ja not_active Expired - Lifetime
-
2003
- 2003-02-24 HK HK03101398.3A patent/HK1049401B/zh not_active IP Right Cessation
-
2005
- 2005-10-05 JP JP2005292384A patent/JP4628921B2/ja not_active Expired - Lifetime
- 2005-10-05 JP JP2005292388A patent/JP4334526B2/ja not_active Expired - Lifetime
- 2005-10-11 US US11/246,283 patent/US7181389B2/en not_active Expired - Lifetime
- 2005-10-11 US US11/246,284 patent/US7191121B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CN1377499A (zh) | 2002-10-30 |
US7191121B2 (en) | 2007-03-13 |
DE60012198T2 (de) | 2005-08-18 |
EP1216474B1 (en) | 2004-07-14 |
JP2003529787A (ja) | 2003-10-07 |
JP4628921B2 (ja) | 2011-02-09 |
JP4334526B2 (ja) | 2009-09-30 |
RU2236046C2 (ru) | 2004-09-10 |
CN1172293C (zh) | 2004-10-20 |
HK1049401B (zh) | 2005-11-18 |
BR0014642A (pt) | 2002-06-18 |
EP1216474A1 (en) | 2002-06-26 |
HK1049401A1 (en) | 2003-05-09 |
DE60012198D1 (de) | 2004-08-19 |
JP4035631B2 (ja) | 2008-01-23 |
US7181389B2 (en) | 2007-02-20 |
WO2001026095A1 (en) | 2001-04-12 |
ATE271250T1 (de) | 2004-07-15 |
US20060031064A1 (en) | 2006-02-09 |
US6978236B1 (en) | 2005-12-20 |
DK1216474T3 (da) | 2004-10-04 |
JP2006065342A (ja) | 2006-03-09 |
BRPI0014642B1 (pt) | 2016-04-26 |
AU7821200A (en) | 2001-05-10 |
US20060031065A1 (en) | 2006-02-09 |
PT1216474E (pt) | 2004-11-30 |
JP2006031053A (ja) | 2006-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2223591T3 (es) | Codificacion eficaz de envolvente especial utilizando una resolucion tiempo/frecuencia variable. | |
US11942101B2 (en) | Audio entropy encoder/decoder with arithmetic coding and coding context | |
KR100389178B1 (ko) | 음성디코더및그의이용을위한방법 | |
KR100389179B1 (ko) | 압축음성정보의제1및제2연속적인각프레임의적어도일부를신뢰성있게수신하지못한경우,상기벡터신호를디코드된음성신호를발생하는데사용하는,음성디코더내에서이용하기위한방법 | |
ES2539304T3 (es) | Un aparato y un método para generar datos de salida por ampliación de ancho de banda | |
ES2358213T3 (es) | Flujo redundante de bits de audio y métodos de procesamiento de flujo de bits de audio. | |
ES2628127T3 (es) | Cuantificador avanzado | |
ES2665599T3 (es) | Codificador y descodificador de audio | |
WO2000045378A2 (en) | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching | |
ES2337903T3 (es) | Codificacion de audio. | |
Berouti et al. | Efficient Encoding and Decoding of Speech | |
Hernandez-Gomez et al. | Short-time synthesis procedures in vector adaptive transform coding of speech | |
Leis et al. | Adaptive vector quantization for speech spectrum coding | |
JPH09127993A (ja) | 音声符号化方法及び音声符号化装置 |