ES2880252T3 - Predicción basada en modelo en un banco de filtros críticamente muestreados - Google Patents
Predicción basada en modelo en un banco de filtros críticamente muestreados Download PDFInfo
- Publication number
- ES2880252T3 ES2880252T3 ES19208681T ES19208681T ES2880252T3 ES 2880252 T3 ES2880252 T3 ES 2880252T3 ES 19208681 T ES19208681 T ES 19208681T ES 19208681 T ES19208681 T ES 19208681T ES 2880252 T3 ES2880252 T3 ES 2880252T3
- Authority
- ES
- Spain
- Prior art keywords
- subband
- prediction
- sample
- signal
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 72
- 230000005236 sound signal Effects 0.000 claims abstract description 69
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 59
- 230000000737 periodic effect Effects 0.000 description 42
- 238000005311 autocorrelation function Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 20
- 230000015572 biosynthetic process Effects 0.000 description 19
- 239000011159 matrix material Substances 0.000 description 19
- 238000003786 synthesis reaction Methods 0.000 description 19
- 238000001228 spectrum Methods 0.000 description 17
- 230000007774 longterm Effects 0.000 description 13
- 238000006073 displacement reaction Methods 0.000 description 11
- 238000013139 quantization Methods 0.000 description 11
- 238000007493 shaping process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 230000007423 decrease Effects 0.000 description 5
- 230000001364 causal effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 101100289792 Squirrel monkey polyomavirus large T gene Proteins 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000005309 stochastic process Methods 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/30—Circuit design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/30—Circuit design
- G06F30/32—Circuit design at the digital level
- G06F30/327—Logic synthesis; Behaviour synthesis, e.g. mapping logic, HDL to netlist, high-level language to RTL or netlist
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Radiation (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Design And Manufacture Of Integrated Circuits (AREA)
Abstract
Un método en un decodificador para estimar una muestra (221) de una señal de subbanda a partir de dos o más muestras (222) anteriores de la señal de subbanda, en donde la señal de subbanda corresponde a una de una pluralidad de subbandas de una representación en el dominio de subbanda de una señal de audio determinada usando un banco de filtros de análisis que comprende una pluralidad de filtros de análisis, comprendiendo el método: determinar datos de modelo de señal que comprenden un parámetro (613) de modelo; determinar un primer coeficiente de predicción que se aplicará a una primera muestra (222) anterior () de la señal de subbanda; en donde un intervalo de tiempo de la primera muestra (222) anterior precede inmediatamente a un intervalo de tiempo de la muestra (221) de tiempo; en donde el primer coeficiente de predicción se determina como una función del parámetro (613) de modelo usando una tabla de consulta predeterminada y/o una función analítica predeterminada; determinar un segundo coeficiente de predicción a aplicar a una segunda muestra (222) anterior de la señal de subbanda; en donde un intervalo de tiempo de la segunda muestra (222) anterior precede inmediatamente a un intervalo de tiempo de la primera muestra (222) anterior; en donde el segundo coeficiente de predicción se determina como una función del parámetro (613) de modelo usando la tabla de consulta y/o la función analítica; y determinar la estimación de la muestra (221) aplicando el primer coeficiente de predicción a la primera muestra (222) anterior y aplicando el segundo coeficiente de predicción a la segunda muestra (222) anterior; en el que la pluralidad de subbandas tiene una separación entre subbandas idéntica.
Description
DESCRIPCIÓN
Predicción basada en modelo en un banco de filtros críticamente muestreados
Referencia cruzada a so lic itu des re lac ionadas
Esta solicitud es una solicitud divisional europea de la solicitud de patente europea EP 16192075.6 (referencia: D12110EP02), para la que el formulario 1001 de la O EP fue presentado el 3 de octubre de 2016.
Cam po té cn ico
El presente documento se refiere a sistemas de codificación de fuentes de audio. En particular, el presente documento se refiere a sistemas de codificación de fuentes de audio que usan predicción lineal en combinación con un banco de filtros.
An tecedentes
Hay dos herramientas importantes de procesamiento de señales aplicadas en sistemas para la codificación de fuentes de señales de audio, en concreto los bancos de filtros críticamente muestreados y la predicción lineal. Los bancos de filtros críticamente muestreados (por ejemplo, bancos de filtros basados en la transformada discreta de coseno modificada, MDCT) permiten un acceso directo a representaciones de tiempo-frecuencia en las que puede aprovecharse la irrelevancia perceptual y la redundancia de las señales. La predicción lineal permite modelar de manera eficaz fuentes de señales de audio, en particular de señales de voz. La combinación de las dos herramientas, es decir, el uso de la predicción en las subbandas de un banco de filtros, se ha usado principalmente en la codificación de audio de alta velocidad binaria. En lo que respecta a la codificación de baja velocidad binaria, un desafío que plantea la predicción en las subbandas es mantener bajo el coste (es decir, la velocidad binaria) para la descripción de los predictores. Otro desafío es controlar la conformación de ruido resultante de la señal de error de predicción obtenida por un predictor de subbanda.
En cuanto al reto que supone codificar la descripción del predictor de subbanda de una manera eficaz en cuanto a los bits, un posible enfoque es estimar el predictor a partir de partes ya descodificadas de la señal de audio y, por tanto, evitar completamente el coste de una descripción de predictor. Si el predictor puede determinarse a partir de partes ya descodificadas de la señal de audio, el predictor puede determinarse en el codificador y en el descodificador sin necesidad de transmitir una descripción de predictor desde el codificador al descodificador. Este esquema se denomina esquema de predicción adaptativa hacia atrás. Sin embargo, el esquema de predicción adaptativa hacia atrás normalmente se degrada considerablemente cuando la velocidad binaria de la señal de audio codificada disminuye. Un enfoque alternativo o adicional a la codificación eficiente de un predictor de subbanda es identificar una descripción de predictor más natural, por ejemplo una descripción que aproveche la estructura intrínseca de la señal de audio que va a codificarse. Por ejemplo, la codificación de voz de baja velocidad binaria aplica normalmente un esquema adaptativo hacia delante basado en una representación compacta de un predictor a corto plazo (que utiliza correlaciones a corto plazo) y de un predictor a largo plazo (que utiliza correlaciones a largo plazo debido al tono subyacente de la señal de voz).
En cuanto al reto que supone controlar la conformación de ruido de la señal de error de predicción, se observa que aunque la conformación de ruido de un predictor puede controlarse correctamente dentro de una subbanda, la señal de audio final de salida del codificador presenta normalmente artefactos de distorsión (excepto en señales de audio que presentan una forma de ruido espectral sustancialmente plana).
Un caso importante de un predictor de subbanda es la implementación de una predicción a largo plazo en un banco de filtros con ventanas solapadas. Un predictor a largo plazo utiliza normalmente las redundancias de las señales de audio periódicas y casi periódicas (tales como señales de voz que presentan un tono intrínseco), y puede describirse con un solo o con un número bajo de parámetros de predicción. El predictor a largo plazo puede definirse en el tiempo continuo mediante un retardo que refleja la periodicidad de la señal de audio. Cuando este retardo es grande en comparación con la longitud de la ventana del banco de filtros, el predictor a largo plazo puede implementarse en el dominio de tiempo discreto mediante un desplazamiento o un retardo fraccionario y puede volver a convertirse en un predictor causal en el dominio de subbanda. Tal predictor a largo plazo no presenta normalmente artefactos de distorsión, pero tiene como desventaja una gran complejidad computacional debido a la necesidad de operaciones adicionales de banco de filtros para la conversión desde el dominio de tiempo al dominio de subbanda. Por lo tanto, el enfoque para determinar el retardo en el dominio de tiempo y para convertir el retardo en un predictor de subbanda no puede aplicarse cuando el periodo de la señal de audio que va a codificarse es comparable o inferior al tamaño de ventana del banco de filtros.
El presente documento aborda los inconvenientes de predicción de subbanda mencionados anteriormente. En particular, el presente documento describe procedimientos y sistemas que permiten una descripción eficaz de velocidad binaria de predictores de subbanda y/o que permiten una reducción de los artefactos de distorsión provocados por los predictores de subbanda. En particular, el procedimiento y los sistemas descritos en el presente documento permiten la implementación de codificadores de audio de baja velocidad binaria usando predicción de subbanda, lo que permite reducir el nivel de los artefactos de distorsión. El documento US 2006/0015329 A1 describe
la codificación de fuentes de predicción de subbanda.
Com pend io
El presente documento describe procedimientos y sistemas que mejoran la calidad de la codificación de fuentes de audio utilizando predicción en el dominio de subbanda De un banco de filtros críticamente muestreado. Los métodos y sistemas pueden hacer uso de una descripción compacta de los predictores de subbanda, en donde la descripción se basa en los modelos de señal. Además o como alternativa, los métodos y sistemas pueden hacer uso de una implementación eficiente de los predictores directamente en el dominio de subbanda. Además o como alternativa, los métodos y sistemas pueden hacer uso de términos cruzados de predictor de subbanda, tal como se describe en el presente documento, para permitir una reducción de los artefactos de distorsión.
Como se describe en el presente documento, la descripción compacta de predictores de subbanda puede comprender la frecuencia de una sinusoide, el periodo de una señal periódica, un espectro ligeramente inarmónico, como el que aparece en la vibración de una cuerda tensa, y/o una multitud de tonos de una señal polifónica. Se sabe que en el caso de un predictor a largo plazo, el modelo de señal periódica proporciona predictores causales de alta calidad para diversos parámetros de demora (o retardos) que incluyen valores que son menores y/o mayores que el tamaño de ventana del banco de filtros. Esto significa que puede usarse un modelo de señal periódica para implementar un predictor de subbanda a largo plazo de manera eficiente. La transición desde la predicción basada en modelos sinusoidales a la aproximación de un retardo arbitrario no presenta discontinuidades.
La implementación directa de predictores en el dominio de subbanda permite acceder de manera explícita a características perceptuales de las distorsiones de cuantificación producidas. Además, la implementación de predictores en el dominio de subbanda permite acceder a propiedades numéricas, tales como la ganancia de predicción y la dependencia de los predictores con respecto a los parámetros. Por ejemplo, un análisis basado en un modelo de señal puede revelar que la ganancia de predicción solo es significativa en un subconjunto de las subbandas consideradas, y la variación de los coeficientes de los predictores en función del parámetro elegido para la transmisión puede resultar útil en el diseño de los formatos de los parámetros, así como de algoritmos de codificación eficientes. Además, la complejidad computacional puede reducirse considerablemente en comparación con implementaciones de predictores que se basan en el uso de algoritmos que funcionan tanto en el domino del tiempo como en el dominio de subbanda. En particular, los procedimientos y sistemas descritos en el presente documento pueden usarse para implementar la predicción de subbanda directamente en el dominio de subbanda sin necesidad de determinar y aplicar un predictor (por ejemplo, un retardo a largo plazo) en el dominio del tiempo.
El uso de términos de subbanda cruzada en los predictores de subbanda permite mejorar de manera considerable las propiedades de conformación de ruido en el dominio de la frecuencia en comparación con los predictores dentro de banda (que solo se basan en la predicción dentro de banda). De esta forma pueden reducirse los artefactos de distorsión, permitiendo así el uso de la predicción de subbanda en sistemas de codificación de audio de velocidad binaria relativamente baja.
Según un aspecto, se describe un procedimiento para estimar una primera muestra de una primera subbanda de una señal de audio. La primera subbanda de la señal de audio puede haberse determinado usando un banco de filtros de análisis que comprende una pluralidad de filtros de análisis que proporcionan una pluralidad de señales de subbanda en una pluralidad de subbandas, respectivamente, de la señal de audio. La señal de audio del dominio del tiempo puede enviarse a un banco de filtros de análisis, obteniéndose así una pluralidad de señales de subbanda en una pluralidad de subbandas. Cada una de la pluralidad de subbandas cubre normalmente una gama de frecuencias diferente de la señal de audio, proporcionándose así acceso a diferentes componentes de frecuencia de la señal de audio. La pluralidad de subbandas tiene una separación entre subbandas idéntica o uniforme. La primera subbanda corresponde a una de la pluralidad de subbandas proporcionadas por el banco de filtros de análisis.
El banco de filtros de análisis puede tener varias propiedades. Un banco de filtros de síntesis que comprende una pluralidad de filtros de síntesis puede tener propiedades idénticas o similares. Las propiedades descritas para el banco de filtros de análisis y los filtros de análisis también pueden aplicarse a las propiedades del banco de filtros de síntesis y de los filtros de síntesis. Normalmente, la combinación de un banco de filtros de análisis y de un banco de filtros de síntesis permite una reconstrucción perfecta de la señal de audio. Los filtros de análisis del banco de filtros de análisis pueden ser invariantes al desplazamiento entre sí. Además o como alternativa, los filtros de análisis del banco de filtros de análisis pueden comprender una función de ventana común. En particular, los filtros de análisis del banco de filtros de análisis pueden comprender versiones moduladas de diferente manera de la función de ventana común. En una realización, la función de ventana común se modula usando la función coseno, obteniéndose así un banco de filtros de análisis modulado por coseno. En particular, el banco de filtros de análisis puede comprender (o puede corresponder a) uno o más de las siguientes transformadas: MDCT, QMF y/o ELT. La función de ventana común puede tener una duración K finita. La duración de la función de ventana común puede ser tal que muestras subsiguientes de una señal de subbanda se determinan usando segmentos solapados de la señal de audio de dominio de tiempo. De este modo, el banco de filtros de análisis puede comprender una transformada solapada. Los filtros de análisis del banco de filtros de análisis pueden formar una base ortogonal y/o una base ortonormal. Una propiedad adicional es que el banco de filtros de análisis puede corresponder a un banco de filtros críticamente muestreado. En particular, el número de muestras de la pluralidad de señales de subbanda puede corresponder al número de muestras
de la señal de audio del dominio del tiempo.
El método puede comprender determinar un parámetro de modelo de un modelo de señal. Debe observarse que el modelo de señal puede describirse usando una pluralidad de parámetros de modelo. De este modo, el procedimiento puede comprender determinar la pluralidad de parámetros de modelo del modelo de señal. El parámetro o parámetros de modelo pueden extraerse de un flujo de bits recibido que comprende o que indica el parámetro de modelo y una señal de error de predicción. Como alternativa, el parámetro o parámetros de modelo pueden determinarse ajustando el modelo de señal a la señal de audio (por ejemplo, en cada trama), por ejemplo usando un enfoque de error cuadrático medio.
El modelo de señal puede comprender una o más componentes de modelo sinusoidales. En tal caso, el parámetro de modelo puede indicar la una o más frecuencias de la una o más componentes de modelo sinusoidales. A modo de ejemplo, el parámetro de modelo puede indicar una frecuencia fundamental O de un modelo de señal multisinusoidal, donde la señal multisinusoidal comprende componentes de modelo sinusoidales a frecuencias que corresponden a múltiplos qO de la frecuencia fundamental O. De este modo, el modelo de señal multisinusoidal puede comprender una componente de señal periódica, donde la componente de señal periódica comprende una pluralidad de componentes sinusoidales y donde la pluralidad de componentes sinusoidales tienen una frecuencia que es un múltiplo de la frecuencia fundamental O. Como se mostrará en el presente documento, tal componente de señal periódica puede usarse para modelar un retardo en el dominio de tiempo (como se usa, por ejemplo, en predictores a largo plazo). El modelo de señal puede comprender uno o más parámetros de modelo que indican un desplazamiento y/o una desviación del modelo de señal con respecto a un modelo de señal periódico. El desplazamiento y/o desviación pueden indicar una desviación de las frecuencias de la pluralidad de componentes sinusoidales del modelo de señal periódico con respecto a múltiplos respectivos qO de la frecuencia fundamental O.
El modelo de señal puede comprender una pluralidad de componentes de señal periódica. Cada una de las componentes de señal periódica puede describirse usando uno o más parámetros de modelo. Los parámetros de modelo pueden indicar una pluralidad de frecuencias fundamentales O0, O1,..., Om-1 de la pluralidad de componentes de señal periódica. Además o como alternativa, el modelo de señal puede describirse mediante un parámetro de relajación predeterminado y/o ajustable (que puede ser uno de los parámetros de modelo). El parámetro de relajación puede configurarse para allanar o suavizar el espectro lineal de una componente de señal periódica. Ejemplos específicos de modelos de señal y de parámetros de modelo asociados se describen en la sección del presente documento que describe las formas de realización.
El parámetro o parámetros de modelo pueden determinarse de manera que se reduzca (por ejemplo, se minimice) el valor medio de una señal de error cuadrático de predicción. La señal de error de predicción puede determinarse en función de la diferencia entre la primera muestra y la estimación de la primera muestra. En particular, el valor medio de la señal de error cuadrático de predicción puede determinarse en función de una pluralidad de primeras muestras subsiguientes de la primera señal de subbanda y en función de una pluralidad correspondiente de primeras muestras estimadas. En particular, en el presente documento se propone modelar la señal de audio o, al menos, la primera señal de subbanda de la señal de audio usando un modelo de señal que se describe mediante uno o más parámetros de modelo. Los parámetros de modelo se usan para determinar el uno o más coeficientes de predicción de un predictor lineal que determina una primera señal de subbanda estimada. La diferencia entre la primera señal de subbanda y la primera señal de subbanda estimada proporciona una señal de subbanda de error de predicción. El uno o más parámetros de modelo pueden determinarse de manera que se reduzca (por ejemplo, se minimice) el valor medio de la señal de subbanda de error cuadrático de predicción.
El método puede comprender además determinar un coeficiente de predicción que se aplicará a una muestra anterior de una primera señal de subbanda descodificada obtenida a partir de la primera señal de subbanda. En particular, la muestra anterior puede determinarse añadiendo una versión cuantificada de la señal de error de predicción a una muestra correspondiente de la primera señal de subbanda. La primera señal de subbanda descodificada puede ser idéntica a la primera señal de subbanda (por ejemplo, en caso de un codificador sin pérdidas). Un intervalo de tiempo de la muestra previa es normalmente anterior a un intervalo de tiempo de la primera muestra. En particular, el procedimiento puede comprender determinar uno o más coeficientes de predicción de un filtro de predicción recursivo (respuesta finita al impulso) que está configurado para determinar la primera muestra de la primera señal de subbanda de una o más muestras anteriores.
El uno o más coeficientes de predicción pueden determinarse en base al modelo de señal, en base al parámetro de modelo y en base al banco de filtros de análisis. En particular, un coeficiente de predicción puede determinarse en función de una evaluación analítica del modelo de señal y del banco de filtros de análisis. La evaluación analítica del modelo de señal y del banco de filtros de análisis puede dar lugar a la determinación de una tabla de consulta y/o de una función analítica. De este modo, el coeficiente de predicción puede determinarse usando la tabla de consulta y/o la función analítica, donde la tabla de consulta y/o la función analítica pueden predeterminarse en función del modelo de señal y en función del banco de filtros de análisis. La tabla de consulta y/o la función analítica pueden proporcionar el coeficiente o coeficientes de predicción en función de un parámetro obtenido a partir delparámetro o parámetros de modelo. El parámetro obtenido del parámetro de modelo puede ser, por ejemplo, el parámetro de modelo o puede obtenerse del parámetro de modelo usando una función predeterminada. De este modo, el uno o más coeficientes de predicción pueden determinarse de manera computacionalmente eficaz usando una tabla de consulta predeterminada
y/o una función analítica que proporcionan el uno o más coeficientes de predicción en función de, solamente, el uno o más parámetros obtenidos, solamente, del uno o más parámetros de modelo. Por tanto, la determinación de un coeficiente de predicción puede reducirse a la simple consulta de una entrada de una tabla de consulta.
Como se ha indicado anteriormente, el banco de filtros de análisis puede comprender o puede presentar una estructura modulada. Como resultado de tal estructura modulada, se observa que el valor absoluto del uno o más coeficientes de predicción depende de un número de índice de la primera subbanda. Esto significa que la tabla de consulta y/o la función analítica pueden ser invariantes al desplazamiento (aparte de un valor de signo) en relación con el número de índice de la pluralidad de subbandas. En tales casos, el parámetro obtenido a partir del parámetro de modelo, es decir, el parámetro que se introduce en la tabla de consulta y/o en la función analítica con el fin de determinar el coeficiente de predicción, puede obtenerse expresando el parámetro de modelo de manera relativa con respecto a una subbanda de la pluralidad de subbandas.
Como se ha indicado anteriormente, el parámetro de modelo puede indicar una frecuencia fundamental O de un modelo de señal multisinusoidal (por ejemplo, de un modelo de señal periódico). En tales casos, determinar el coeficiente de predicción puede comprender determinar un múltiplo de la frecuencia fundamental O que está dentro de la primera subbanda. Si un múltiplo de la frecuencia fundamental O está dentro de la primera subbanda, puede determinarse una desviación relativa del múltiplo de la frecuencia fundamental O con respecto a una frecuencia central de la primera subbanda. En particular, puede determinarse la desviación relativa del múltiplo de la frecuencia fundamental O más cercana a la frecuencia central de la primera subbanda. La tabla de consulta y/o la función analítica pueden predeterminarse de manera que la tabla de consulta y/o la función analítica proporcionen el coeficiente de predicción en función de posibles desviaciones relativas con respecto a una frecuencia central de una subbanda (por ejemplo, en función de una frecuencia normalizada f y/o en función de un parámetro de desplazamiento ©, como se describe en el presente documento). De este modo, el coeficiente de predicción puede determinarse conforme a la tabla de consulta y/o conforme a la función analítica usando la desviación relativa determinada. Una tabla de consulta predeterminada puede comprender un número limitado de entradas para un número limitado de posibles desviaciones relativas. En tal caso, la desviación relativa determinada puede redondearse a la desviación relativa más cercana posible de entre el limitado número de posibles desviaciones relativas, antes de consultar el coeficiente de predicción en la tabla de consulta.
Por otro lado, si no hay ningún múltiplo de la frecuencia fundamental O en la primera subbanda o, más bien, dentro de una gama de frecuencias ampliada que rodea a la primera subbanda, el coeficiente de predicción puede fijarse a cero. En tales casos, la estimación de la primera muestra puede ser también cero.
Determinar el coeficiente de predicción puede comprender seleccionar una tabla de una pluralidad de tablas de consulta en función del parámetro de modelo. A modo de ejemplo, el parámetro de modelo puede indicar una frecuencia fundamental O de un modelo de señal periódico. La frecuencia fundamental O de un modelo de señal periódico corresponde a una periodicidad T del modelo de señal periódico. En el presente documento se expone que en caso de periodicidades T relativamente pequeñas, un modelo de señal periódico converge hacia un modelo de una única sinusoide. Además, en el presente documento se expone que en caso de periodicidades T relativamente grandes, las tablas de consulta varían lentamente con el valor absoluto de T y dependen principalmente de la desviación relativa (esto es, del parámetro de desplazamiento ©). De este modo, diversas tablas de consulta pueden predeterminarse para una pluralidad de diferentes valores de la periodicidad T. El parámetro de modelo (esto es, la periodicidad T) puede usarse para seleccionar una tabla apropiada de la pluralidad de tablas de consulta, y el coeficiente de predicción puede determinarse en función de la tabla seleccionada de la pluralidad de tablas de consulta (usando la desviación relativa, por ejemplo usando el parámetro de desplazamiento ©). De este modo, un parámetro de modelo (que representa, por ejemplo, la periodicidad T) que puede tener una precisión relativamente alta puede descodificarse en un par de parámetros (por ejemplo, la periodicidad T y la desviación relativa) con una precisión reducida. El primer parámetro (por ejemplo, la periodicidad T) del par de parámetros puede usarse para seleccionar una tabla de consulta particular, y el segundo parámetro (por ejemplo, la desviación relativa) puede usarse para identificar una entrada de la tabla de consulta seleccionada.
El método puede comprender además determinar una estimación de la primera muestra aplicando el coeficiente de predicción a la muestra anterior. Aplicar el coeficiente de predicción a la muestra anterior puede comprender multiplicar el coeficiente de predicción por el valor de la muestra anterior, obteniéndose así la estimación de la primera muestra. Normalmente, una pluralidad de primeras muestras de la primera señal de subbanda se determina aplicando el coeficiente de predicción a una secuencia de muestras anteriores. Determinar una estimación de la primera muestra puede comprender además aplicar una ganancia de escalado al coeficiente de predicción y/o a la primera muestra. La ganancia de escalado (o una indicación de la misma) puede usarse, por ejemplo, en la predicción a largo plazo (LTP). Dicho de otro modo, la ganancia de escalado puede obtenerse a partir de un predictor diferente (por ejemplo, de un predictor a largo plazo). La ganancia de escalado puede ser diferente para subbandas diferentes. Además, la ganancia de escalado puede transmitirse como parte de la señal de audio codificada.
De este modo se proporciona una descripción eficaz de un predictor de subbanda (que comprende uno o más coeficientes de predicción) usando un modelo de señal que se describe mediante un parámetro de modelo. El parámetro de modelo se usa para determinar el uno o más coeficientes de predicción del predictor de subbanda. Esto significa que un codificador de audio no tiene que transmitir una indicación del uno o más coeficientes de predicción,
sino una indicación del parámetro de modelo. Normalmente, el parámetro de modelo puede codificarse de manera más eficaz (es decir, con un menor número de bits) que el uno o más coeficientes de predicción. Por tanto, el uso de la predicción basada en modelo permite una codificación de subbanda de baja velocidad binaria.
E l método puede comprender además determinar una máscara de predicción que indica una pluralidad de muestras anteriores en una pluralidad de subbandas de soporte de máscara de predicción. La pluralidad de subbandas de soporte de máscara de predicción puede comprender al menos una de la pluralidad de subbandas, que es diferente de la primera subbanda. De este modo, el predictor de subbanda puede configurarse para estimar una muestra de la primera señal de subbanda a partir de muestras de una o más otras señales de subbanda de la pluralidad de señales de subbanda, que son diferentes de la primera señal de subbanda. En el presente documento, esto se denomina predicción de subbanda cruzada. La máscara de predicción puede definir la disposición de la pluralidad de muestras anteriores (por ejemplo, una demora de tiempo con respecto al intervalo de tiempo de la primera muestra y/o una demora de índice de subbanda con respecto al número de índice de la primera subbanda) que se usan para estimar la primera muestra de la primera señal de subbanda.
El método puede proseguir con la determinación de una pluralidad de coeficientes de predicción que se aplicarán a la pluralidad de muestras anteriores. La pluralidad de coeficientes de predicción puede determinarse en función del modelo de señal, en función del parámetro de modelo y en función del banco de filtros de análisis (por ejemplo, usando los esquemas de predicción basados en modelo indicados anteriormente y en el presente documento). De este modo, la pluralidad de coeficientes de predicción puede determinarse usando uno o más parámetros de modelo. Dicho de otro modo, un número limitado de parámetros de modelo puede ser suficiente para determinar la pluralidad de coeficientes de predicción. Esto significa que usando la predicción de subbanda basada en modelo, la predicción de subbanda cruzada puede implementarse de una manera eficiente en lo que respecta a la tasa binaria.
El método puede comprender determinar una estimación de la primera muestra aplicando la pluralidad de coeficientes de predicción a la pluralidad de muestras anteriores, respectivamente. Determinar una estimación de la primera muestra comprende normalmente determinar la suma de la pluralidad de muestras anteriores ponderadas mediante la pluralidad de coeficientes de predicción respectivos.
Como se ha señalado anteriormente, el parámetro de modelo puede indicar una periodicidad T. La pluralidad de tablas de consulta, que se usan para determinar el uno o más coeficientes de predicción, puede comprender tablas de consulta para diferentes valores de la periodicidad T. En particular, la pluralidad de tablas de consulta puede comprender tablas de consulta para diferentes valores de la periodicidad T dentro del intervalo [Tmn, Tmax] con un valor de incremento AT predeterminado. Como se describirá en el presente documento, Tmin puede tener un valor de 0,25 y Tmax puede tener un valor de 2,5. Tmin puede seleccionarse de manera que T < Tmin, y la señal de audio puede modelarse usando un modelo de señal que comprende una única componente del modelo sinusoidal. Tmax puede seleccionarse de manera que T > Tmax, y las tablas de consulta para las periodicidades Tmax a Tmax + 1 corresponden sustancialmente a las tablas de consulta para las periodicidades Tmax - 1 a Tmax. Lo mismo se aplica normalmente a las periodicidades Tmax + n a Tmax + n + 1, para n > 0, en general.
El método puede comprender determinar la tabla de consulta seleccionada como la tabla de consulta para la periodicidad T indicada por el parámetro de modelo. Tras haberse seleccionado la tabla de consulta que comprende o indica el uno o más coeficientes de predicción, puede usarse un parámetro de consulta para identificar la una o más entradas apropiadas de la tabla de consulta seleccionada, que indican el uno o más coeficientes de predicción, respectivamente. El parámetro de consulta puede corresponder a o puede obtenerse a partir del parámetro de desplazamiento ©.
El método puede comprender, para un parámetro de modelo que indica una periodicidad T > Tmax, determinar una periodicidad residual Tr sustrayendo de T un valor entero de manera que la periodicidad residual Tr esté en el intervalo [Tmax - 1, Tmax]. La tabla de consulta para determinar el coeficiente de predicción puede determinarse entonces como la tabla de consulta para la periodicidad residual Tr.
El método puede comprender, para un parámetro de modelo que indica una periodicidad T < Tmin, seleccionar la tabla de consulta para determinar el uno o más coeficientes de predicción como la tabla de consulta para la periodicidad Tmn. Además, el parámetro de consulta (por ejemplo, el parámetro de desplazamiento ©) para identificar la una o más entradas de la tabla de consulta seleccionada que proporcionan el uno o más coeficientes de predicción, puede escalarse según la relación Tmn/T. El uno o más coeficientes de predicción pueden determinarse entonces usando la tabla de consulta seleccionada y el parámetro de consulta escalado. En particular, el uno o más coeficientes de predicción pueden determinarse en función de la una o más entradas de la tabla de consulta seleccionada correspondiente al parámetro de consulta escalado.
De este modo, el número de tablas de consulta puede limitarse a un intervalo predeterminado [ Tmn, Tmax], limitando así los requisitos de memoria de un codificador/descodificador de audio. Sin embargo, los coeficientes de predicción pueden determinarse para todos los posibles valores de la periodicidad T usando las tablas de consulta predeterminadas, permitiendo así una implementación eficaz desde el punto de vista computacional de un codificador/descodificador de audio.
Según un aspecto adicional, se describe un procedimiento para estimar una primera muestra de una primera señal de subbanda de una señal de audio. Como se ha indicado anteriormente, la primera señal de subbanda de la señal de audio puede determinarse usando un banco de filtros de análisis que comprende una pluralidad de filtros de análisis que proporcionan una pluralidad de señales de subbanda en una pluralidad de subbandas, respectivamente, de la señal de audio. Las características descritas anteriormente también pueden aplicarse al procedimiento descrito a continuación.
El método comprende determinar una máscara de predicción que indica una pluralidad de muestras anteriores en una pluralidad de subbandas de soporte de máscara de predicción. La pluralidad de subbandas de soporte de máscara de predicción comprende al menos una de la pluralidad de subbandas, que es diferente de la primera subbanda. En particular, la pluralidad de subbandas de soporte de máscara de predicción puede comprender la primera subbanda y/o la pluralidad de subbandas de soporte de máscara de predicción puede comprender una o más de la pluralidad de subbandas directamente adyacentes a la primera subbanda.
El método puede comprender además determinar una pluralidad de coeficientes de predicción que se aplicarán a la pluralidad de muestras anteriores. La pluralidad de muestras anteriores se obtiene normalmente a partir de la pluralidad de señales de subbanda de la señal de audio. En particular, la pluralidad de muestras anteriores corresponde normalmente a las muestras de una pluralidad de señales de subbanda descodificadas. La pluralidad de coeficientes de predicción puede corresponder a los coeficientes de predicción de un filtro de predicción recursivo (respuesta finita al impulso) que también tiene en cuenta una o más muestras de subbandas que son diferentes de la primera subbanda. Una estimación de la primera muestra puede determinarse aplicando la pluralidad de coeficientes de predicción a la pluralidad de muestras anteriores, respectivamente. De este modo, el procedimiento permite predecir subbandas usando una o más muestras de otras subbandas (por ejemplo, adyacentes). De esta manera pueden reducirse los artefactos de distorsión provocados por los codificadores basados en predicción de subbanda.
El método puede comprender además determinar un parámetro de modelo de un modelo de señal. La pluralidad de coeficientes de predicción puede determinarse en función del modelo de señal, en función del parámetro de modelo y en función del banco de filtros de análisis. De este modo, la pluralidad de coeficientes de predicción puede determinarse usando una predicción basada en modelo como la descrita en el presente documento. En particular, la pluralidad de coeficientes de predicción puede determinarse usando una tabla de consulta y/o una función analítica. La tabla de consulta y/o la función analítica pueden predeterminarse en función del modelo de señal y en función del banco de filtros de análisis. Además, la tabla de consulta y/o la función analítica pueden proporcionar la pluralidad de coeficientes de predicción (solamente) en función de un parámetro obtenido a partir del parámetro de modelo. Por tanto, el parámetro de modelo puede proporcionar directamente la pluralidad de coeficientes de predicción usando la tabla de consulta y/o la función analítica. De este modo, el parámetro de modelo puede usarse para describir de manera eficaz el coeficiente de un predictor de subbanda cruzada. Según un aspecto adicional, se describe un procedimiento para codificar una señal de audio. El procedimiento puede comprender determinar una pluralidad de señales de subbanda a partir de la señal de audio usando un banco de filtros de análisis que comprende una pluralidad de filtros de análisis. El método puede proseguir con la estimación de muestras de la pluralidad de señales de subbanda usando uno cualquiera de los procedimientos de predicción descritos en el presente documento, obteniéndose así una pluralidad de señales de subbanda estimadas. Además, las muestras de una pluralidad de señales de subbanda de error de predicción pueden determinarse en función de muestras correspondientes de la pluralidad de señales de subbanda y de muestras de la pluralidad de señales de subbanda estimadas. El método puede proseguir con la cuantificación de la pluralidad de señales de subbanda de error de predicción y con la generación de una señal de audio codificada. La señal de audio codificada puede indicar (por ejemplo, puede comprender) la pluralidad de señales de subbanda de error de predicción cuantificadas. Además, la señal codificada puede indicar (por ejemplo, puede comprender) uno o más parámetros usados para estimar las muestras de la pluralidad de señales de subbanda estimadas, por ejemplo indicar uno o más parámetros de modelo usados para determinar uno o más coeficientes de predicción que se usan después para estimar las muestras de la pluralidad de señales de subbanda estimadas.
Según otro aspecto, se describe un método para descodificar una señal de audio codificada. La señal de audio codificada indica normalmente una pluralidad de señales de subbanda de error de predicción cuantificadas y uno o más parámetros que se usarán para estimar muestras de una pluralidad de señales de subbanda estimadas. El método puede comprender descuantificar la pluralidad de señales de subbanda de error de predicción cuantificadas, obteniéndose así una pluralidad de señales de subbanda de error de predicción descuantificadas. Además, el método puede comprender estimar muestras de la pluralidad de señales de subbanda estimadas usando cualquiera de los procedimientos de predicción descritos en el presente documento. Muestras de una pluralidad de señales de subbanda descodificadas pueden determinarse en función de muestras correspondientes de la pluralidad de señales de subbanda estimadas y en función de muestras de la pluralidad de señales de subbanda de error de predicción descuantificadas. Una señal de audio descodificada puede determinarse a partir de la pluralidad de señales de subbanda descodificadas usando un banco de filtros de síntesis que comprende una pluralidad de filtros de síntesis.
Según un aspecto adicional, se describe un sistema configurado para estimar una o más primeras muestras de una primera señal de subbanda de una señal de audio. La primera señal de subbanda de la señal de audio puede determinarse usando un banco de filtros de análisis que comprende una pluralidad de filtros de análisis que proporcionan una pluralidad de señales de subbanda a partir de la señal de audio en una pluralidad de subbandas
respectivas. El sistema puede comprender un calculador de predictor configurado para determinar un parámetro de modelo de un modelo de señal. Además, el calculador de predictor puede estar configurado para determinar uno más coeficientes de predicción que se aplicarán a una o más muestras anteriores de una primera señal de subbanda descodificada obtenida a partir de la primera señal de subbanda. De este modo, el calculador de predictor puede estar configurado para determinar uno o más coeficientes de predicción de un filtro de predicción recursivo, específicamente de un filtro de predicción de subbanda recursivo. El uno o más coeficientes de predicción pueden determinarse en base al modelo de señal, en base all parámetro de modelo y en base al banco de filtros de análisis (por ejemplo, usando los procedimientos de predicción basados en modelo descritos en el presente documento). Los intervalos de tiempo de la una o más muestras previas son normalmente anteriores a los intervalos de tiempo de la una o más primeras muestras. El sistema puede comprender además un predictor de subbanda configurado para determinar una estimación de la una o más primeras muestras aplicando el uno o más coeficientes de predicción a la una o más muestras anteriores.
Según otro aspecto, se describe un sistema configurado para estimar una o más primeras muestras de una primera señal de subbanda de una señal de audio. La primera señal de subbanda corresponde a una primera subbanda de una pluralidad de subbandas. La primera señal de subbanda se determina normalmente usando un banco de filtros de análisis que comprende una pluralidad de filtros de análisis que proporcionan una pluralidad de señales de subbanda para la pluralidad de subbandas, respectivamente. El sistema comprende un calculador de predictor configurado para determinar una máscara de predicción que indica una pluralidad de muestras anteriores en una pluralidad de subbandas de soporte de máscara de predicción. La pluralidad de subbandas de soporte de máscara de predicción comprende al menos una de la pluralidad de subbandas, que es diferente de la primera subbanda. El calculador de predictor está configurado además para determinar una pluralidad de coeficientes de predicción (o un filtro de predicción recursivo) que se aplicarán a la pluralidad de muestras anteriores. Además, el sistema comprende un predictor de subbanda configurado para determinar una estimación de la una o más primeras muestras aplicando la pluralidad de coeficientes de predicción a la pluralidad de muestras anteriores, respectivamente.
Según otro aspecto, se describe un codificador de audio configurado para codificar una señal de audio. El codificador de audio comprende un banco de filtros de análisis configurado para determinar una pluralidad de señales de subbanda a partir de la señal de audio usando una pluralidad de filtros de análisis. Además, el codificador de audio comprende un calculador de predictor y un predictor de subbanda como los descritos en el presente documento, que están configurados para estimar muestras de la pluralidad de señales de subbanda, obteniéndose así una pluralidad de señales de subbanda estimadas. Además, el codificador puede comprender una unidad de diferencia configurada para determinar muestras de una pluralidad de señales de subbanda de error de predicción basadas en muestras correspondientes de la pluralidad de señales de subbanda y de la pluralidad de señales de subbanda estimadas. Puede usarse una unidad de cuantificación para cuantificar la pluralidad de señales de subbanda de error de predicción. Además, una unidad de generación de flujo de bits puede estar configurada para generar una señal de audio codificada que indica la pluralidad de señales de subbanda de error de predicción cuantificadas y uno o más parámetros (por ejemplo, uno o más parámetros de modelo) usados para estimar las muestras de la pluralidad de señales de subbanda estimadas.
Según un aspecto adicional, se describe un descodificador de audio configurado para descodificar una señal de audio codificada. La señal de audio codificada indica (por ejemplo, comprende) la pluralidad de señales de subbanda de error de predicción cuantificadas y uno o más parámetros usados para estimar muestras de una pluralidad de señales de subbanda estimadas. El descodificador de audio puede comprender un cuantificador inverso configurado para descuantificar la pluralidad de señales de subbanda de error de predicción cuantificadas, obteniéndose así una pluralidad de señales de subbanda de error de predicción descuantificadas. Además, el descodificador comprende un calculador de predictor y un predictor de subbanda como los descritos en el presente documento, que están configurados para estimar muestras de la pluralidad de señales de subbanda estimadas. Una unidad de suma puede usarse para determinar muestras de una pluralidad de señales de subbanda descodificadas en función de muestras correspondientes de la pluralidad de señales de subbanda estimadas y en función de muestras de la pluralidad de señales de subbanda de error de predicción descuantificadas. Además, puede usarse un banco de filtros de síntesis para determinar una señal de audio descodificada a partir de la pluralidad de señales de subbanda descodificadas usando una pluralidad de filtros de síntesis.
Según un aspecto adicional, se describe un programa de software. El programa de software puede estar adaptado para ejecutarse en un procesador y para llevar a cabo las etapas de procedimiento descritas en el presente documento cuando se ejecuta en el procesador.
Según otro aspecto, se describe un medio de almacenamiento. El medio de almacenamiento puede comprender un programa de software adaptado para ejecutarse en un procesador y para llevar a cabo las etapas del método descritas en el presente documento cuando se ejecuta en el procesador.
Según un aspecto adicional, se describe un producto de programa informático. El programa informático puede comprender instrucciones ejecutables para llevar a cabo las etapas del método descritas en el presente documento cuando se ejecuta en un ordenador.
Debe observarse que los procedimientos y sistemas, incluidas sus realizaciones preferidas descritas en la presente
solicitud de patente, pueden usarse de manera independiente o en combinación con los otros procedimientos y sistemas descritos en este documento.
Breve de sc r ip c ión de las figuras
La presente invención se describe a continuación de manera ilustrativa, sin limitar el alcance de la invención, con referencia a los dibujos adjuntos, en los que:
La Fig. 1 ilustra el diagrama de bloques de un descodificador de audio de ejemplo que aplica predicción lineal en un dominio de banco de filtros (es decir, en un dominio de subbanda);
La Fig. 2 muestra máscaras de predicción de ejemplo en una cuadrícula de tiempo-frecuencia;
La Fig. 3 ilustra datos tabulados de ejemplo para un calculador de predictor basado en un modelo sinusoidal;
La Fig. 4 ilustra una conformación de ruido de ejemplo que se obtiene a partir de una predicción de subbanda dentro de banda;
La Fig. 5 ilustra una conformación de ruido de ejemplo que se obtiene a partir de una predicción de subbanda de banda cruzada; y
La Fig. 6a ilustra una cuadrícula de cuantificación bidimensional de ejemplo subyacente a los datos tabulados para un cálculo de predictor basado en un modelo periódico;
La Fig. 6b ilustra el uso de diferentes máscaras de predicción para diferentes intervalos de periodicidades de señal; y Las Fig. 7a y 7b muestran diagramas de flujo de procedimientos de codificación y descodificación de ejemplo que usan predicción de subbanda basada en modelo.
D escrip c ión deta llada
Las realizaciones descritas a continuación simplemente ilustran los principios de la presente invención para una predicción basada en modelo en un banco de filtros críticamente muestreado. Debe entenderse que modificaciones y variaciones de las disposiciones y de los detalles descritos en el presente documento resultarán evidentes a los expertos en la técnica. Por lo tanto, solo estarán limitadas por el alcance de las reivindicaciones de patente adjuntas y no por los detalles específicos presentados con fines descriptivos y explicativos de las realizaciones del presente documento.
La Fig. 1 ilustra el diagrama de bloques de un descodificador 100 de audio de ejemplo que aplica predicción lineal en un dominio de banco de filtros (denominado también dominio de subbanda). El descodificador 100 de audio recibe un flujo de bits que comprende información relacionada con una señal de error de predicción (también denominada señal residual) y, posiblemente, información relacionada con la descripción de un predictor usada por un codificador correspondiente para determinar la señal de error de predicción a partir de una señal de audio de entrada original. La información relacionada con la señal de error de predicción puede referirse a subbandas de la señal de audio de entrada, y la información relacionada con la descripción del predictor puede referirse a uno o más predictores de subbanda.
Dada la información de flujo de bits recibida, un cuantificador 101 inverso puede proporcionar muestras 111 de las señales de subbanda de error de predicción. Estas muestras pueden añadirse a la salida 112 del predictor de subbanda 103 y la suma 113 puede transferirse a una memoria intermedia 104 de subbandas que mantiene un registro de muestras 113 descodificadas anteriormente de las subbandas de la señal de audio descodificada. La salida del predictor 103 de subbanda puede denominarse como señales 112 de subbanda estimadas. Las muestras 113 descodificadas de las subbandas de la señal de audio descodificada pueden transmitirse a un banco de filtros 102 de síntesis, que convierte las muestras de subbanda al domino de tiempo, obteniéndose así muestras 114 de dominio de tiempo de la señal de audio descodificada.
Dicho de otro modo, el descodificador 100 puede funcionar en el dominio de subbanda. En particular, el descodificador 100 puede determinar una pluralidad de señales 112 de subbanda estimadas usando el predictor 103 de subbanda. Además, el descodificador 100 puede determinar una pluralidad de señales 111 de subbanda residuales usando el cuantificador 101 inverso. Pueden añadirse parejas respectivas de la pluralidad de señales 112 de subbanda estimadas y de la pluralidad de señales 111 de subbanda residuales para obtener una pluralidad correspondiente de señales 113 de subbanda descodificadas. La pluralidad de señales 113 de subbanda descodificadas puede enviarse a un banco de filtros 102 de síntesis para obtener la señal 114 de audio descodificada del dominio del tiempo.
En una realización del predictor 103 de subbanda, una muestra dada de una señal 112 de subbanda estimada dada puede obtenerse mediante una combinación lineal de muestras de subbanda en la memoria intermedia 104, que corresponde a un tiempo diferente y a una frecuencia diferente (es decir, a una subbanda diferente) con respecto a la muestra dada de la señal 112 de subbanda estimada dada. Dicho de otro modo, una muestra de una señal 112 de subbanda estimada en un primer instante de tiempo y en una primera subbanda puede determinarse en base a una o
más muestras de las señales 113 de subbanda descodificadas relativas a un segundo instante de tiempo (diferente del primer instante de tiempo) y relativas a una segunda subbanda (diferente de la primera subbanda). La colección de coeficientes de predicción y su vinculación a una máscara de tiempo y frecuencia pueden definir el predictor 103, y esta información puede suministrarse por el calculador 105 de predictor del descodificador 100. El calculador 105 de predictor proporciona la información que define al predictor 103 mediante una conversión de datos de modelo de señal incluidos en el flujo de bits recibido. Puede transmitirse una ganancia adicional que modifica el escalado de la salida del predictor 103. En una forma de realización del calculador de predictor 105, los datos de modelo de señal se proporcionan en forma de un espectro de líneas parametrizadas de manera eficaz, donde cada línea del espectro de líneas parametrizadas, o un grupo de líneas subsiguientes del espectro de líneas parametrizadas, se usa para indicar valores tabulados de coeficientes de predictor. De este modo, los datos de modelo de señal proporcionados en el flujo de bits recibido pueden usarse para identificar entradas de una tabla de consulta predeterminada, donde las entradas de la tabla de consulta proporcionan uno o más valores de los coeficientes de predictor (también denominados coeficientes de predicción) que serán usados por el predictor 103. El método aplicado para la tabla de consulta puede depender de equilibrios entre los requisitos de complejidad y de memoria. Por ejemplo, puede usarse una consulta de tipo 'vecino más cercano' para conseguir la complejidad más baja, mientras que un procedimiento de consulta por interpolación puede proporcionar un rendimiento similar con un tamaño de tabla más pequeño.
Como se ha indicado anteriormente, el flujo de bits recibido puede comprender una o más ganancias transmitidas de manera explícita (o indicaciones de ganancias transmitidas de manera explícita). Las ganancias pueden aplicarse como parte de o después de la operación de predictor. La una o más ganancias transmitidas de manera explícita pueden ser diferentes para subbandas diferentes. Las indicaciones de ganancias adicionales transmitidas de manera explícita se proporcionan junto con uno o más parámetros de modelo que se usan para determinar los coeficientes de predicción del predictor 103. De este modo, las ganancias adicionales pueden usarse para escalar los coeficientes de predicción del predictor 103.
La Fig. 2 muestra soportes de máscara de predicción de ejemplo en una cuadrícula de tiempo-frecuencia. Los soportes de máscara de predicción pueden usarse en predictores 103 que funcionan en un banco de filtros con una resolución de tiempo-frecuencia uniforme, tal como un banco de filtros modulado por coseno (por ejemplo, un banco de filtros MDCT). La notación se ilustra en el diagrama 201, donde una muestra 211 de subbanda objetivo de color oscuro es la salida de una predicción basada en una muestra 212 de subbanda de color claro. En los diagramas 202 a 205, la colección de muestras de subbanda de color claro indica el soporte de máscara de predictor. La combinación de muestras 212 de subbanda fuente y las muestras 211 de subbanda objetivo se denominará máscara 201 de predicción. Puede usarse una cuadrícula de tiempo-frecuencia para disponer muestras de subbanda cerca de la muestra de subbanda objetivo. El índice de intervalo de tiempo aumenta de izquierda a derecha, y el índice de frecuencia de subbanda aumenta de abajo arriba. La Fig. 2 muestra casos de ejemplo de máscaras de predicción y de soportes de máscara de predictor, y debe observarse que pueden usarse otras máscaras de predicción y otros soportes de máscara de predictor. Las máscaras de predicción de ejemplo son:
• La máscara 202 de predicción define la predicción dentro de banda de una muestra 221 de subbanda estimada en el instante de tiempo k a partir de dos muestras 222 de subbanda descodificadas anteriores en los instantes de tiempo k-1 y k-2.
• La máscara 203 de predicción define la predicción de banda cruzada de una muestra 231 de subbanda estimada en el instante de tiempo k y en la subbanda n en función de tres muestras 232 de subbanda descodificadas anteriores en el instante de tiempo k-1 y en las subbandas n-1, n, n+1.
• La máscara 204 de predicción define la predicción de banda cruzada de tres muestras 241 de subbanda estimadas en el instante de tiempo k y en tres subbandas diferentes n-1, n, n+1 en base a tres muestras 242 de subbanda descodificadas anteriores en el instante de tiempo k-1 y en las subbandas n-1, n, n+1. La predicción de banda cruzada puede realizarse de manera que cada muestra 241 de subbanda estimada pueda determinarse en función de las tres muestras 242 de subbanda descodificadas anteriores en las subbandas n-1, n, n+1.
• La máscara 205 de predicción define la predicción de banda cruzada de una muestra 251 de subbanda estimada en el instante de tiempo k y en la subbanda n en función de doce muestras 252 de subbanda descodificadas anteriores en los instantes de tiempo k-2, k-3, k-4, k-5 y en las subbandas n-1, n, n+1.
La Fig. 3 ilustra datos tabulados para un calculador 105 de predictor basado en modelo sinusoidal que funciona en un banco de filtros modulado por coseno. El soporte de máscara de predicción es el del diagrama 204. Para un parámetro de frecuencia dado, la subbanda con la frecuencia central de subbanda más cercana puede seleccionarse como subbanda objetivo central. La diferencia entre el parámetro de frecuencia y la frecuencia central de la subbanda objetivo central puede calcularse en unidades de la separación de frecuencia del banco de filtros (celdas). Esto genera un valor comprendido entre -0,5 y 0,5 que puede redondearse a la entrada disponible más cercana de los datos tabulados, ilustrada por las abscisas de los nueve gráficos 301 de la Fig. 3. Esto produce una matriz 3x3 de coeficientes que puede aplicarse a los valores más recientes de la pluralidad de señales de subbanda descodificadas 113 de la memoria intermedia 104 de subbandas de la subbanda objetivo y sus dos subbandas adyacentes. El vector 3x1
resultante constituye la contribución del predictor 103 de subbanda a estas tres subbandas para el parámetro de frecuencia dado. El proceso puede repetirse de manera aditiva para todas las componentes sinusoidales del modelo de señal.
Dicho de otro modo, la Fig. 3 ilustra un ejemplo de una descripción basada en modelo de un predictor de subbanda. Se supone que la señal de audio de entrada comprende una o más componentes sinusoidales a frecuencias fundamentales O0,O1,...Om-1. Un predictor de subbanda que usa una máscara de predicción predeterminada (por ejemplo, la máscara 204 de predicción) puede determinarse para cada componente sinusoidal de la una o más componentes sinusoidales. Una frecuencia fundamental O de la señal de audio de entrada puede estar dentro de una de las subbandas del banco de filtros. Esta subbanda puede denominarse subbanda central para esta frecuencia fundamental particular O. La frecuencia fundamental O puede expresarse como un valor comprendido entre -0,5 y 0,5 con respecto a la frecuencia central de la subbanda central. Un codificador de audio puede transmitir al descodificador 100 información relacionada con la frecuencia fundamental O. El calculador 105 de predictor del descodificador 100 puede usar la matriz 3x3 de la Fig. 3 para determinar una matriz tres por tres de coeficientes de predicción determinando el valor 302 del coeficiente para el valor 303 de frecuencia relativa de la frecuencia fundamental O. Esto significa que el coeficiente para un predictor de subbanda 103 que usa una máscara 204 de predicción puede determinarse usando solamente la información recibida relacionada con la frecuencia fundamental particular O. Dicho de otro modo, modelando una señal de audio de entrada usando, por ejemplo, un modelo de una de más componentes sinusoidales, puede proporcionarse una descripción eficaz de la tasa de bits de un predictor de subbanda.
La Fig. 4 ilustra una conformación de ruido de ejemplo que se obtiene de una predicción de subbanda dentro de banda en un banco de filtros modulado por coseno. El modelo de señal usado para realizar la predicción de subbanda dentro de banda es un proceso estocástico autorregresivo de segundo orden con una resonancia máxima, como se describe mediante una ecuación diferencial de segundo orden basada en ruido blanco gaussiano aleatorio. La curva 401 muestra el espectro de magnitud medido para una realización del proceso. En este ejemplo se aplica la máscara 202 de predicción de la Fig. 2. Es decir, el calculador 105 de predictor suministra el predictor 103 de subbanda para una subbanda 221 objetivo dada basándose en muestras 222 de subbanda anteriores solamente de la misma subbanda. Sustituyendo el cuantificador 101 inverso por un generador de ruido blanco gaussiano se obtiene un espectro 402 de magnitud sintetizado. Como puede observarse, en la síntesis se producen importantes artefactos de distorsión, ya que el espectro 402 sintetizado comprende picos que no coinciden con el espectro 401 original.
La Fig. 5 ilustra una conformación de ruido de ejemplo que se obtiene de la predicción de subbanda de banda cruzada. La configuración es idéntica a la de la Fig. 4, excepto que se aplica la máscara 203 de predicción. Por tanto, el calculador 105 suministra el predictor 103 para una subbanda 231 objetivo dada basándose en muestras 232 de subbanda anteriores de la subbanda objetivo y en sus dos subbandas adyacentes. Como puede observarse en la Fig. 5, el espectro 502 de la señal sintetizada coincide sustancialmente con el espectro 501 de la señal original, es decir, los problemas de distorsión se suprimen considerablemente cuando se usa predicción de subbanda de banda cruzada. De este modo, las Fig. 4 y 5 ilustran que cuando se usa predicción de subbanda de banda cruzada, es decir, cuando se predice una muestra de subbanda en función de muestras de subbanda anteriores de una o más subbandas adyacentes, los artefactos de distorsión producidos por la predicción de subbanda pueden reducirse. Como resultado, la predicción de subbanda también puede aplicarse en el contexto de codificadores de audio de baja velocidad binaria sin riesgo de generar artefactos de distorsión audibles. El uso de la predicción de subbanda de banda cruzada aumenta normalmente el número de coeficientes de predicción. Sin embargo, como se muestra en el contexto de la Fig. 3, el uso de modelos para la señal de audio de entrada (por ejemplo, el uso de un modelo sinusoidal o de un modelo periódico) permite una descripción eficaz del predictor de subbanda, permitiéndose así el uso de la predicción de subbanda de banda cruzada en codificadores de audio de baja velocidad binaria.
A continuación, con referencia a las Fig. 1 a 6, se ofrecerá una descripción de los principios de la predicción basada en modelo en un banco de filtros críticamente muestreado, utilizando una terminología matemática apropiada.
Un posible modelo de señal subyacente a la predicción lineal es el de un proceso estocástico débilmente estacionario de media cero x(t) cuyas estadísticas se determinan mediante su función de autocorrelación r(x) = E{x(t)x(t-r)}. Como un buen modelo para los bancos de filtros críticamente muestreados a considerar, se toma {wa : a e A} como una colección de formas de onda de síntesis de valores reales wa(t) que constituyen una base ortonormal. Dicho de otro modo, el banco de filtros puede representarse mediante las formas de onda {wa : a e A}. Muestras de subbanda de una señal de dominio de tiempo s(t) se obtienen mediante productos internos
y la señal se obtiene de la siguiente manera:
s ( ñ = ^ ( s , w a )wa (t) , (2 )
a€Á
Las muestras de subbanda {x,wa> del proceso x(t) son variables aleatorias, cuya matriz de covarianza Rap se determina mediante la función de autocorrelación r(r) de la siguiente manera:
donde Wa p (r) es la correlación cruzada de dos formas de onda de síntesis
OO
Kp (r) = j (t)wp (t - t)dt. (4)
—oo '
Una predicción lineal de la muestra de subbanda {x,wa> de una colección o de muestras de subbanda descodificas {(x.wp) p e 6} se define como:
' L c p { x ’ w p ) - (5) P&B
En la ecuación (5), el conjunto 6 define las muestras de subbanda fuente, es decir, el conjunto 6 define el soporte de máscara de predicción. El valor medio del error cuadrático de predicción viene dado por
y la solución del error cuadrático medio (MSE) mínimo se obtiene resolviendo las ecuaciones normales de los coeficientes de predicción cp,
Cuando los coeficientes de predicción satisfacen la ecuación (7), el lado derecho de la ecuación (6) se reduce a Raa -'LpRapCp. Las ecuaciones normales (7) pueden resolverse de manera eficaz usando, por ejemplo, el algoritmo de Levinson-Durbin.
En el presente documento se propone transmitir una representación paramétrica de un modelo de señal a partir del cual los coeficientes de predicción {cp : p e 6} pueden obtenerse en el calculador 105 de predictor. Por ejemplo, el modelo de señal puede proporcionar una representación paramétrica de la función de autocorrelación r(r) del modelo de señal. El descodificador 100 puede obtener la función de autocorrelación r(r) usando la representación paramétrica recibida y puede combinar la función de autocorrelación r(r) con la correlación cruzada de forma de onda de síntesis W ap (r) con el fin de obtener las entradas de la matriz de covarianza requeridas para las ecuaciones normales (7). Estas ecuaciones pueden resolverse entonces para obtener los coeficientes de predicción.
Dicho de otro modo, una señal de audio de entrada que va a codificarse puede modelarse mediante un proceso x(t) que puede describirse usando un número limitado de parámetros de modelo. En particular, el proceso de modelado x(t) puede ser tal que su función de autocorrelación r(r) = E{x(t)x(t - r)} puede describirse usando un número limitado de parámetros. El número limitado de parámetros para describir la función de autocorrelación r(r) puede transmitirse al descodificador 100. El calculador 105 de predictor del descodificador 100 puede determinar la función de autocorrelación r(r) a partir de los parámetros recibidos y puede usar la ecuación (3) para determinar la matriz de covarianza R ap de las señales de subbanda a partir de las cuales puede determinarse la ecuación normal (7). El calculador 105 de predictor puede resolver entonces la ecuación normal (7), obteniéndose así los coeficientes de predicción cp.
A continuación se describen modelos de señal de ejemplo que pueden usarse para aplicar el esquema de predicción basado en modelo antes descrito de manera eficaz. Los modelos de señal descritos a continuación son, por lo general, muy relevantes para codificar señales de audio, por ejemplo para codificar señales de voz.
Un ejemplo de un modelo de señal viene dado por el proceso sinusoidal
x{t) = a cos(^ t) b sen t), (8)
donde las variables aleatorias a,b no están correlacionadas, tienen una media cero y una varianza uno. La función de autocorrelación de este proceso sinusoidal viene dada por
r(T ) = C0s(¿jT) (9) Una generalización de tal proceso sinusoidal es un modelo multiseno que comprende un conjunto de frecuencias (angulares) S, es decir, que comprende una pluralidad de diferentes frecuencias (angulares) £,
x(í) = X a 4 cos(^í) 6* sen(^í). (10)
Suponiendo que todas las variables aleatorias a5 ,b% no están correlacionadas en parejas, tienen una media cero y una varianza uno, el proceso multiseno tiene la función de autocorrelación
La densidad espectral de potencia (PSD) del proceso multiseno (que corresponde a la transformada de Fourier de la función de autocorrelación), es el espectro de líneas
P{a) = i'£ (5(a>-l;)+5(<»+ !;)). ( 12)
Consideraciones numéricas pueden dar lugar a la sustitución del proceso multiseno puro con función de autocorrelación del proceso de ecuación por un proceso multiseno relajado que presenta la función de autocorrelación r(T) = exp(-s|x|)^cos(^x)
donde e> 0 es un parámetro de relajación relativamente pequeño. Este último modelo da lugar a una PSD estrictamente positiva sin funciones de impulsos.
Ejemplos de descripciones compactas del conjunto S de frecuencias de un modelo multiseno son los siguientes:
1. Una única frecuencia fundamental O : S={Ov : v=1, 2,...}
2. M frecuencias fundamentales: Qo,Qi ,...,Qm-i : S = {Okv : v =1, 2,...,k = 0,1,...M -1}
3. Una única frecuencia fundamental desplazada de banda lateral 0 ,9 : S = {O(v 9) : v =1, 2,...}
4. Un modelo ligeramente inarmónico: 0,a : S = {Ov (1 av2)1/2 : v = 1,2,...}, donde a describe la componente inarmónica del modelo.
De este modo, un modelo multiseno (posiblemente relajado) que presenta una PSD dada por la ecuación (12) puede describirse de manera eficaz usando una de las descripciones de ejemplo antes enumeradas. A modo de ejemplo, un conjunto completo S de frecuencias del espectro de líneas de la ecuación (12) puede describirse usando solamente una única frecuencia fundamental O. Si la señal de audio de entrada que va a codificarse puede describirse correctamente usando un modelo multiseno que presenta una única frecuencia fundamental O, el predictor basado en modelo puede describirse mediante un único parámetro (es decir, mediante la frecuencia fundamental O), independientemente del número de coeficientes de predicción (es decir, independientemente de la máscara 202, 203, 204, 205 de predicción) usada por el predictor 103 de subbanda.
El caso 1 para describir el conjunto S de frecuencias proporciona un proceso x(t) que modela señales de audio de entrada con un periodo T = 2n /O. Tras la inclusión de la contribución de frecuencia cero (DC) con varianza 1/2 a la ecuación (11) y sujeta al reescalado del resultado mediante el factor 2/T, la función de autocorrelación del proceso de modelo periódico x(t) puede escribirse como
r(t) = £ « ( * - * r ) . (13)
He Z
Con la definición de un factor de relajación p=exp(-Ts), la función de autocorrelación de la versión relajada del modelo periódico viene dada por
r(r) = ^ p^ <5 (t ~ kT). (14)
k<='L
La ecuación (14) corresponde también a la función de autocorrelación de un proceso definido mediante un único bucle
de retardo alimentado con ruido blanco z(t), es decir, del proceso de modelo
x(í) - px(t - T) yji - p2 z (í) , (15)
Esto significa que el proceso periódico que presenta una única frecuencia fundamental O corresponde a un retardo en el domino de tiempo, donde el retardo es T = 2n / O.
Los modelos de señal globales antes mencionados tienen normalmente un espectro de potencia plano de gran escala debido a la suposición de varianza unitaria de los parámetros de amplitud sinusoidales ab%. Sin embargo, debe observarse que los modelos de señal solo se consideran normalmente de manera local para un subconjunto de subbandas de un banco de filtros críticamente muestreado, donde el banco de filtros es instrumental en la conformación de todo el espectro. Dicho de otro modo, para una señal que tiene una forma espectral con una baja variación en comparación con los anchos de subbanda, los modelos de espectro de potencia plano proporcionarán una buena aproximación de la señal y, por consiguiente, los predictores basados en modelo ofrecerán niveles adecuados de ganancia de predicción.
Más en general, el modelo P S D puede describirse en lo que respecta a parametrizaciones estándar de procesos autorregresivos (AR) o procesos autorregresivos de media móvil (ARMA). Esto mejorará el rendimiento de la predicción basada en modelo, posiblemente a expensas de un aumento en los parámetros de modelo descriptivos.
Otra variante se obtiene rechazando la suposición estacionaria para el modelo de señal estocástico. La función de autocorrelación se convierte entonces en una función de dos variables r(t,s) = E{x(t)x(s)}. Por ejemplo, los modelos sinusoidales no estacionarios pertinentes pueden incluir modulación en amplitud (AM) y en frecuencia (FM).
Además, puede utilizarse un modelo de señal más determinista. Como se observará en algunos de los ejemplos siguientes, la predicción puede tener un error decreciente en algunos casos. En tales casos, puede evitarse el enfoque probabilístico. Cuando la predicción es perfecta para todas las señales en un espacio de modelo, no es necesario calcular un valor medio del rendimiento de predicción mediante una medida de probabilidad del espacio de modelo considerado.
A continuación se describen varios aspectos relacionados con los bancos de filtros modulados. En particular, se describen aspectos que influyen en la determinación de la matriz de covarianza, proporcionándose así medios eficientes para determinar los coeficientes de predicción de un predictor de subbanda.
Un banco de filtros modulado puede describirse presentando un conjunto de índices bidimensional de formas de onda de síntesis a = (n, k) donde n = 0,1,... es el índice de subbanda (banda de frecuencia) y donde k e Z es el índice de muestra de subbanda (ranura de tiempo). Para facilitar la exposición, se supone que las formas de onda de síntesis se proporcionan en tiempo continuo y se normalizan con respecto a lapso de tiempo unitario,
donde
en caso de un banco de filtros modulado por coseno. Se supone que la función de ventana v(t) tiene valor real y es uniforme. Teniendo en cuenta pequeñas variantes de la regla de modulación, esto abarca varios casos muy importantes, tales como M DCT (Transformada Discreta del Coseno Modificada), QM F (Filtro de Espejo en Cuadratura) y ELT (Transformadas Solapadas Extendidas) con L subbandas tras el muestreo en un salto de tiempo 1/L. Se supone que la ventana tiene una duración o longitud finita con soporte incluido en el intervalo [-K/2, K/2], donde K es el factor de solapamiento de la transformada solapada y donde K indica la longitud de la función de ventana.
Debido a la estructura invariante al desplazamiento, se observa que la función de correlación cruzada de la forma de onda de síntesis (definida en la ecuación (4)) puede escribirse como
Es decir, Wn,k,m,i (r) con la definición Un,m (r) =Wn,o,m,o (r). La estructura una expansión adicional a
donde la función kernel Kv representa un muestreo con la etapa de subbanda de banco de filtros en la variable de frecuencia de la distribución Wigner-Ville de la ventana del banco de filtros
La función kernel es real y uniforme tanto en v con en r, debido a las suposiciones antes mencionadas de la función de ventana v(t). Su transformada de Fourier es el producto de respuestas de ventana desplazadas,
A partir de las ecuaciones (20) y (21) puede observarse que la función kernel Kv (r) disminuye para |r| > K y tiene un descenso rápido en función de |v| para opciones típicas de las ventanas de banco de filtros v(t). En consecuencia, el segundo término de la ecuación (19) que implica v = n + m + 1 puede despreciarse normalmente, excepto en las subbandas más bajas.
En lo que respecta a la función de autocorrelación r(r) de un modelo de señal dado, las fórmulas antes mencionadas pueden insertarse en la definición de la matriz de covarianza de muestras de subbanda proporcionada por la ecuación (3). Se obtiene Rn,k,m,i = Rn,m,[k - I] con la definición
En función de la densidad espectral de potencia P(w) del modelo de señal dado (que corresponde a la transformada de Fourier de la función de autocorrelación r(r)), se observa que
donde Ün.m(^ ) es la transformada de Fourier de Un,m(r), donde n, m identifican índices de subbanda, y donde 1 representa una demora de ranura de tiempo (1 = k - 1). La expresión de la ecuación (23) puede reescribirse como
Una observación importante es que el primer término de la ecuación (24) tiene esencialmente una propiedad de invarianza con respecto a los desplazamientos de frecuencia. Si se desprecia el segundo término de la ecuación (24) y P(w) desplaza en un número entero v de veces la separación de subbanda % a P(w- %v), se observa un desplazamiento correspondiente en las covarianzas Rn,m [1] = ±Rn-v,m-v [1], donde el signo depende de los valores (enteros) de la demora de tiempo 1. Esto refleja la ventaja de usar un banco de filtros con una estructura de modulación, en comparación con el caso general del banco de filtros.
La ecuación (24) proporciona un medio eficaz de determinar los coeficientes matriciales de la matriz de covarianza de muestras de subbanda cuando se conoce la PSD del modelo de señal subyacente. A modo de ejemplo, en caso de un esquema de predicción basado en modelo sinusoidal que utiliza un modelo de señal x(t) que comprende una única sinusoide a la frecuencia (angular) la PSD viene dada por ^ <u) _ t (^Íí0 í;) <5(ra ¿;))- insertando P(cu) en la
ecuación (24) se obtienen cuatro términos de los que tres pueden despreciarse al suponer que n m 1 tiene un valor elevado. El término restante pasa a ser
La ecuación (25) proporciona un medio eficaz para determinar la matriz de covarianza de subbanda Rn,m. Una muestra de subbanda {x,wp0) puede predecirse de manera fiable mediante una colección de muestras de subbanda circundantes {(x,wn?k): (n,k) e f i) que se supone que están muy influenciadas por la frecuencia considerada. La i 71 (p + -) frecuencia absoluta £ puede expresarse en términos relativos con respecto a la frecuencia central 2 de una subbanda, como donde p es el índice de subbanda de la subbanda que comprende la frecuencia £, y donde f es un parámetro de frecuencia normalizada que toma valores comprendidos entre -0,5 y 0,5, y que indica la posición de la frecuencia £ con respecto a la frecuencia central de la subbanda p. Tras haberse determinado la matriz de covarianza de subbanda Rn,m, los coeficientes de predictor Cm[/j que se aplican a una muestra de subbanda en la subbanda m en el índice de muestra / para estimar una muestra de subbanda en la subbanda n en el índice de muestra k se obtienen resolviendo las ecuaciones normales (7), que en este caso pueden escribirse como
En la ecuación (26), el conjunto B describe el soporte de máscara de predicción como se ilustra, por ejemplo, en la Fig. 2. Dicho de otro modo, el conjunto B identifica las subbandas m y los índices de muestra I que se usan para predecir una muestra objetivo.
A continuación se proporcionan a modo de ejemplo soluciones de las ecuaciones normales (26) para diferentes soportes de máscara de predicción (como los mostrados en la Fig. 2). El ejemplo de un predictor causal dentro de banda y de segundo orden se obtiene seleccionando el soporte de máscara de predicción B = {(p,-1),(p,-2)}. Este soporte de máscara de predicción corresponde a la máscara 202 de predicción de la Fig. 2. Las ecuaciones normales (26) para esta predicción en dos etapas, que usa la aproximación de la ecuación (25), pasan a ser
v($-7z(p \ ) f £ cos(${k-l))cp[l] = v(¿> -7t(p ±))2 cos{-%k), ¿ = -1,-2. (27)
(=-!,- 2
Una solución de la ecuación (27) viene dada por cP[-1] = 2cos(íj), cP[-2]= -1 y es única siempre que la frecuencia
no se elija de manera que v(f) = 0. Se observa que el valor medio del error cuadrático de predicción según la ecuación (6) disminuye. Por consiguiente, la predicción sinusoidal es perfecta, hasta la aproximación de la ecuación (25). La propiedad de invariación con respecto a los desplazamientos de frecuencia se ¡lustra aquí mediante
el hecho de que usando la definición ^~~ n (.P T f ) ’ e\ coeficiente de predicción cP [-1] puede reescribirse en lo que respecta a la frecuencia normalizada f, como Cp[-1] = -2(-1)p sen(^/). Esto significa que los coeficientes de predicción solo dependen de la frecuencia normalizada f dentro de una subbanda particular. Sin embargo, los valores absolutos de los coeficientes de predicción son independientes del índice de subbanda p.
Como se ha descrito anteriormente en la Fig. 4, la predicción dentro de banda tiene ciertos inconvenientes con respecto a los artefactos de distorsión en la conformación de ruido. El siguiente ejemplo se refiere al comportamiento mejorado ilustrado en la Fig. 5. Una predicción de banda cruzada causal como la descrita en el presente documento se obtiene seleccionando el soporte de máscara de predicción B = {(p -1,-1), (p,-1 ),(p + 1, -1)}, que solo requiere un intervalo de tiempo anterior en lugar de dos, y que lleva a cabo una conformación de ruido con menos contribuciones de frecuencia de distorsión que la máscara de predicción clásica 202 del primer ejemplo. El soporte de máscara de predicción B = {(p -1,-1), (p,-1),(p + 1, -1)} corresponde a la máscara de predicción 203 de la Fig. 2. Las ecuaciones normales (26) basadas en la aproximación de la ecuación (25) se reducen en este caso a dos ecuaciones para los tres coeficientes no conocidos Cm[ -1], m = p -1 ,p,p +1,
Se observa que cualquier solución de las ecuaciones (28) produce un valor medio decreciente del error cuadrático de predicción según la ecuación (6). Una posible estrategia para seleccionar una solución entre el infinito número de soluciones de las ecuaciones (28) es minimizar la suma de cuadrados de los coeficientes de predicción. Esto hace que los coeficientes se obtengan de la siguiente manera:
A partir de las fórmulas (29) resulta evidente que los coeficientes de predicción solo dependen de la frecuencia normalizada f con respecto al punto central de la subbanda objetivo p, y dependen además de la paridad de la subbanda objetivo p.
Usando el mismo soporte de máscara de predicción B ={(p -1,-1), (p,-1),(p 1,-1)} para predecir las tres muestras de subbanda {x,wm0) para m = p-1, p, p +1, como se ilustra mediante la máscara 204 de predicción de la Fig. 2, se obtiene una matriz de predicción 3x3. Tras la introducción de una estrategia más natural para evitar la ambigüedad en las ecuaciones normales, principalmente insertando el modelo sinusoidal relajado r(r)=exp(-£|i|)cos(^T) correspondiente a P(w) = e((e2 + (w - £)2 )-1 (e2 + (w O 2)'1), los cálculos numéricos obtienen los elementos de la matriz de predicción 3x3 de la Fig. 3. Los elementos de la matriz de predicción se muestran en función de la frecuencia normalizada J f e T L-12 ’ ± 21J en caso de un solapamiento K = 2 con una función de ventana sinusoidal v(t) = cos(jtt / 2) y en caso de una subbanda impar p.
De este modo, se ha demostrado que los modelos de señal x(t) pueden usarse para describir características subyacentes de la señal de audio de entrada que va a codificarse. Parámetros que describen la función de autocorrelación r(x) pueden transmitirse a un descodificador 100, permitiéndose así que el descodificador 100 calcule el predictor a partir de los parámetros transmitidos y conociendo el modelo de señal x(t). Se ha demostrado que en bancos de filtros modulados pueden obtenerse medios eficaces para determinar la matriz de covarianza de subbanda del modelo de señal y para resolver las ecuaciones normales para determinar los coeficientes de predictor. En particular, se ha demostrado que los coeficientes de predictor resultantes son invariables con respecto a desplazamientos de subbanda y solo dependen normalmente de una frecuencia normalizada relativa a una subbanda particular. Como resultado, pueden proporcionarse tablas de consulta predeterminadas (como se ilustra, por ejemplo, en la Fig. 3) que permiten la determinación de coeficientes de predictor conociendo una frecuencia normalizada f que es independiente (aparte de un valor de paridad) del índice de subbanda p para el que se determinan los coeficientes de predictor.
A continuación se describe en mayor detalle una predicción basada en un modelo periódico que usa, por ejemplo, una única frecuencia fundamental O. La función de autocorrelación r(r) de tal modelo periódico viene dada por la ecuación (13). El espectro de líneas o PSD equivalente viene dado por
P(ft)) = n £ < S (ft)-4 Q ). (30)
qG Z
Cuando el periodo T del modelo periódico es suficientemente pequeño, por ejemplo T < 1, la frecuencia fundamental O = 2n/T es suficientemente grande como para permitir la aplicación de un modelo sinusoidal como el obtenido anteriormente usando la frecuencia parcial í,= qCl más cercana a la frecuencia central + de la subbanda p de la muestra de subbanda objetivo que va a predecirse. Esto significa que las señales periódicas que presentan un periodo pequeño T, es decir, un periodo que es pequeño con respecto al lapso de tiempo del banco de filtros, pueden modelarse y predecirse correctamente usando el modelo sinusoidal descrito anteriormente.
Cuando el periodo T es suficientemente grande en comparación con la duración K de la ventana del banco de filtros v(t), el predictor se reduce hasta una aproximación de un retardo en T. Como se mostrará, los coeficientes de este predictor pueden leerse directamente de la función de correlación cruzada de forma de onda dada por la ecuación (19).
La introducción del modelo según la ecuación (13) en la ecuación (22) da lugar a
Una observación importante es que si T > 2K, entonces un término, a lo sumo, de la ecuación (31) es distinto de cero para cada X ya que Un,m(r) = 0 para \z| > K. Eligiendo un soporte de máscara de predicción B = I * J con un diámetro de intervalo de tiempo D =|J| < T - K se observa que (n, k), (m, /) e B implica que \k -l\ < T - K, y, por lo tanto, el único término de la ecuación (31) es aquél para q = 0. Se deduce que Rn,m [k - l] = Un,m (k - 1), que es el producto interno de formas de onda ortogonales y que es nulo a no ser que n = m y k = l. Con todo, las ecuaciones (7) normales pasan a ser
El soporte de máscara de predicción puede elegirse para que esté centrado alrededor de k = ka ~ -T, en cuyo caso el lado derecho de la ecuación (32) obtiene su única contribución de q = -1. Entonces, los coeficientes vienen dados por
donde puede insertarse la expresión explícita de la ecuación (19). La geometría del soporte de máscara de predicción para este caso podría tener la apariencia del soporte de máscara de predicción de la máscara 205 de predicción de la Fig. 2. El valor medio del error cuadrático de predicción proporcionado por la ecuación (6) es igual a la norma cuadrática de la proyección de Up (t + T) en el espacio delimitado por el complemento de las formas de onda aproximadas wmj(t), (m, l) í B.
En vista de lo anterior, en el presente documento se indica que la muestra de subbanda (x,wpfi) (de la subbanda p y en el índice de tiempo 0) puede predecirse usando un soporte de máscara de predicción adecuado B centrado alrededor de (p,-T) con un diámetro de tiempo aproximadamente igual a T. Las ecuaciones normales pueden resolverse para cada valor de T y p. Dicho de otro modo, para cada periodicidad T de una señal de audio de entrada y para cada subbanda p, los coeficientes de predicción para un soporte de máscara de predicción dado B pueden determinarse usando las ecuaciones (33) normales.
Con un gran número de subbandas p y una gran variedad de periodos T, una tabulación directa de todos los coeficientes de predictor no resulta práctica. Pero de manera similar al modelo sinusoidal, la estructura de modulación del banco de filtros ofrece una reducción significativa del tamaño de tabla necesario, a través de la propiedad de invariación con respecto a los desplazamientos de frecuencia. Normalmente bastará con estudiar el modelo armónico desplazado con un parámetro de desplazamiento -1/2 < 9 < 1/2 centrado alrededor del centro de una subbanda p, es
decir, centrado alrededor de *(P ’ ? 2)> definido por el subconjunto S(G) de frecuencias positivas entre la colección de frecuencias n(.P # t i 0)CI q e z ,
> ( < a ) = f i £ ( í ( o j - í ) 5(<» í ) ) . (34)
De hecho, dado T y un índice de subbanda suficientemente grande p , el modelo periódico según la ecuación (30) puede recuperarse con una buena aproximación mediante el modelo desplazado según la ecuación (34) y una elección adecuada del parámetro de desplazamiento 9. La inserción de la ecuación (34) en la ecuación (24) con n = p + v y m = p + p (donde v y p definen los índices de subbanda alrededor de la subbanda p del soporte de máscara de predicción) y las manipulaciones basadas en el análisis de Fourier dan lugar a la siguiente expresión para la matriz de covarianza,
Como puede observarse, la expresión (35) depende del índice de subbanda objetivo p solamente a través del factor (-1)p\ En el caso de un gran periodo T y de una pequeña demora de tiempo X, solo el término para l = 0 contribuye en la expresión (35) y se observa de nuevo que la matriz de covarianza es la matriz identidad. El lado derecho de las ecuaciones normales (26) de un soporte de máscara de predicción adecuado B centrado alrededor de (p, -T) hace que los coeficientes de predicción se obtengan directamente como
Esto recupera la contribución del primer término de las ecuaciones (19) a (33) con la elección canónica de desplazamiento® -~x{p -)IQ-
La ecuación (36) permite determinar los coeficientes de predicción Cp+v [k] para una subbanda (p v) en un índice de tiempo k, donde la muestra que va a predecirse es una muestra de la subbanda p en el índice de tiempo 0. Como
puede observarse en la ecuación (36), los coeficientes de predicción cp+v[k] dependen del índice de subbanda objetivo p solamente a través del factor (-1)pk, que afecta al signo del coeficiente de predicción. Sin embargo, el valor absoluto del coeficiente de predicción es independiente del índice de subbanda objetivo p. Por otro lado, el coeficiente de predicción cp+v[k] depende de la periodicidad T y del parámetro de desplazamiento 9. Además, el coeficiente de predicción cp+v[k] depende de v y k, es decir, del soporte de máscara de predicción B, usados para predecir la muestra objetivo en la subbanda objetivo p.
En el presente documento, se propone proporcionar una tabla de consulta que permita consultar un conjunto de coeficientes de predicción cp+v[k] para un soporte de máscara de predicción predeterminado B. Para un soporte de máscara de predicción dado B, la tabla de consulta proporciona un conjunto de coeficientes de predicción cp+v[k] para un conjunto predeterminado de valores de la periodicidad T y valores del parámetro de desplazamiento 9. Para limitar el número de entradas de tabla de consulta, debe limitarse el número de valores predeterminados de la periodicidad T y el número de valores predeterminados del parámetro de desplazamiento 9. Como puede observarse en la expresión (36), un incremento de cuantificación adecuado para los valores predeterminados de la periodicidad T y del parámetro de desplazamiento 9 debe depender de la periodicidad T. En particular, puede observarse que para periodicidades T relativamente grandes (relativas a la duración K de la función de ventana), pueden usarse etapas de cuantificación relativamente grandes para la periodicidad T y para el parámetro de desplazamiento 9. En el otro extremo, para periodicidades T relativamente pequeñas que tienden a cero, solo hay que tener en cuenta una contribución sinusoidal, de modo que la periodicidad T pierde importancia. Por otro lado, las fórmulas de la predicción sinusoidal según la ecuación (29) requieren que el desplazamiento de frecuencia absoluta normalizado f = Q6lit=± ¿6IT varíe lentamente, de modo que el valor de incremento de cuantificación del parámetro de desplazamiento 9 deba escalarse en función de la periodicidad T.
Con todo, en el presente documento se propone usar una cuantificación uniforme de la periodicidad T con un valor de incremento fijo. Sin embargo, el parámetro de desplazamiento 9 también puede cuantificarse de manera uniforme con un valor de incremento que es proporcional a min(T, A), donde el valor de A depende de las especificaciones de la función de ventana del banco de filtros. Además, para T<2, el intervalo de los parámetros de desplazamiento 9 puede limitarse a |9| < min(CT,1/2) para una C constante, que refleja un límite en los desplazamientos de frecuencia absolutos f.
La Fig. 6a ilustra un ejemplo de una cuadrícula de cuantificación resultante en el plano (T,9) para A = 2. Solamente en el intervalo intermedio comprendido entre 0,25 < T < 1,5 se tiene en cuenta la dependencia bidimensional total, mientras que las parametrizaciones esencialmente unidimensionales proporcionadas por las ecuaciones (29) y las ecuaciones (36) pueden usarse para el intervalo restante de interés. En particular, para periodicidades T que tienden a cero (por ejemplo, T<0,25) la predicción basada en modelo periódico corresponde sustancialmente a una predicción basada en un modelo sinusoidal, y los coeficientes de predicción pueden determinarse usando las fórmulas (29). Por otro lado, para periodicidades T que superan sustancialmente la duración de ventana K (por ejemplo, T>1,5) el conjunto de coeficientes de predicción cP+v[k] que usa predicción basada en modelo periódico puede determinarse usando la ecuación (36). Esta ecuación puede reinterpretarse mediante la sustitución d=<p ±Tv Se observa que
Al darle a p la función dada al parámetro 9 en la tabulación, se obtiene una estructura esencialmente separable en el plano (T,p) equivalente. En lo que respecta a los cambios de signo en función de los índices de subbanda y de intervalo de tiempo, la dependencia de T viene dada por un primer factor que varía lentamente, y la dependencia de p viene dada por un segundo factor periódico de la ecuación (37).
El parámetro de desviación modificado p puede interpretarse como el desplazamiento de la serie armónica en unidades de la frecuencia fundamental medida desde el punto central de los puntos centrales de las celdas fuente y objetivo.
Resulta ventajoso mantener esta parametrización modificada (T, p) para todos los valores de periodicidades T ya que las simetrías de la ecuación (37) que resultan evidentes con respecto a los cambios de signo simultáneos de p y v se cumplirán, por lo general, y pueden aprovecharse para reducir los tamaños de tabla.
Como se ha indicado anteriormente, la Fig. 6a muestra una cuadrícula de cuantificación bidimensional subyacente a los datos tabulados para un cálculo de predictor basado en modelo periódico en un banco de filtros modulado por coseno. El modelo de señal es el de una señal con periodo T 602, medida en unidades del salto de tiempo del banco de filtros. De manera equivalente, el modelo comprende las líneas de frecuencia de los múltiplos enteros, también conocidas como parciales, de la frecuencia fundamental correspondiente al periodo T. Para cada subbanda objetivo, el parámetro de desplazamiento 9601 indica la distancia del parcial más cercano a la frecuencia central medida en unidades de la frecuencia fundamental O. El parámetro de desplazamiento 9601 tiene un valor entre -0,5 y 0,5. Las cruces negras 603 de la Fig. 6a ilustran una densidad apropiada de puntos de cuantificación para la tabulación de
predictores con una alta ganancia de predicción basada en el modelo periódico. Para periodos T grandes (por ejemplo, T>2), la cuadrícula es uniforme. Normalmente se necesita una mayor densidad en el parámetro de desplazamiento 9 cuando el periodo T disminuye. Sin embargo, en la región fuera de las líneas 604, la distancia 9 es mayor que una celda de frecuencia del banco de filtros, de modo que puede despreciarse la mayor parte de los puntos de la cuadrícula en esta región. El polígono 605 delimita una región que es suficiente para una tabulación total. Además de las líneas escalonadas ligeramente fuera de las líneas 604, se introducen bordes en T = 0,25 y T = 1,5. Esto se permite debido a que pequeños periodos 602 pueden tratarse como sinusoides individuales y a que los predictores 602 de largos periodos pueden aproximarse mediante tablas esencialmente unidimensionales que dependen principalmente del parámetro de desviación 9 (o del parámetro de desviación modificado p). En la forma de realización ilustrada en la Fig. 6a, el soporte de máscara de predicción es normalmente similar a la máscara 205 de predicción de la Fig. 2 para grandes periodos T.
La Fig. 6b ilustra una predicción basada en un modelo periódico en el caso de periodos T relativamente grandes y en el caso de periodos T relativamente pequeños En el diagrama superior puede observarse que para periodos T grandes, es decir, para frecuencias 613 fundamentales relativamente pequeñas O, la función 612 de ventana del banco de filtros captura un número relativamente grande de líneas o pulsos 616 de Dirac de la PSD de la señal periódica. Los pulsos 616 de Dirac están situados en las frecuencias 610 cu = qQ, con Q e Las frecuencias centrales de las subbandas
del banco de filtros están ubicadas en las frecuencias W con P e Para una subbanda dada p, la asignación de frecuencia del pulso 616 con frecuencia cu qQ más cercana a la frecuencia central de la subbanda
dada cu = 7i(p - 2) puede describirse en términos relativos como qQ = n ( v p ' + 2 ”/1 ©fl, i donde el parámetro de desviación © oscila entre -0,5 y 0,5. De este modo, el término ©O refleja la distancia (en frecuencia) desde la
frecuencia central ü> = n(p - 2) hasta la componente de frecuencia más cercana 616 del modelo armónico. Esto se 1
CU = 7l( v + -)
¡lustra en el diagrama superior de la Fig. 6b, donde la frecuencia 617 central es 2 y donde la distancia 618 ©O se ilustra para el caso de un periodo relativamente grande T. Puede observarse que el parámetro de desplazamiento © permite describir toda la serie armónica vista desde la perspectiva del centro de la subbanda p.
El diagrama inferior de la Fig. 6b ilustra el caso para periodos T relativamente pequeños, es decir para frecuencias 623 fundamentales O relativamente grandes, en concreto frecuencias fundamentales 623 que son mayores que el ancho de la ventana 612. Puede observarse que en tales casos, una función 612 de ventana solo puede comprender un único pulso 626 de la señal periódica, de manera que la señal puede verse como una señal sinusoidal dentro de la ventana 612. Esto significa que en periodos T relativamente pequeños, el esquema de predicción basado en un modelo periódico converge hacia un esquema de predicción basado en un modelo sinusoidal. La Fig. 6b ilustra también máscaras 611, 621 de predicción de ejemplo que pueden usarse en el esquema de predicción basado en un modelo periódico y en el esquema de predicción basado en un modelo sinusoidal, respectivamente. La máscara 611 de predicción usada en el esquema de predicción basado en un modelo periódico puede corresponder a la máscara 205 de predicción de la Fig. 2 y puede comprender el soporte 614 de máscara de predicción para estimar la muestra de subbanda 615 objetivo. La máscara 621 de predicción usada en el esquema de predicción basado en un modelo sinusoidal puede corresponder a la máscara 203 de predicción de la Fig. 2 y puede comprender el soporte 624 de máscara de predicción para estimar la muestra de subbanda objetivo 625.
La Fig. 7a ilustra un procedimiento 700 de codificación de ejemplo que utiliza predicción de subbanda basada en un modelo periódico (que comprende, por ejemplo, una única frecuencia fundamental O). Se considera una trama de una señal de audio de entrada. Para esta trama puede determinarse una periodicidad T o una frecuencia fundamental O (etapa 701). El codificador de audio puede comprender los elementos del descodificador 100 ilustrado en la Fig. 1; en particular, el codificador de audio puede comprender un calculador 105 de predictor y un predictor 103 de subbanda. La periodicidad T o la frecuencia fundamental O pueden determinarse de manera que se reduzca (por ejemplo, se minimice) el valor medio de las señales 111 de subbanda de error cuadrático de predicción según la ecuación (6). A modo de ejemplo, el codificador de audio puede aplicar un enfoque elemental que determina las señales 111 de subbanda de error de predicción usando diferentes frecuencias fundamentales O y que determina la frecuencia fundamental O para la que se reduce (por ejemplo, se minimiza) el valor medio de las señales 111 de subbanda de error cuadrático de predicción. El procedimiento prosigue con la cuantificación de las señales 111 de subbanda de error de predicción resultantes (etapa 702). Además, el procedimiento comprende la etapa 703 de generar un flujo de bits que comprende información que indica la frecuencia fundamental determinada O y las señales 111 de subbanda de error de predicción cuantificadas.
Cuando se determina la frecuencia fundamental O en la etapa 701, el codificador de audio puede usar las ecuaciones (36) y/o (29) para determinar los coeficientes de predicción para una frecuencia fundamental particular O. El conjunto de posibles frecuencias fundamentales O puede limitarse por el número de bits que están disponibles para la transmisión de la información que indica la frecuencia fundamental determinada O.
Debe observarse que el sistema de codificación de audio puede usar un modelo predeterminado (por ejemplo, un modelo periódico que comprende una única frecuencia fundamental O o cualquier otro de los modelos proporcionados
en el presente documento) y/o una máscara 202, 203, 204, 205 de predicción predeterminada. Por otro lado, el sistema de codificación de audio puede estar dotado de grados de libertad adicionales al permitir que el codificador de audio determine un modelo apropiado y/o una máscara de predicción apropiada para una señal de audio que va a codificarse. La información relacionada con el modelo seleccionado y/o con la máscara de predicción seleccionada se codifican después en el flujo de bits y se proporcionan al descodificador 100 correspondiente.
La Fig. 7b ilustra un procedimiento 710 de ejemplo para descodificar una señal de audio que se ha codificado usando predicción basada en modelo. Se supone que el descodificador 100 conoce el modelo de señal y la máscara de predicción usados por el codificador (ya sea a través del flujo de bits recibido o debido a configuraciones predeterminadas). Además, con fines ilustrativos, se supone que se ha usado un modelo de predicción periódico. El descodificador 100 extrae del flujo de bits recibido información referente a la frecuencia fundamental O (etapa 711). Usando la información referente a la frecuencia fundamental O, el descodificador 100 puede determinar la periodicidad T. La frecuencia fundamental O y/o la periodicidad T pueden usarse para determinar un conjunto de coeficientes de predicción para los diferentes predictores de subbanda (etapa 712). Los predictores de subbanda pueden usarse para determinar señales de subbanda estimadas (etapa 713) que se combinan (etapa 714) con las señales 111 de subbanda de error de predicción descuantificadas para obtener las señales 113 de subbanda descodificadas. Las señales 113 de subbanda descodificadas pueden filtrarse (etapa 715) usando un banco de filtros 102 de síntesis, obteniéndose así la señal 114 de audio descodificada del dominio del tiempo.
El calculador 105 de predictor puede usar las ecuaciones (36) y/o (29) para determinar los coeficientes de predicción de los predictores 103 de subbanda en función de la información recibida referente a la frecuencia fundamental O (etapa 712). Esto puede llevarse a cabo de manera eficaz usando una tabla de consulta, como se ilustra en las Fig. 6a y 3. A modo de ejemplo, el calculador 105 de predictor puede determinar la periodicidad T y determinar si la periodicidad está por debajo de un umbral inferior predeterminado (por ejemplo, T=0,25). Si este es el caso, se usa un esquema de predicción basado en un modelo sinusoidal. Esto significa que en función de la frecuencia fundamental recibida O se determinan subbandas p que comprenden un múltiplo cu = qQ, con 9 ^ de la frecuencia fundamental.
Después se determina la frecuencia normalizada / usando la relación £ = jr(P 7 / )> i donde la frecuencia $ corresponde al múltiplo w = qO que está en la subbanda p. El calculador 105 de predictor puede usar después la ecuación (29) o una tabla de consulta precalculada para determinar el conjunto de coeficientes de predicción (usando, por ejemplo, la máscara 203 de predicción de la Fig. 2 o la máscara 621 de predicción de la Fig. 6b).
Debe observarse que un conjunto diferente de coeficientes de predicción puede determinarse para cada subbanda. Sin embargo, en caso de un esquema de predicción basado en un modelo sinusoidal solo se determina normalmente un conjunto de coeficientes de predicción para las subbandas p, las cuales están muy influenciadas por un múltiplo cu = qQ, con 9 ^ de la frecuencia fundamental. Para las otras subbandas no se determina ningún coeficiente de predicción, lo que significa que las señales 112 de subbanda estimadas para estas otras subbandas son nulas.
Para reducir la complejidad computacional del descodificador 100 (y del codificador que usa el mismo calculador 105 de predictor), el calculador 105 de predictor puede usar una tabla de consulta predeterminada que proporciona el conjunto de coeficientes de predicción, sujeto a valores para T y ©. En particular, el calculador de predictor 105 puede usar una pluralidad de tablas de consulta para una pluralidad de diferentes valores de T. Cada una de la pluralidad de tablas de consulta proporciona un conjunto diferente de coeficientes de predicción para una pluralidad de diferentes valores del parámetro de desplazamiento ©.
En una implementación práctica, una pluralidad de tablas de consulta puede proporcionarse para diferentes valores del parámetro de periodo T. A modo de ejemplo, las tablas de consulta pueden proporcionarse para valores de T en el intervalo comprendido entre 0,25 y 2,5 (como se ilustra en la Fig. 6a). Las tablas de consulta pueden proporcionarse para una granularidad predeterminada o valor de incremento de diferentes parámetros de periodo T. En una implementación de ejemplo, el valor de incremento para el parámetro de periodo normalizado T es 1/16, y diferentes tablas de consulta para los coeficientes de predicción cuantificados se proporcionan para T=8/32 hasta T= 80/32. Por tanto, puede proporcionarse un total de 37 tablas de consulta diferentes. Cada tabla puede proporcionar los coeficientes de predicción cuantificados en función del parámetro de desplazamiento © o en función del parámetro de desplazamiento modificado q>. Las tablas de consulta para 7=8/32 hasta 7= 80/32 pueden usarse en un intervalo
aumentado en la mitad del valor de incremento, es decir, 32 32 . p a ra una periodicidad dada que difiere de las periodicidades disponibles, para las que se ha definido una tabla de consulta, puede usarse la tabla de consulta para la periodicidad disponible más cercana. Como se ha indicado anteriormente, en periodos T largos (por ejemplo, en periodos T que superan el periodo para el que se ha definido una tabla de consulta), puede usarse la ecuación (36). Como alternativa, en periodos T que superan los periodos para los que se han definido las tablas de consulta, por ejemplo, en periodos T > 81/32, el periodo T puede dividirse en un retardo entero Ti y en un retardo residual Tr, de manera que T = Ti + Tr. La separación puede ser tal que el retardo residual Tr esté dentro del intervalo para el que puede aplicarse la ecuación (36) y para el que las tablas de consulta están disponibles, por ejemplo dentro del intervalo [1,5; 2,5] o [49/32, 81/32] para el ejemplo anterior. De este modo, los coeficientes de predicción pueden determinarse usando la tabla de consulta del retardo residual Tr, y el predictor de subbanda 103 puede utilizar una memoria intermedia 104 de subbanda que se ha retardado con el retardo entero Ti. Por ejemplo, si el periodo es T=3,7, el
retardo entero puede ser Ti = 2, seguido de un retardo residual de Tr = 1,7. El predictor puede aplicarse en función de los coeficientes para Tr = 1,7 en una memoria intermedia de señales que está retardada, adicionalmente, con Ti = 2. El enfoque de separación se basa en la suposición razonable de que el extractor aproxima un retardo de T en el intervalo de [1,5; 2,5] o [49/32, 81/32]. La ventaja del procedimiento de separación en comparación con el uso de la ecuación (36) es que los coeficientes de predicción pueden determinarse en función de operaciones de consulta de tabla eficaces desde el punto de vista computacional.
Como se ha indicado anteriormente, para periodos cortos (T<0,25) puede usarse la ecuación (29) para determinar los coeficientes de predicción. Como alternativa, puede resultar beneficioso usar las tablas de consulta ya disponibles con el fin de reducir la complejidad computacional. Se observa que el parámetro de desplazamiento modificado cp está A *íp - — t
comprendido dentro del intervalo |cp| < T con un valor de incremento de muestreo de 32 (para T<0,25 y para C=1, A=1/2).
En el presente documento se propone reutilizar la tabla de consulta para el periodo más bajo, T=0,25, escalando el parámetro de desplazamiento modificado 9 con Ti/T, donde Ti corresponde al periodo más bajo durante el cual una tabla de consulta está disponible (por ejemplo, Tf 0,25). A modo de ejemplo, con T = 0,1 y cp = 0,07, la tabla para en = — ■ U.U / =
7=0,25 puede consultarse con un parámetro de desplazamiento reescalado \ 0.1 / 0,175. De este modo, los coeficientes de predicción para periodos cortos (por ejemplo, T<0,25) pueden determinarse también de una manera eficaz desde el punto de vista computacional usando operaciones de consulta a tablas. Además, los requisitos de memoria del predictor pueden reducirse, ya que el número de tablas de consulta puede reducirse.
En el presente documento se ha descrito un esquema de predicción de subbanda basado en modelo. El esquema de predicción de subbanda basado en modelo permite una descripción eficiente de predictores de subbanda, es decir, una descripción que solo requiere un número de bits relativamente bajo. Como resultado de una descripción eficiente de predictores de subbanda, pueden usarse esquemas de predicción de subbanda cruzada, que reducen los artefactos de distorsión. En términos generales, esto permite proporcionar codificadores de audio de baja tasa de bits usando predicción de subbanda.
Claims (3)
1. Un método en un decodificador para estimar una muestra (221) de una señal de subbanda a partir de dos o más muestras (222) anteriores de la señal de subbanda, en donde la señal de subbanda corresponde a una de una pluralidad de subbandas de una representación en el dominio de subbanda de una señal de audio determinada usando un banco de filtros de análisis que comprende una pluralidad de filtros de análisis, comprendiendo el método: determinar datos de modelo de señal que comprenden un parámetro (613) de modelo;
determinar un primer coeficiente de predicción que se aplicará a una primera muestra (222) anterior () de la señal de subbanda; en donde un intervalo de tiempo de la primera muestra (222) anterior precede inmediatamente a un intervalo de tiempo de la muestra (221) de tiempo; en donde el primer coeficiente de predicción se determina como una función del parámetro (613) de modelo usando una tabla de consulta predeterminada y/o una función analítica predeterminada;
determinar un segundo coeficiente de predicción a aplicar a una segunda muestra (222) anterior de la señal de subbanda; en donde un intervalo de tiempo de la segunda muestra (222) anterior precede inmediatamente a un intervalo de tiempo de la primera muestra (222) anterior; en donde el segundo coeficiente de predicción se determina como una función del parámetro (613) de modelo usando la tabla de consulta y/o la función analítica; y determinar la estimación de la muestra (221) aplicando el primer coeficiente de predicción a la primera muestra (222) anterior y aplicando el segundo coeficiente de predicción a la segunda muestra (222) anterior;
en el que la pluralidad de subbandas tiene una separación entre subbandas idéntica.
2. Un sistema (100) de descodificación configurado para determinar una estimación de una muestra (221) de una señal de subbanda a partir de dos o más muestras (222) anteriores de la señal de subbanda, en donde la señal de subbanda corresponde a una de una pluralidad de subbandas de una representación en el dominio de subbanda de una señal de audio determinada usando un banco de filtros de análisis que comprende una pluralidad de filtros de análisis; en donde el sistema (100) comprende:
un calculador (105) de predictor configurado para
determinar los datos de modelo de señal que comprende un parámetro (613) de modelo;
determinar un primer coeficiente de predicción a aplicar a una primera muestra (222) anterior de la señal de subbanda; en donde un intervalo de tiempo de la primera muestra (222) anterior precede inmediatamente a un intervalo de tiempo de la muestra (221) de tiempo; en donde el primer coeficiente de predicción se determina como una función del parámetro (613) de modelo usando una tabla de consulta predeterminada y/o una función analítica predeterminada; y
determinar un segundo coeficiente de predicción a aplicar a una segunda muestra (222) anterior de la señal de subbanda; en donde un intervalo de tiempo de la segunda muestra (222) anterior precede inmediatamente a un intervalo de tiempo de la primera muestra (222) anterior; en donde el segundo coeficiente de predicción se determina como una función del parámetro (613) de modelo usando la tabla de consulta y/o la función analítica; y un predictor (103) de subbanda configurado para determinar la estimación de la muestra (221) aplicando el primer coeficiente de predicción a la primera muestra (222) anterior y aplicando el segundo coeficiente de predicción a la segunda muestra (222) anterior;
en el que la pluralidad de subbandas tiene una separación entre subbandas idéntica.
3. Un producto de programa informático que comprende una secuencia de instrucciones que, al ser ejecutadas por un ordenador, provocan que el ordenador realice el método de la reivindicación 1.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361750052P | 2013-01-08 | 2013-01-08 | |
US201361875528P | 2013-09-09 | 2013-09-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2880252T3 true ES2880252T3 (es) | 2021-11-24 |
Family
ID=50000954
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES21171483T Active ES2980709T3 (es) | 2013-01-08 | 2014-01-07 | Predicción basada en modelo en un banco de filtros críticamente muestreados |
ES14701146.4T Active ES2613747T3 (es) | 2013-01-08 | 2014-01-07 | Predicción basada en modelo en un banco de filtros críticamente muestreado |
ES19208681T Active ES2880252T3 (es) | 2013-01-08 | 2014-01-07 | Predicción basada en modelo en un banco de filtros críticamente muestreados |
ES16192075T Active ES2769845T3 (es) | 2013-01-08 | 2014-01-07 | Predicción basada en modelo en un banco de filtros |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES21171483T Active ES2980709T3 (es) | 2013-01-08 | 2014-01-07 | Predicción basada en modelo en un banco de filtros críticamente muestreados |
ES14701146.4T Active ES2613747T3 (es) | 2013-01-08 | 2014-01-07 | Predicción basada en modelo en un banco de filtros críticamente muestreado |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES16192075T Active ES2769845T3 (es) | 2013-01-08 | 2014-01-07 | Predicción basada en modelo en un banco de filtros |
Country Status (20)
Country | Link |
---|---|
US (9) | US9659567B2 (es) |
EP (5) | EP2943953B1 (es) |
JP (7) | JP6173484B2 (es) |
KR (1) | KR101634979B1 (es) |
CN (2) | CN104919523B (es) |
AU (7) | AU2014204954B2 (es) |
BR (2) | BR112015016275B1 (es) |
CA (8) | CA3076775C (es) |
DK (1) | DK2943953T3 (es) |
ES (4) | ES2980709T3 (es) |
HK (1) | HK1213081A1 (es) |
HU (1) | HUE032831T2 (es) |
IL (10) | IL309437B1 (es) |
IN (1) | IN2015MN01874A (es) |
MX (5) | MX370086B (es) |
MY (2) | MY193865A (es) |
PL (1) | PL2943953T3 (es) |
RU (2) | RU2636093C2 (es) |
SG (2) | SG11201504705SA (es) |
WO (1) | WO2014108393A1 (es) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2012011532A (es) | 2010-04-09 | 2012-11-16 | Dolby Int Ab | Codificacion a estereo para prediccion de complejos basados en mdct. |
US9940942B2 (en) | 2013-04-05 | 2018-04-10 | Dolby International Ab | Advanced quantizer |
MX343673B (es) | 2013-04-05 | 2016-11-16 | Dolby Int Ab | Codificador y decodificador de audio. |
JP6543838B2 (ja) * | 2014-08-28 | 2019-07-17 | 株式会社緑野リサーチ | 位相撮影装置およびその復元方法 |
WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
EP3800636B1 (en) | 2017-09-12 | 2023-03-08 | Dolby Laboratories Licensing Corporation | Packet loss concealment for critically-sampled filter bank-based codecs using multi-sinusoidal detection |
CN110068771B (zh) * | 2019-05-28 | 2020-02-07 | 山东大学 | 基于输出响应重构的高精度电池模型参数辨识方法及系统 |
CN110849971B (zh) * | 2019-11-21 | 2021-05-18 | 西南交通大学 | 基于双指数窗函数法的结构模态参数识别方法 |
CN113452472B (zh) * | 2020-03-26 | 2024-05-31 | 瑞昱半导体股份有限公司 | 无线信号的分组检测方法及其系统 |
US11348594B2 (en) * | 2020-06-11 | 2022-05-31 | Qualcomm Incorporated | Stream conformant bit error resilience |
CN112259116B (zh) * | 2020-10-14 | 2024-03-15 | 北京字跳网络技术有限公司 | 一种音频数据的降噪方法、装置、电子设备及存储介质 |
CN115598489B (zh) * | 2021-06-28 | 2024-04-05 | 本源量子计算科技(合肥)股份有限公司 | 量子比特参数的测量方法和装置、量子芯片的测试方法 |
CN114454237B (zh) * | 2022-02-18 | 2024-05-14 | 杭州勤鹄科技有限公司 | 一种珍珠棉定长切断装置及方法 |
CN117610313B (zh) * | 2024-01-18 | 2024-04-26 | 西安石油大学 | 页岩油藏人工裂缝的网格加密方法及装置 |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62227198A (ja) * | 1986-03-28 | 1987-10-06 | 松下電器産業株式会社 | 帯域分割予測符号化方法 |
WO1996019876A1 (en) * | 1994-12-20 | 1996-06-27 | Dolby Laboratories Licensing Corporation | Method and apparatus for applying waveform prediction to subbands of a perceptual coding system |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
JP2891193B2 (ja) * | 1996-08-16 | 1999-05-17 | 日本電気株式会社 | 広帯域音声スペクトル係数量子化装置 |
FI114248B (fi) | 1997-03-14 | 2004-09-15 | Nokia Corp | Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen |
US7272556B1 (en) | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
JP4220108B2 (ja) * | 2000-06-26 | 2009-02-04 | 大日本印刷株式会社 | 音響信号符号化システム |
FR2815160B1 (fr) | 2000-10-06 | 2003-01-17 | France Telecom | Procede et dispositif de codage d'un signal audiofrequence |
US6633839B2 (en) * | 2001-02-02 | 2003-10-14 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
US7225135B2 (en) * | 2002-04-05 | 2007-05-29 | Lectrosonics, Inc. | Signal-predictive audio transmission system |
JP4218271B2 (ja) * | 2002-07-19 | 2009-02-04 | ソニー株式会社 | データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 |
US20040252772A1 (en) * | 2002-12-31 | 2004-12-16 | Markku Renfors | Filter bank based signal processing |
US7277550B1 (en) * | 2003-06-24 | 2007-10-02 | Creative Technology Ltd. | Enhancing audio signals by nonlinear spectral operations |
CN1826634B (zh) * | 2003-07-18 | 2010-12-01 | 皇家飞利浦电子股份有限公司 | 低比特率音频编码 |
AU2003291862A1 (en) * | 2003-12-01 | 2005-06-24 | Aic | A highly optimized method for modelling a windowed signal |
US7272567B2 (en) * | 2004-03-25 | 2007-09-18 | Zoran Fejzo | Scalable lossless audio codec and authoring tool |
US20060015329A1 (en) * | 2004-07-19 | 2006-01-19 | Chu Wai C | Apparatus and method for audio coding |
JP4939424B2 (ja) * | 2004-11-02 | 2012-05-23 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複素値のフィルタ・バンクを用いたオーディオ信号の符号化及び復号化 |
JP2006211243A (ja) | 2005-01-27 | 2006-08-10 | Kobe Steel Ltd | ディジタル信号符号化装置,ディジタル信号符号化方法 |
US7177804B2 (en) | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
JP4876574B2 (ja) * | 2005-12-26 | 2012-02-15 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
JP2009543112A (ja) * | 2006-06-29 | 2009-12-03 | エヌエックスピー ビー ヴィ | 音声パラメータの復号化 |
EP3447916B1 (en) * | 2006-07-04 | 2020-07-15 | Dolby International AB | Filter system comprising a filter converter and a filter compressor and method for operating the filter system |
FR2912249A1 (fr) | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
GB2441835B (en) * | 2007-02-07 | 2008-08-20 | Sonaptic Ltd | Ambient noise reduction system |
KR101149448B1 (ko) * | 2007-02-12 | 2012-05-25 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 |
BRPI0807703B1 (pt) * | 2007-02-26 | 2020-09-24 | Dolby Laboratories Licensing Corporation | Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador |
US8428957B2 (en) * | 2007-08-24 | 2013-04-23 | Qualcomm Incorporated | Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands |
KR101380170B1 (ko) * | 2007-08-31 | 2014-04-02 | 삼성전자주식회사 | 미디어 신호 인코딩/디코딩 방법 및 장치 |
CN101816191B (zh) | 2007-09-26 | 2014-09-17 | 弗劳恩霍夫应用研究促进协会 | 用于提取环境信号的装置和方法 |
WO2009049895A1 (en) * | 2007-10-17 | 2009-04-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding using downmix |
EP2077551B1 (en) | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
JP2011518345A (ja) * | 2008-03-14 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング |
KR101629862B1 (ko) * | 2008-05-23 | 2016-06-24 | 코닌클리케 필립스 엔.브이. | 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더 |
MX2011000375A (es) | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
CN103000178B (zh) | 2008-07-11 | 2015-04-08 | 弗劳恩霍夫应用研究促进协会 | 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码 |
MY152252A (en) * | 2008-07-11 | 2014-09-15 | Fraunhofer Ges Forschung | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
CN102113346B (zh) * | 2008-07-29 | 2013-10-30 | 杜比实验室特许公司 | 用于电声通道的自适应控制和均衡的方法 |
US8457975B2 (en) | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
CN101646123B (zh) * | 2009-08-28 | 2012-09-05 | 中国科学院声学研究所 | 一种模拟听觉感知模型的滤波器组 |
ES2374008B1 (es) * | 2009-12-21 | 2012-12-28 | Telefónica, S.A. | Codificación, modificación y síntesis de segmentos de voz. |
EP2362375A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for modifying an audio signal using harmonic locking |
WO2011118018A1 (ja) * | 2010-03-26 | 2011-09-29 | 株式会社フィールドシステム | 発信装置 |
US8600737B2 (en) | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
US20120029926A1 (en) | 2010-07-30 | 2012-02-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals |
CN102088603B (zh) * | 2010-12-31 | 2013-12-04 | 北京大学深圳研究生院 | 用于视频编码器的熵编码器及其实现方法 |
US20120245927A1 (en) * | 2011-03-21 | 2012-09-27 | On Semiconductor Trading Ltd. | System and method for monaural audio processing based preserving speech information |
EP2530840B1 (en) * | 2011-05-30 | 2014-09-03 | Harman Becker Automotive Systems GmbH | Efficient sub-band adaptive FIR-filtering |
CN107326559A (zh) | 2017-06-09 | 2017-11-07 | 杭州慧群机电设备有限公司 | 一种珠绣多色换珠装置 |
-
2014
- 2014-01-07 CA CA3076775A patent/CA3076775C/en active Active
- 2014-01-07 HU HUE14701146A patent/HUE032831T2/en unknown
- 2014-01-07 CA CA3121651A patent/CA3121651C/en active Active
- 2014-01-07 ES ES21171483T patent/ES2980709T3/es active Active
- 2014-01-07 RU RU2015127216A patent/RU2636093C2/ru active
- 2014-01-07 BR BR112015016275-4A patent/BR112015016275B1/pt active IP Right Grant
- 2014-01-07 CA CA3234476A patent/CA3234476A1/en active Pending
- 2014-01-07 IL IL309437A patent/IL309437B1/en unknown
- 2014-01-07 CN CN201480004153.1A patent/CN104919523B/zh active Active
- 2014-01-07 CA CA3092138A patent/CA3092138C/en active Active
- 2014-01-07 RU RU2017134071A patent/RU2742460C2/ru active
- 2014-01-07 EP EP14701146.4A patent/EP2943953B1/en active Active
- 2014-01-07 KR KR1020157018150A patent/KR101634979B1/ko active IP Right Grant
- 2014-01-07 CN CN201710814654.1A patent/CN107452392B/zh active Active
- 2014-01-07 SG SG11201504705SA patent/SG11201504705SA/en unknown
- 2014-01-07 CA CA3054712A patent/CA3054712C/en active Active
- 2014-01-07 BR BR122017000308-9A patent/BR122017000308B1/pt active IP Right Grant
- 2014-01-07 JP JP2015551193A patent/JP6173484B2/ja active Active
- 2014-01-07 MX MX2019002421A patent/MX370086B/es unknown
- 2014-01-07 EP EP19208681.7A patent/EP3648104B1/en active Active
- 2014-01-07 ES ES14701146.4T patent/ES2613747T3/es active Active
- 2014-01-07 SG SG10201709631PA patent/SG10201709631PA/en unknown
- 2014-01-07 MY MYPI2018002422A patent/MY193865A/en unknown
- 2014-01-07 CA CA2897321A patent/CA2897321C/en active Active
- 2014-01-07 MX MX2016013420A patent/MX362990B/es unknown
- 2014-01-07 WO PCT/EP2014/050139 patent/WO2014108393A1/en active Application Filing
- 2014-01-07 EP EP21171483.7A patent/EP3893240B1/en active Active
- 2014-01-07 US US14/655,037 patent/US9659567B2/en active Active
- 2014-01-07 PL PL14701146T patent/PL2943953T3/pl unknown
- 2014-01-07 CA CA3012134A patent/CA3012134C/en active Active
- 2014-01-07 EP EP16192075.6A patent/EP3176784B1/en active Active
- 2014-01-07 IL IL302061A patent/IL302061B2/en unknown
- 2014-01-07 MX MX2015008659A patent/MX342822B/es active IP Right Grant
- 2014-01-07 AU AU2014204954A patent/AU2014204954B2/en active Active
- 2014-01-07 EP EP24166625.4A patent/EP4372602A3/en active Pending
- 2014-01-07 MY MYPI2015702155A patent/MY173781A/en unknown
- 2014-01-07 ES ES19208681T patent/ES2880252T3/es active Active
- 2014-01-07 CA CA3140749A patent/CA3140749C/en active Active
- 2014-01-07 DK DK14701146.4T patent/DK2943953T3/en active
- 2014-01-07 IN IN1874MUN2015 patent/IN2015MN01874A/en unknown
- 2014-01-07 ES ES16192075T patent/ES2769845T3/es active Active
-
2015
- 2015-06-16 IL IL239444A patent/IL239444B/en active IP Right Grant
- 2015-07-02 MX MX2019014295A patent/MX2019014295A/es unknown
- 2015-07-02 MX MX2022013536A patent/MX2022013536A/es unknown
-
2016
- 2016-01-26 HK HK16100838.8A patent/HK1213081A1/zh unknown
-
2017
- 2017-04-13 US US15/486,943 patent/US9892741B2/en active Active
- 2017-07-04 JP JP2017131120A patent/JP6530787B2/ja active Active
- 2017-08-15 AU AU2017216470A patent/AU2017216470B2/en active Active
- 2017-12-15 US US15/843,853 patent/US10102866B2/en active Active
-
2018
- 2018-03-15 IL IL258153A patent/IL258153B/en active IP Right Grant
- 2018-09-12 US US16/129,280 patent/US10325608B2/en active Active
- 2018-10-24 IL IL262551A patent/IL262551B/en active IP Right Grant
-
2019
- 2019-05-03 US US16/403,028 patent/US10573330B2/en active Active
- 2019-05-17 JP JP2019093724A patent/JP6592634B2/ja active Active
- 2019-08-05 IL IL268510A patent/IL268510B/en active IP Right Grant
- 2019-09-20 JP JP2019171286A patent/JP7053545B6/ja active Active
- 2019-11-15 AU AU2019264642A patent/AU2019264642B2/en active Active
-
2020
- 2020-02-21 US US16/797,841 patent/US10971164B2/en active Active
- 2020-09-03 IL IL277117A patent/IL277117B/en unknown
-
2021
- 2021-01-04 AU AU2021200013A patent/AU2021200013B2/en active Active
- 2021-04-01 US US17/219,914 patent/US11651777B2/en active Active
- 2021-05-25 IL IL283412A patent/IL283412B/en unknown
- 2021-12-27 JP JP2021212121A patent/JP7258118B2/ja active Active
-
2022
- 2022-02-14 IL IL290600A patent/IL290600B2/en unknown
- 2022-03-10 AU AU2022201676A patent/AU2022201676B2/en active Active
- 2022-09-11 IL IL296350A patent/IL296350B2/en unknown
-
2023
- 2023-03-30 US US18/128,494 patent/US11915713B2/en active Active
- 2023-04-04 JP JP2023060972A patent/JP7418637B2/ja active Active
- 2023-05-16 AU AU2023203057A patent/AU2023203057B2/en active Active
-
2024
- 2024-01-09 JP JP2024000944A patent/JP2024038279A/ja active Pending
- 2024-02-20 US US18/582,289 patent/US20240274142A1/en active Pending
- 2024-07-22 AU AU2024205020A patent/AU2024205020A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2880252T3 (es) | Predicción basada en modelo en un banco de filtros críticamente muestreados | |
RU2820849C2 (ru) | Предсказание на основе модели в наборе фильтров с критической дискретизацией |