ES2537820T3 - Códec de audio sin pérdidas escalable y herramienta de autoría - Google Patents
Códec de audio sin pérdidas escalable y herramienta de autoría Download PDFInfo
- Publication number
- ES2537820T3 ES2537820T3 ES10167970.2T ES10167970T ES2537820T3 ES 2537820 T3 ES2537820 T3 ES 2537820T3 ES 10167970 T ES10167970 T ES 10167970T ES 2537820 T3 ES2537820 T3 ES 2537820T3
- Authority
- ES
- Spain
- Prior art keywords
- stream
- bit
- main
- lsb
- msb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000005236 sound signal Effects 0.000 claims description 11
- 238000012856 packing Methods 0.000 claims 1
- 238000002135 phase contrast microscopy Methods 0.000 description 21
- 230000009467 reduction Effects 0.000 description 17
- 239000002609 medium Substances 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012913 prioritisation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000012782 phase change material Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000006163 transport media Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Un método para codificar un flujo de bits sin pérdidas escalable para muestras de audio de PCM de M-bits para decodificar mediante un decodificador sin pérdidas compatible hacia atrás que comprende: codificar las muestras de audio de PCM de M-bits en un flujo principal de M-bits con pérdidas (408); empaquetar el flujo principal de M-bits con pérdidas en un flujo de bits; decodificar el flujo principal de M-bits en una señal principal reconstruida (414); separar (417) las muestras de audio de PCM de M-bits en porciones de MSB de M-N bits y de LSB de N-bits (418); empaquetar la porción de LSB de N-bits en el flujo de bits; desplazar (415) a la derecha la señal principal reconstruida en N bits para alinearla con la porción de MSB; restar (420) la señal principal reconstruida de la porción de MSB para formar una señal de diferencia de M-N bits (422); codificar sin pérdidas la señal de diferencia; empaquetar la señal de diferencia codificada en el flujo de bits; y empaquetar las achuras de bits de las porciones de LSB en el flujo de bits sin pérdidas.
Description
15
25
35
45
55
65
E10167970
26-05-2015
DESCRIPCIÓN
Códec de audio sin pérdidas escalable y herramienta de autoría
Antecedentes de la invención
Campo de la invención
Esta invención se refiere a códecs de audio sin pérdidas y más específicamente a un códec de audio sin pérdidas escalable.
Descripción de la técnica relacionada
Actualmente se usan numerosos sistemas de codificación de audio con pérdidas de baja tasa de bits en una amplia gama de productos y servicios de reproducción de audio de consumo y profesional. Por ejemplo, el sistema de codificación de audio Dolby AC3 (Dolby digital) es una norma mundial para codificar pistas de sonido de audio estéreo y de 5.1 canales para Laser Disc, DVD vídeo codificado NTSC y ATV, usando tasas de bits de hasta 640 kbit/s. Las normas de codificación de audio de MPEG I y MPEG II se usan ampliamente para codificación de pistas de sonido estéreo y multi-canal para DVD vídeo codificado PAL, difusión de radio digital terrestre en Europa y difusión por Satélite en los Estados Unidos, a tasas de bits de hasta 768 kbit/s. El sistema de codificación de audio de Coherent Acoustics DTS (Sistemas de Cine Digital) se usa frecuentemente para pistas de sonido de audio de 5.1 canales de calidad de estudio para Discos Compactos, DVD vídeo, Difusión por Satélite en Europa y Laser Disc y tasas de bits de hasta 1536 kbit/s.
Un códec mejorado que ofrece ancho de banda de 96 kHz y resolución de 24 bits se desvela en la patente de Estados Unidos Nº 6.226.616 (asignada también a Digital Theater Systems, Inc.). Esa patente emplea una metodología principal y de extensión en la que el algoritmo de codificación de audio tradicional constituye el codificador de audio ‘principal’, y permanece sin alterar. Los datos de audio necesarios para representar frecuencias de audio superiores (en el caso de tasas de muestreo superiores) o resolución de muestreo superior (en el caso de longitudes de palabra más largas), o ambas, se transmite como un flujo de ‘extensión’. Esto permite a los proveedores de contenido de audio incluir un único flujo de bits de audio que es compatible con diferentes tipos de decodificadores residentes en la base del equipo de consumo. El flujo principal se decodificará por los decodificadores más antiguos que ignorarán los datos de extensión, mientras que los decodificadores más nuevos harán uso de tanto los flujos de datos principales y de extensión que proporcionan reproducción de sonido de calidad superior. Sin embargo, este enfoque anterior no proporciona codificación o decodificación verdaderamente sin pérdidas. Aunque el sistema de la patente de Estados Unidos Nº 6.226.216 proporciona reproducción de audio de calidad superior, no proporciona rendimiento “sin pérdidas”.
Recientemente, muchos consumidores han mostrado interés en estos denominados códecs “sin pérdidas”. Los códecs “sin pérdidas” se basan en algoritmos que comprimen datos sin descartar ninguna información. Como tal, no emplean efectos piscoacústicos tales como “enmascaramiento”. Un códec sin pérdidas produce una señal decodificada que es idéntica a la señal fuente (digitalizada). Este rendimiento tiene un coste: tales códecs normalmente requieren más ancho de banda que los códecs con pérdidas, y comprimen los datos a un menor grado.
La ausencia de compresión puede producir un problema cuando se realiza autoría de contenido para un disco, CD, DVD, etc., particularmente en casos de material fuente altamente no-correlacionado o requisitos de ancho de banda de la fuente muy grandes. Las propiedades ópticas de los medios establecen una tasa de bits pico para todo el contenido que no puede superarse. Como se muestra en la Figura 1, un umbral 10 definitivo, por ejemplo, 9,6 Mbps para DVD audio, se establece normalmente para audio de modo que la tasa de bits total no supere el límite del medio.
El audio y otros datos se disponen en el disco para satisfacer las diversas restricciones del medio y para asegurar que todos los datos que se requieren para decodificar una trama dada estarán presentes en la memoria intermedia del decodificador de audio. La memoria intermedia tiene el efecto de suavizar la cabida útil 12 codificada trama a trama (tasa de bits), que puede fluctuar incontroladamente de trama a trama, para crear una cabida útil 14 almacenada en memoria intermedia, es decir el promedio almacenado en memoria intermedia de la cabida útil codificada trama a trama. Si la cabida útil 14 almacenada en memoria intermedia del flujo de bits sin pérdidas para un canal dado supera el umbral en cualquier punto los ficheros de entrada de audio se alteran para reducir su contenido de información. Los ficheros de audio pueden alterarse reduciendo la profundidad de bits de uno o más canales tal como de 24 bits a 22 bits, filtrando un ancho de banda de frecuencia del canal para paso bajo únicamente, o reduciendo el ancho de banda del audio tal como filtrando información por encima de 40 kHz cuando se muestrea a 96 kHz. Los ficheros de entrada de audio alterado se re-codifican de modo que la cabida útil 16 nunca supera el umbral 10. Un ejemplo de este proceso se describe en SurCode MLP -Manual de Usuario págs. 20-23.
Esto es un proceso muy computacional e ineficaz en tiempo. Adicionalmente, aunque el codificador de audio es aún sin pérdidas, la cantidad del contenido de audio que se suministra al usuario se ha reducido a través de todo el flujo
10
15
20
25
30
35
40
45
50
55
60
65
E10167970
26-05-2015
de bits. Además, el proceso de alteración es inexacto, si se elimina demasiada poca información el problema puede existir aún, si se elimina demasiada información los datos de audio se descartan innecesariamente. Además, el proceso de autoría tendrá que adaptarse a las propiedades ópticas específicas del medio y al tamaño de memoria intermedia del decodificador.
El documento US2003/0179938A1 describe una técnica para generar una señal comprimida dividiendo una unidad de dos o más bits en una parte de MSB y una de LSB donde únicamente se comprime la parte de MSB de una manera sin pérdidas, y se combina con los LSB comprimidos para formar la señal comprimida.
Sumario de la invención
En un primer aspecto la presente invención proporciona un método para codificar un flujo de bits sin pérdidas escalable para muestras de audio de PCM de M-bits para decodificar mediante un decodificador sin pérdidas compatible hacia atrás, que comprende: codificar las muestras de audio de PCM de M-bits en un flujo principal de Mbits con pérdidas; empaquetar el flujo principal de M-bits con pérdidas en un flujo de bits; decodificar el flujo principal de M-bits en una señal principal reconstruida; separar las muestras de audio de PCM de M-bits en porciones de MSB de M-N bits y de LSB de N-bits; empaquetar la porción de LSB de N-bits en el flujo de bits; desplazar a la derecha la señal principal reconstruida en N bits para alienarla con la porción de MSB; restar la señal principal reconstruida de la porción de MSB para formar una señal de diferencia de M-N bits; codificar sin pérdidas la señal de diferencia; empaquetar la señal de diferencia codificada en el flujo de bits; y empaquetar las anchuras de bits de las porciones de LSB en el flujo de bits sin pérdidas.
En un segundo aspecto la presente invención proporciona un método para decodificar un flujo de bits para muestras de audio de PCM de M-bits, comprendiendo el flujo de bits un flujo principal, un flujo de extensión de bits menos significativos de N-bits (LSB) y un flujo de extensión de bits más significativos de M-N bits (MSB), comprendiendo el método: desempaquetar el flujo de bits, incluyendo el desempaquetamiento separar el flujo principal del flujo de extensión de MSB y del flujo de extensión de LSB; decodificar el flujo principal en un flujo principal decodificado de PCM de M-bits con pérdidas usando un decodificador principal; decodificar el flujo de extensión de MSB en un flujo de extensión de MSB decodificado sin pérdidas usando un decodificador de MSB sin pérdidas; desplazar a la derecha el flujo principal decodificado en N bits para producir un flujo principal decodificado desplazado a la derecha; combinar el flujo principal decodificado desplazado a la derecha con el flujo de extensión de MSB decodificado para producir una salida sumada; desplazar a la izquierda la salida sumada en N bits para producir una salida sumada desplazada a la izquierda; y combinar la salida sumada desplazada a la izquierda con el flujo de extensión de LSB para formar una reconstrucción sin pérdidas de la señal de audio de PCM de M-bits original.
En un tercer aspecto la presente invención proporciona un codificador configurado para codificar un flujo de bits sin pérdidas escalable para muestras de audio de PCM de M-bits para decodificar mediante un decodificador sin pérdidas compatible hacia atrás, que comprende: un codificador principal configurado para codificar las muestras de audio de PCM de M-bits en un flujo principal de M-bits con pérdidas; un empaquetador configurado para empaquetar el flujo principal de M-bits con pérdidas en un flujo de bits; un decodificador principal configurado para decodificar el flujo principal de M-bits en una señal principal reconstruida; medios para separar las muestras de audio de PCM de M-bits en porciones de MSB de M-N bits y de LSB de N-bits; medios para desplazar a la derecha la señal principal reconstruida en N bits para alinearla con la porción de MSB; un nodo de resta configurado para restar la señal principal reconstruida de la porción de MSB para formar una señal de diferencia de M-N bits; y un codificador sin pérdidas configurado para codificar sin pérdidas la señal de diferencia; en el que el empaquetador está configurado adicionalmente para: empaquetar la porción de LSB de N-bits en el flujo de bits; empaquetar la señal de diferencia codificada en el flujo de bits; y empaquetar las anchuras de bits de las porciones de LSB en el flujo de bits.
En un cuarto aspecto la presente invención proporciona un decodificador configurado para decodificar un flujo de bits para muestras de audio de PCM de M-bits, comprendiendo el flujo de bits un flujo principal, un flujo de extensión de bits menos significativos de N-bits (LSB) y un flujo de extensión de bits más significativos de M-N bits (MSB), comprendiendo el decodificador: un desempaquetador configurado para desempaquetar el flujo de bits y para separar el flujo principal del flujo de extensión de MSB y del flujo de extensión de LSB; un decodificador principal configurado para decodificar el flujo principal en un flujo principal decodificado de PCM de M-bits con pérdidas; un decodificador de MSB configurado para decodificar el flujo de extensión de MSB en un flujo de extensión de MSB decodificado sin pérdidas; medios para desplazar a la derecha el flujo principal decodificado en N bits para producir un flujo principal decodificado desplazado a la derecha; un sumador configurado para combinar el flujo principal decodificado desplazado a la derecha con el flujo de extensión de MSB decodificado para producir una salida sumada; medios para desplazar a la izquierda la salida sumada en N bits para producir una salida sumada desplazada a la izquierda; medios para combinar la salida sumada desplazada a la izquierda con el flujo de extensión de MSB para formar una reconstrucción sin pérdidas de la señal de audio de PCM de M-bits original.
Estas y otras características y ventajas de la invención serán evidentes para los expertos en la materia a partir de la siguiente descripción detallada de realizaciones preferidas, tomadas junto con los dibujos adjuntos, en los que:
15
25
35
45
55
65
E10167970
26-05-2015
Breve descripción de los dibujos
La Figura 1, como se ha descrito anteriormente, es una representación de tasa de bits y cabida útil para un canal de audio sin pérdidas frente al tiempo; La Figura 2 es un diagrama de bloques de un códec de audio sin pérdidas y herramienta de autoría útil para entender la presente invención; La Figura 3 es un diagrama de flujo simplificado del codificador de audio; La Figura 4 es un diagrama de una división de MSB/LSB para una muestra en el flujo de bits sin pérdidas; La Figura 5 es un diagrama de flujo simplificado de la herramienta de autoría; La Figura 6 es un diagrama de una división de MSB/LSB para una muestra en los flujos de bits de autoría; La Figura 7 es un diagrama de un flujo de bits que incluye las porciones de MSB y de LSB e información de encabezamiento; La Figura 8 es una representación de cabida útil para los flujos de bits sin pérdidas y de autoría; La Figura 9 es un diagrama de bloques sencillo de un decodificador de audio; La Figura 10 es un diagrama de flujo del proceso de decodificación; La Figura 11 es un diagrama de un flujo de bits ensamblado; Las Figuras 12-15 ilustran el formato del flujo de bits, codificación, autoría y decodificación; y Las Figuras 16a y 16b son diagramas de bloques del codificador y decodificador para un códec sin pérdidas escalable de acuerdo con realizaciones de la invención que es compatible hacia atrás con un codificador principal con pérdidas.
Descripción detallada de la invención
Lo siguiente analiza un códec de audio sin pérdidas y herramienta de autoría para descartar de manera selectiva bits para satisfacer las restricciones de tasa de bits del medio, canal, memoria intermedia del decodificador o dispositivo de reproducción sin tener que filtrar los ficheros de entrada de audio, recodificar o alterar de otra manera el flujo de bits sin pérdidas.
Como se muestra en la Figura 2, un codificador de audio 20 codifica sin pérdidas los datos de audio en una secuencia de ventanas de análisis y empaqueta los datos de codificados e información de encabezamiento en un flujo de bits sin pérdidas escalable 22 que se almacena adecuadamente en un archivo 24. Las ventanas de análisis son normalmente tramas de datos codificados pero como se usa en el presente documento las ventanas podrían abarcar una pluralidad de tramas. Adicionalmente, la ventana de análisis puede refinarse en uno o más segmentos de datos dentro de una trama, uno o más conjuntos de canal dentro de un segmento, uno o más canales en cada conjunto de canal y finalmente una o más extensiones de frecuencia dentro de un canal. Las decisiones de escalado para el flujo de bits pueden ser muy imprecisas (múltiples tramas) o más refinadas (por extensión de frecuencia por conjunto de canal por trama).
Una herramienta de autoría 30 se usa para disponer los datos codificados en un disco (medio) de acuerdo con la capacidad de la memoria intermedia del decodificador. La distribución inicial corresponde a la cabida útil almacenada en memoria intermedia. La herramienta compara la cabida útil almacenada en memoria intermedia a la cabida útil permitida para cada ventana de análisis para determinar si la distribución requiere alguna modificación. La cabida útil permitida es normalmente una función de la tasa de bits pico soportada mediante un medio (disco de DVD) o canal de transmisión. La cabida útil permitida puede fijarse o permitirse que varíe si es parte de una optimización global. La herramienta de autoría escala de manera selectiva los datos de audio codificados sin pérdidas en las ventanas que no se ajustan para reducir la cabida útil codificada, por lo tanto la cabida útil almacenada en memoria intermedia. El proceso de escalado introduce alguna pérdida en los datos codificados pero está confinada a únicamente las ventanas que no se ajustan y es adecuada lo suficiente para proporcionar cada ventana en ajuste. La herramienta de autoría empaqueta los datos sin pérdidas y con pérdidas y cualquier información de encabezamiento modificada en un flujo de bits 32. El flujo de bits 32 se almacena normalmente en un medio 34 o se transmite a través de un canal de transmisión 36 para reproducción posterior mediante un decodificador de audio 38, que genera un flujo de audio de PCM 40 (modulado por codificación de pulsos) de canal único o múltiple.
En una realización ejemplar como se muestra en las Figuras 3 y 4, el codificador de audio 20 divide cada muestra de audio en una porción de MSB 42 y en una porción de LSB 44 (etapa 46). El punto límite 48 que separa los datos de audio se calcula asignando en primer lugar una anchura de bits de MSB mínima 50 (Mín MSB) que establece un mínimo nivel de codificación para cada muestra de audio. Por ejemplo, si la anchura de bits 52 de los datos de audio es 20 bits Mín MSB puede ser 16 bits. Se deduce que la máxima anchura de bits de LSB 54 (Máx LSB) es la Anchura de Bits 52 menos Mín MSB 50. El codificador calcula una función de coste, por ejemplo las normas L2 o L∞, para los datos de audio en la ventana de análisis. Si la función de coste supera un umbral, el codificador calcula una anchura de bits de LSB 56 de al menos un bit y no más de Máx LSB. Si la función de coste no supera el umbral, la anchura de bits de LSB 56 se establece a cero bits. En general, la división MSB/LSB se hace para cada ventana de análisis. Como se ha descrito anteriormente, esta es normalmente una o más tramas. La división puede refinarse adicionalmente para cada segmento de dato, conjunto de canal, canal o extensión de frecuencia, por ejemplo. Más refinamiento mejora el rendimiento de codificación a costa de cálculos adicionales y más tara en el flujo de bits.
15
25
35
45
55
65
E10167970
26-05-2015
El codificador codifica sin pérdidas las porciones de MSB (etapa 58) y las porciones de LSB (etapa 60) con diferentes algoritmos sin pérdidas. Los datos de audio en las porciones de MSB normalmente están altamente correlacionados tanto temporalmente en un canal cualquiera como entre canales. Por lo tanto, el algoritmo sin pérdidas emplea adecuadamente técnicas de codificación por entropía, predicción fija, predicción adaptiva y descorrelación de canal unido para codificar eficazmente las porciones de MSB. Un codificador sin pérdidas adecuado se describe en la solicitud en trámite junto con la presente “Lossless Multi-Channel Audio Codec” presentada el 8 de agosto de 2004, documento US 2004 0911067. Otros codificadores sin pérdidas adecuados incluyen MLP (DVD Audio), Monkey’s audio (aplicaciones informáticas), Apple lossless, Windows Media Pro lossless, AudioPak, DVD, LTAC, MUSICcompress, OggSquish, Philips, Shorten, Sonarc y WA. Una revisión de muchos de estos códecs se proporciona por Mat Hans, Ronald Schafer “Lossless Compression of Digital Audio” Hewlett Packard, 1999.
A la inversa, los datos de audio en la porción de LSB están altamente descorrelacionados, más cercanos al ruido. Por lo tanto las técnicas de compresión sofisticadas son enormemente ineficaces y consumen recursos de procesamiento. Adicionalmente, para realizar autoría eficazmente al flujo de bits, es altamente deseable un código sin pérdidas muy sencillo que use predicción simplista de muy bajo orden seguido por un codificador de entropía sencillo. De hecho, el algoritmo actualmente preferido es codificar la porción de LSB replicando simplemente los bits LSB como están. Esto permite que se descarten los LSB individuales sin tener que decodificar la porción de LSB.
El codificador empaqueta por separado las porciones de MSB y de LSB codificadas en un flujo de bits sin pérdidas escalable 62 de modo que puedan desempaquetarse y decodificarse fácilmente (etapa 64). Además de la información de encabezamiento normal, el codificador empaqueta la anchura de bits de 56 LSB en el encabezamiento (etapa 66). El encabezamiento incluye también un espacio para una reducción de anchura de bits de LSB 68, que no se usa durante la codificación. Este proceso se repite para cada ventana de análisis (tramas, trama, segmento, conjunto de canal o extensión de frecuencia) para las que se recalcula la división.
Como se muestra en la Figuras 5, 6 y 7, la herramienta de autoría 30 permite a un usuario hacer una primera pasada al disponer los flujos de bits de audio y de vídeo en el medio de acuerdo con la capacidad de la memoria intermedia del decodificador (etapa 70) para satisfacer la restricción de tasa de bits pico del medio. La herramienta de autoría empieza el bucle de la ventana de análisis (etapa 71), calcula una cabida útil almacenada en memoria intermedia (etapa 72) y compara la cabida útil almacenada en memoria intermedia a la cabida útil permitida para la ventana de análisis 73 para determinar si el flujo de bits sin pérdidas requiere algún escalado para satisfacer las restricciones (etapa 74). La cabida útil permitida se determina mediante la capacidad de memoria intermedia del decodificador de audio y la tasa de bits pico del medio o del canal. La cabida útil codificada se determina mediante la anchura de bits de los datos de audio y el número de muestras en todos los segmentos de datos 75 más el encabezamiento 76. Si no se supera la cabida útil permitida, las porciones de MSB y de LSB codificadas sin pérdidas se empaquetan en áreas 77 y 78 de MSB y de LSB respectivas de los segmentos de datos 75 en un flujo de bits modificado 79 (etapa 80). Si la cabida útil permitida nunca se supera, el flujo de bits sin pérdidas se transfiere directamente al medio o al canal.
Si la cabida útil almacenada en memoria intermedia supera la cabida útil permitida, la herramienta de autoría empaqueta los encabezamientos y porciones de MSB codificadas sin pérdidas 42 en el flujo de bits modificado 79 (etapa 81). Basándose en una regla de priorización, la herramienta de autoría calcula una reducción de anchura de bits de LSB 68 que reducirá la cabida útil codificada, por lo tanto la cabida útil almacenada en memoria intermedia a como máximo la cabida útil permitida (etapa 82). Suponiendo que fuera muy fácil de replicar las porciones de los LSB durante la codificación sin pérdidas, la herramienta de autoría escala las porciones de LSB (etapa 84) añadiendo preferentemente vibración a cada porción de LSB para vibrar el siguiente bit de LSB pasada la reducción de anchura de bits de LSB, y a continuación desplazar la porción de LSB a la derecha mediante la reducción de anchura de bits de LSB para descartar bits. Si las porciones de los LSB estuvieran codificadas, tendrían que decodificarse, realizarse vibración, desplazarse y recodificarse. La herramienta empaqueta las porciones de LSB codificadas ahora con pérdidas para las ventanas ahora ajustadas en el flujo de bits con las anchuras de bits de LSB modificadas 56 y la reducción de anchura de bits de LSB 68 y un parámetro de vibración (etapa 86).
Como se muestra en la Figura 6, la porción de LSB 44 se ha escalado desde una anchura de bits de 3 a una anchura de bits de LSB modificada 56 de 1 bit. Los dos LSB descartados 88 coinciden con la reducción de anchura de bits de LSB 68 de 2 bits. En la realización ejemplar, la anchura de bits de LSB modificados 56 y la reducción de anchura de bits de LSB 68 se transmiten en el encabezamiento al decodificador. Como alternativa, cualquiera de estas podría omitirse y transmitirse la anchura de bits de LSB original. Uno cualquiera de los parámetros se determina únicamente mediante los otros dos.
Los beneficios del codificador y herramienta de autoría sin pérdidas escalable se ilustran mejor disponiendo la cabida útil almacenada en memoria intermedia 90 para el flujo de bits de autoría en la Figura 1 como se hace en la Figura 8. Usando el enfoque conocido de alterar los ficheros de audio para eliminar contenido y a continuación recodificar de manera sencilla con el codificador sin pérdidas, la cabida útil almacenada en memoria intermedia 14 se desplaza eficazmente hacia abajo a una cabida útil almacenada en memoria intermedia 16 que es menos que la
15
25
35
45
55
65
E10167970
26-05-2015
cabida útil permitida 10. Para asegurar que la cabida útil pico es menos que la cabida útil permitida, una considerable cantidad de contenido se sacrifica a través de todo el flujo de bits. Por comparación, la cabida útil almacenada en memoria intermedia 90 replica la cabida útil almacenada en memoria intermedia 14 sin pérdidas original excepto en aquellas pocas ventanas (tramas) donde la cabida útil almacenada en memoria intermedia supera la cabida útil permitida. En estas áreas, la cabida útil codificada, por lo tanto la cabida útil almacenada en memoria intermedia se reduce lo suficiente para satisfacer la restricción y preferentemente no más. Como resultado, la capacidad de cabida útil se utiliza más eficazmente y se suministra más contenido al usuario final sin tener que alterar los ficheros de audio original o recodificar.
Como se muestra en la Figuras 9, 10 y 11, el decodificador de audio 38 recibe un flujo de bits de autoría mediante un disco 100. El flujo de bits se separa en una secuencia de ventanas de análisis, incluyendo cada una información de encabezamiento y datos de audio codificados. La mayoría de las ventanas incluyen porciones de LSB y de MSB codificadas sin pérdidas, las anchuras de bits de LSB originales y las reducciones de anchura de bits de LSB de cero. Para satisfacer las restricciones de cabida útil establecidas por la tasa de bits pico del disco 100 y la capacidad de la memoria intermedia 102, algunas de las ventanas incluyen las porciones de MSB codificadas sin pérdidas y las porciones de LSB con pérdidas, las anchuras de bits modificadas de las porciones de LSB con pérdidas, y las reducciones de anchura de bits de LSB.
Un controlador 104 lee los datos de audio codificados desde el flujo de bits en el disco 100. Un analizador 106 separa los datos de audio del vídeo y los flujos los datos de audio a la memoria intermedia 102 de audio que no se desborda por motivo de la autoría. La memoria intermedia a su vez proporciona suficientes datos a un chip de DSP 108 para decodificar los datos de audio para la ventana de análisis actual. El chip de DSP extrae la información de encabezamiento (etapa 110) que incluye las anchuras de bits de LSB modificadas 56, la reducción de anchura de bits de LSB 68, un número de LSB vacíos 112 desde una anchura de palabra original y extrae, decodifica y ensambla las porciones de MSB de los datos de audio (etapa 114). Si se descartaran todos los LSB durante la autoría o la anchura de bits de LSB original fuera 0 (etapa 115), el chip de DSP traduce las muestras de MSB a la palabra de anchura de bits original y emite los datos de PCM (etapa 116). De otra manera, el chip de DSP decodifica las porciones de LSB sin pérdidas y con pérdidas (etapa 118), ensambla las muestras de MSB y de LSB (etapa 120), y, usando la información de encabezamiento, traduce las muestras ensambladas a la palabra de anchura de bits original (etapa 122).
Códec de audio multi-canal y herramienta de autoría
Se ilustra una realización ejemplar de un códec de audio y herramienta de autoría para un flujo de bits de audio codificado presentado como una secuencia de tramas en las Figuras 12-15. Como se muestra en la Figura 12, cada trama 200 comprende un encabezamiento 202 para almacenar información común 204 y sub-encabezamientos 206 para cada conjunto de canal que almacena las anchuras de bits de LSB y las reducciones de anchura de bits de LSB, y uno o más segmentos de datos 208. Cada segmento de datos comprende uno o más conjuntos de canales 210 comprendiendo cada conjunto de canal uno o más canales de audio 212. Cada canal comprende una o más extensiones 214 de frecuencia incluyendo al menos la extensión de frecuencia más baja las porciones 216, 218 de MSB y de LSB codificadas. El flujo de bits tiene una división de MSB y de LSB distinta para cada canal en cada conjunto de canal en cada trama. Las extensiones de frecuencia superiores pueden dividirse de manera similar o codificarse por completo como las porciones de LSB.
El flujo de bits sin pérdidas escalable a partir del cual este flujo de bits se realiza autoría se codifica como se ilustra en las Figuras 13a y 13b. El codificador establece la anchura de bits de la palara original (24 bits), el Mín MSB (16 bits), un umbral (Th) para la norma L2 cuadrada y un factor de escala (SF) para esa norma (etapa 220). El codificador empieza el bucle de trama (etapa 222) y el bucle de conjunto de canal (etapa 224). Puesto que la anchura real de los datos de audio (20 bits) puede ser menos que la anchura de la palabra original, el codificador calcula el número de LSB vacíos (24-20=4) (mín número de “0” LSB en cualquier muestra de PCM en la trama actual) y desplaza a la derecha cada muestra por esa cantidad (etapa 226). La anchura de bits de los datos es la anchura de bits original (24) menos el número de LSB vacíos (4) (etapa 228). El codificador a continuación determina el máximo número de bits (Máx LSB) que se permitirá codificar como parte de la porción de LSB como Máx(Anchura de Bit -Mín MSB, 0) (etapa 230). En el ejemplo actual, Máx LSB = 20 -16 = 4 bits.
Para determinar el punto límite para dividir los datos de audio en porciones de MSB y de LSB, el codificador empieza el índice de bucle de canal (etapa 232) y calcula la norma L∞ como la máxima amplitud absoluta de los datos de audio en el canal y la norma L2 cuadrada como la suma de las amplitudes cuadradas de los datos de audio en la ventana de análisis (etapa 234). El codificador establece un parámetro Máx Amp como el mínimo entero mayor que
o igual a log2(L∞) (etapa 236) e inicializa la anchura de bits de LSB a cero (etapa 237). Si Máx Amp es mayor que Mín MSB (etapa 238), la anchura de bits de LSB se establece igual a la diferencia de Máx Amp y Mín MSB (etapa 240). De otra manera, si la norma L2 supera el Umbral (pequeña amplitud pero considerable varianza) (etapa 242), la anchura de bits de LSB se establece igual a Máx Amp dividida por el Factor de Escala, normalmente > 1 (etapa 244). Si ambas pruebas son falsas, la anchura de bits de LSB permanece en cero. En otras palabras, para mantener la mínima calidad de codificación, por ejemplo Mín MSB, no están disponibles los LSB. El codificador recorta la anchura de bits de LSB a valor de Máx LSB (etapa 246) y empaqueta el valor en el conjunto de canal de sub
15
25
35
45
55
65
E10167970
26-05-2015
encabezamiento (etapa 248). Una vez que se ha determinado el punto límite, es decir la anchura de bits de LSB, el codificador divide los datos de audio en las porciones de MSB y de LSB (etapa 250). La porción de MSB se codifica sin pérdidas usando un algoritmo adecuado (etapa 252) y se empaqueta en la extensión de frecuencia más baja en el canal particular en el conjunto de canal de la trama actual (etapa 254). La porción de LSB se codifica sin pérdidas usando un algoritmo adecuado, por ejemplo replicación de bits sencilla (etapa 256) y se empaqueta (etapa 258).
Este proceso se repite para cada canal (etapa 260) para cada conjunto de canal (etapa 262) para cada trama (etapa 264) en el flujo de bits. Adicionalmente, el mismo procedimiento puede repetirse para extensiones de frecuencia superiores. Sin embargo, puesto que estas extensiones contienen mucha menos información, Mín MSB puede establecerse a 0 de modo que todo se codifica como LSB.
Una vez que se codifica el flujo de bits sin pérdidas escalable para cierto contenido de audio, una herramienta de autoría crea el mejor flujo de bits que pueda que satisfaga las restricciones de tasa de bits pico del medio de transporte y la capacidad de la memoria intermedia en el decodificador de audio. Como se muestra en la Figura 14, un usuario intenta disponer el flujo de bits sin pérdidas 268 en el medio para ajustarse a las restricciones de tasa de bits y capacidad de memoria intermedia (etapa 270). Si es satisfactorio, el flujo de bits sin pérdidas 268 se escribe como el flujo de bits de autoría 272 y se almacena en el medio. De otra manera la herramienta de autoría empieza el bucle de trama (etapa 274) y compara la cabida útil almacenada en memoria intermedia (cabida útil de trama a trama promedio almacenada en memoria intermedia) a la cabida útil permitida (tasa de bits pico) (etapa 276). Si la trama actual se ajusta a la cabida útil permitida, las porciones de MSB y de LSB codificadas sin pérdidas se extraen desde el flujo de bits sin pérdidas 268 y se escriben al flujo de bits de autoría 272 y la trama se incrementa.
Si la herramienta de autoría encuentra una trama que no se ajusta en la que la cabida útil almacenada en memoria intermedia supera la cabida útil permitida, la herramienta calcula la máxima reducción que puede conseguirse descartando todas las porciones de LSB en el conjunto de canal y la resta de la cabida útil almacenada en memoria intermedia (etapa 278). Si la mínima cabida útil es aún demasiado grande la herramienta presenta un mensaje de error que incluye la cantidad de datos excesiva y el número de trama (etapa 280). En este caso cualquiera de Mín MSB deberá reducirse o los ficheros de audio originales deberán alterarse y re-codificarse.
De otra manera, la herramienta de autoría calcula una reducción de anchura de bits de LSB para cada canal en la trama actual basándose en una regla de priorización de canal especificada (etapa 282) de manera que:
Reducción de Anchura de Bits[n de C] < anchura de bits de LSB [n de C] para n de C = 0, ... Todos los canales 1, y Cabida útil almacenada en memoria intermedia [n de T] -Σ (Reducción de Anchura de Bits [n de C} * Número de Muestras en Trama) < Cabida Útil Permitida [n d T]
La reducción de las anchuras de bits de LSB mediante estos valores asegurará que la trama se ajuste a la cabida útil permitida. Esto se hace introduciéndose una mínima cantidad de pérdida en las tramas que no se ajustan y sin afectar de otra manera a las tramas que se ajustan sin pérdidas.
La herramienta de autoría ajusta las porciones de LSB codificadas (suponiendo codificación de replicación de bits) para cada canal añadiendo vibración a cada porción de LSB en la trama para realizar vibración en el siguiente bit y a continuación desplazar a la derecha mediante la reducción de anchura de bits de LSB (etapa 284). Añadir vibración no es necesario pero es altamente deseable para descorrelacionar los errores de cuantificación y para realizar también que se descorrelacionen desde la señal de audio original. La herramienta empaqueta las porciones de LSB escaladas ahora con pérdidas (etapa 286), las anchuras de bits de LSB modificadas y las reducciones de anchura de bits de LSB para cada canal (etapa 288) y los puntos de navegación de flujo modificado (etapa 290) en el flujo de bits de autoría. Si se añade vibración, se empaqueta un parámetro de vibración en el flujo de bits. Este proceso se repite a continuación para cada trama (etapa 292) antes de terminar (etapa 294).
Como se muestra en la Figuras 15a y 15b, un decodificador adecuado sincroniza el flujo de bits (etapa 300)y empieza un bucle de trama (etapa 302). El decodificador extrae el encabezamiento de trama en formación incluyendo el número de segmentos, número de muestras en un segmento, número de conjuntos de canales, etc. (etapa 304) y extrae la información de encabezamiento de conjunto de canal incluyendo los canales del número en el conjunto, número de LSB vacíos, anchura de bits de LSB, reducción de anchura de bits de LSB para cada conjunto de canal (etapa 306) y los almacena para cada conjunto de canal (etapa 307).
Una vez que la información de encabezamiento está disponible, el decodificador empieza el bucle de segmento (etapa 308) y el bucle de conjunto de canal (etapa 310) para la trama actual. El decodificador desempaqueta y decodifica las porciones de MSB (etapa 312) y almacena las muestras de PCM (etapa 314). El decodificador a continuación empieza el bucle de canal en el conjunto de canal actual (etapa 316) y continúa con los datos de LSB codificados.
Si la anchura de bits de LSB modificada no supera el cero (etapa 318), el decodificador empieza el bucle de muestra
15
25
35
45
55
65
E10167970
26-05-2015
en el segmento actual (etapa 320), traduce las muestras de PCM para la porción de MSB a la anchura de palabra original (etapa 322) y repite hasta que termina el bucle de muestra (etapa 324).
De otra manera, el decodificador empieza el bucle de muestra en el segmento actual (etapa 326), desempaqueta y decodifica las porciones de LSB (etapa 328) y ensambla muestras de PCM anexando la porción de LSB a la porción de MSB (etapa 330). El decodificador a continuación traduce la muestra de PCM a la anchura de palabra original usando el LSB vacío, achura de bits de LSB modificada e información de reducción de anchura de bits de LSB desde el encabezamiento (etapa 332) y repite las etapas hasta que termina el bucle de muestra (etapa 334). Para reconstruir toda la secuencia de audio, el decodificador repite estas etapas para cada canal (etapa 336) en cada conjunto de canal (etapa 338) en cada trama (etapa 340).
Códec de audio escalable compatible hacia atrás
Las propiedades de escalabilidad pueden incorporarse en un codificador, formato de flujo de bits y decodificador sin pérdidas compatible hacia atrás. Un flujo de código principal “con pérdidas” se empaqueta conjuntamente las porciones de MSB y de LSB codificadas sin pérdidas de los datos de audio para transmisión (o grabación). Tras decodificar en un decodificador con características sin pérdidas extendidas, los flujos de MSB con pérdidas y sin pérdidas se combinan y el flujo de LSB se anexa para construir una señal reconstruida sin pérdidas. En un decodificador de la generación anterior, los flujos de extensión de MSB y de LSB sin pérdidas se ignoran, y el flujo “con pérdidas” principal se decodifica para proporcionar una señal de audio multicanal de alta calidad con la característica de ancho de banda y relación de señal a ruido del flujo principal.
La Figura 16a muestra una vista a nivel de sistema de un codificador compatible hacia atrás escalable 400. Una señal de audio digitalizada, muestras de audio de PCM de M-bits adecuadas, se proporciona en la entrada 402. Preferentemente, la señal de audio digitalizada tiene una tasa de muestreo y ancho de banda que supera la de un codificador principal 404 con pérdidas modificado. En una realización, la tasa de muestreo de la señal de audio digitalizada es 96 kHz (que corresponde a un ancho de banda de 48 kHz para el audio muestreado). Debería entenderse también que el audio de entrada puede ser, y preferentemente es, una señal multicanal en la que cada canal se muestrea a 96 kHz. El análisis que sigue se concentrará en el procesamiento de un único canal, pero la extensión a múltiples canales es fácil. La señal de entrada se duplica en el nodo 406 y se maneja en ramas paralelas. En una primera rama de la trayectoria de señal, un codificador de banda ancha con pérdidas modificado 404 codifica la señal. El codificador principal modificado 404, que se describe en detalle a continuación, produce un flujo de datos codificados (flujo principal 408) que se transmite a un empaquetador o multiplexor 410. El flujo principal 408 se comunica también a un decodificador de flujo principal modificado 412, que produce como salida una señal principal reconstruida modificada 414, que se desplaza a la derecha en N bits (>>N 415) para descartar sus N lsb.
Mientras tanto, la señal de audio digitalizada 402 de entrada en la trayectoria paralela experimenta un retardo de compensación 416 sustancialmente igual al retardo introducido en el flujo de audio reconstruido (mediante codificación modificada y decodificadores modificados), para producir un flujo de audio digitalizado retardado. El flujo de audio se divide en porciones 417 de MSB y de LSB como se ha descrito anteriormente. La porción de LSB de Nbits 418 se transmite al empaquetador 410. La señal principal reconstruida de M-N bits 414, que se desplaza para alienar con la porción de MSB, se resta de la porción de MSB del flujo de audio digitalizado retardado 419 en el nodo de resta 420. (Obsérvese que un nodo de suma podría sustituirse por un nodo de resta, cambiando la polaridad de una de las entradas. Por lo tanto, sumar y restar pueden ser sustancialmente equivalentes para este fin).
El nodo de resta 420 produce una señal de diferencia 422 que representa la diferencia entre los M-N MSB de la señal original y la señal principal reconstruida. Para conseguir codificación “sin pérdidas” de manera pura, es necesario codificar y transmitir la señal de diferencia con técnicas de codificación sin pérdidas. Por consiguiente, la señal de diferencia de M-N bits 422 se codifica con un codificador sin pérdidas 424, y la señal de M-N bits codificada 426 se empaqueta o multiplexa con el flujo principal 408 en el empaquetador 410 para producir un flujo de bits de salida multiplexado 428. Obsérvese que la codificación sin pérdidas produce los flujos 418 y 426 sin pérdidas codificados que están a una tasa de bits variable, para adaptarse a las necesidades del codificador sin pérdidas. El flujo empaquetado opcionalmente se somete a continuación a capas adicionales de codificación incluyendo codificación de canal, y a continuación se transmite o graba. Obsérvese que para fines de esta divulgación, grabar puede considerarse como la transmisión a través de un canal.
El codificador principal 404 se describe como “modificado” puesto que en una realización que puede manejar ancho de banda extendido el codificador principal requeriría modificación. Un banco de filtro de análisis de 64 bandas en el codificador descarta la mitad de sus datos de salida y codifica únicamente las 32 bandas de frecuencia inferiores. Esta información descartada no es de interés para decodificadores heredados que no podrían reconstruir la mitad superior del espectro de señal en cualquier caso. La información restante se codifica como para el codificador sin modificar para formar un flujo de salida principal compatible hacia atrás. Sin embargo, en otra realización que opera en o por debajo de 48 kHz de tasa de muestreo, el codificador principal podría ser una versión sustancialmente sin modificar de un codificador principal anterior. De manera similar, para la operación anterior de la tasa de muestreo de los decodificadores heredados, el decodificador principal 412 podría necesitar modificarse como se describe a
10
15
20
25
30
35
E10167970
26-05-2015
continuación. Para la operación a tasa de muestreo convencional (por ejemplo, 48 kHz e inferior) el decodificador principal podría ser una versión sustancialmente sin modificar de un decodificador principal anterior o equivalente. En algunas realizaciones la elección de la tasa de muestreo podría realizarse en el momento de la codificación, y reconfigurarse los módulos de codificación y decodificación en ese momento mediante software según se desee.
Como se muestra en la Figura 16b, el método para decodificar es complementario al método para codificar. Un decodificador de la generación anterior puede decodificar la señal de audio principal con pérdidas decodificando simplemente el flujo principal 408 y descartando las porciones de MSB y de LSB sin pérdidas. La calidad del audio producido en un decodificador de la generación anterior de este tipo será extremadamente buena, equivalente al audio de la generación anterior, y sin pérdidas.
Haciendo referencia ahora a la Figura 16b, el flujo de bits entrante (recuperado desde un canal de transmisión o un medio de grabación) se desempaqueta en primer lugar en el desempaquetador 430, que separa el flujo principal 408 desde los flujos 418 (LSB) y 426 (MSB) de datos de extensión sin pérdidas. El flujo principal se decodifica mediante un decodificador principal modificado 432, que reconstruye el flujo principal poniendo a cero las muestras de subbandas no transmitidas para las 32 bandas superiores en una síntesis de 64 bandas durante la reconstrucción. (Obsérvese, si se realizó una codificación principal convencional, la puesta a cero es innecesaria). El campo de extensión de MSB se decodifica mediante un decodificador de MSB sin pérdidas 434. Puesto que los datos de LSB se codificaron sin pérdidas usando replicación de bits no es necesaria la decodificación.
Después de decodificar las extensiones de MSB principal y sin pérdidas en paralelo, con los datos reconstruidos principales interpolados se desplazan a la derecha por N bits 436 y se combinan con la porción sin pérdidas de los datos añadiendo en el sumador 438. La salida sumada se desplaza a la izquierda en N bits 440 para formar la porción de MSB sin pérdidas 422 y se ensambla con la porción de LSB de N-bits 444 para producir una palabra de datos de PCM 446 que es una representación reconstruida sin pérdidas de la señal de audio original 402.
Puesto que la señal se codificó restando una reconstrucción con pérdidas decodificada de la señal de entrada exacta, la señal reconstruida representa una reconstrucción exacta de los datos de audio original. Por lo tanto, paradójicamente, la combinación de un códec con pérdidas y una señal codificada sin pérdidas realmente realiza un códec sin pérdidas puro, pero con la ventaja adicional que los datos codificados permanecen compatibles con los decodificadores sin pérdidas de la generación anterior. Adicionalmente, el flujo de bits puede escalarse descartando de manera selectiva los LSB para hacerlos ajustarse a las restricciones de tasa de bits del medio y capacidad de memoria intermedia.
Aunque se han mostrado y descrito varias realizaciones ilustrativas de la invención, a los expertos en la materia se les ocurrirán numerosas variaciones y realizaciones alternativas. Tales variaciones y realizaciones alternativas están contempladas, y pueden realizarse sin alejarse del alcance de la invención como se define en las reivindicaciones adjuntas.
Claims (7)
- 5101520253035404550556065REIVINDICACIONES
- 1.
- Un método para codificar un flujo de bits sin pérdidas escalable para muestras de audio de PCM de M-bits para decodificar mediante un decodificador sin pérdidas compatible hacia atrás que comprende:
codificar las muestras de audio de PCM de M-bits en un flujo principal de M-bits con pérdidas (408); empaquetar el flujo principal de M-bits con pérdidas en un flujo de bits; decodificar el flujo principal de M-bits en una señal principal reconstruida (414); separar (417) las muestras de audio de PCM de M-bits en porciones de MSB de M-N bits y de LSB de N-bits (418); empaquetar la porción de LSB de N-bits en el flujo de bits; desplazar (415) a la derecha la señal principal reconstruida en N bits para alinearla con la porción de MSB; restar (420) la señal principal reconstruida de la porción de MSB para formar una señal de diferencia de M-N bits (422); codificar sin pérdidas la señal de diferencia; empaquetar la señal de diferencia codificada en el flujo de bits; y empaquetar las achuras de bits de las porciones de LSB en el flujo de bits sin pérdidas. -
- 2.
- El método de la reivindicación 1, que además comprende añadir vibración a la señal principal reconstruida antes de desplazar a la derecha y empaquetar un parámetro de vibración en el flujo de bits.
-
- 3.
- Un método para decodificar un flujo de bits para muestras de audio de PCM de M-bits, comprendiendo el flujo de bits un flujo principal (408), un flujo de extensión de bits menos significativos (418) (LSB) de N-bits y un flujo de extensión de bits más significativos (426) (MSB) de M-N bits, comprendiendo el método:
desempaquetar el flujo de bits, incluyendo el desempaquetamiento separar el flujo principal desde el flujo de extensión de MSB y del flujo de extensión de LSB; decodificar el flujo principal en un flujo principal decodificado de PCM de M-bits con pérdidas usando un decodificador principal (432); decodificar el flujo de extensión de MSB en un flujo de extensión de MSB decodificado sin pérdidas usando un decodificador de (MSB) sin pérdidas (434); desplazar (436) a la derecha el flujo principal decodificado en N bits para producir un flujo principal desplazado a la derecha; combinar (438) el flujo principal decodificado desplazado a la derecha con el flujo de extensión de MSB decodificado para producir una salida sumada; desplazar (440) a la izquierda la salida sumada en N bits para producir una salida sumada desplazada a la izquierda; y combinar (446) la salida sumada desplazada a la izquierda con el flujo de extensión de LSB para formar una reconstrucción sin pérdidas de la señal de audio de PCM de M-bits original. -
- 4.
- El método de la reivindicación 3, en el que el flujo principal (408) incluye 64 bandas, y en el que la etapa de decodificar el flujo principal incluye:
poner a cero las muestras de sub-bandas para unas 32 bandas superiores del flujo principal de 64 bandas. -
- 5.
- Un codificador (400) configurado para codificar un flujo de bits sin pérdidas escalable para muestras de audio de PCM de M-bits para decodificar mediante un decodificador sin pérdidas compatible hacia atrás, que comprende:
un codificador principal (404) configurado para codificar las muestras de audio de PCM de M-bits en un flujo principal de M-bits con pérdidas (408); un empaquetador (410) configurado para empaquetar el flujo principal de M-bits con pérdidas en un flujo de bits; un decodificador principal (412) configurado para decodificar el flujo principal de M-bits en una señal principal reconstruida (414); medios para separar las muestras de audio de PCM de M-bits en porciones de MSB de M-N bits y de LSB de Nbits (418); medios para desplazar a la derecha la señal principal reconstruida en N bits para alinearla con la porción de MSB; un nodo de resta (420) configurado para restar la señal principal reconstruida de la porción de MSB para formar una señal de diferencia de M-N bits (422); y un codificador sin pérdidas (422) configurado para codificar sin pérdidas la señal de diferencia; en donde el empaquetador está además configurado para:empaquetar la porción de LSB de N-bits en el flujo de bits; empaquetar la señal de diferencia codificada en el flujo de bits; y empaquetar las anchuras de bits de las porciones de LSB en el flujo de bits.10 - 6. El codificador de la reivindicación 5, en donde el codificador además comprende medios para añadir vibración a la señal principal reconstruida antes de que la señal principal reconstruida se desplace a la derecha, y en donde el empaquetador está además configurado para empaquetar un parámetro de vibración en el flujo de bits.5 7. Un decodificador configurado para decodificar un flujo de bits para muestras de audio de PCM de M-bits, comprendiendo el flujo de bits un flujo principal (408), un flujo de extensión de bits menos significativos (418) (LSB) de N-bits y un flujo de extensión de bits más significativos (426) (MSB) de M-N bits, comprendiendo el decodificador:un desempaquetador (430) configurado para desempaquetar el flujo de bits y separar el flujo principal desde el10 flujo de extensión de MSB y del flujo de extensión de LSB; un decodificador principal (432) configurado para decodificar el flujo principal en un flujo principal decodificado de PCM de M-bits con pérdidas; un decodificador de MSB sin pérdidas (434) configurado para decodificar el flujo de extensión de MSB en un flujo de extensión de MSB decodificado sin pérdidas (442);15 medios para desplazar a la derecha el flujo principal decodificado en N bits para producir un flujo principal decodificado desplazado a la derecha; un sumador (438) configurado para combinar el flujo principal decodificado desplazado a la derecha con el flujo de extensión de MSB decodificado para producir una salida sumada; medios para desplazar a la izquierda la salida sumada en N bits para producir una salida sumada desplazada a20 la izquierda; medios para combinar la salida sumada desplazada a la izquierda con el flujo de extensión de LSB para formar una reconstrucción sin pérdidas de la señal de audio de PCM de M-bits original.
- 8. El decodificador (432) de la reivindicación 7, en el que el flujo principal (408) incluye 64 bandas, y en donde el25 decodificador principal (432) está además configurado para poner a cero las muestras de sub-bandas para 32 bandas superiores del flujo principal de 64 bandas.11
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US911062 | 1992-07-09 | ||
US55618304P | 2004-03-25 | 2004-03-25 | |
US556183P | 2004-03-25 | ||
US10/911,062 US7272567B2 (en) | 2004-03-25 | 2004-08-04 | Scalable lossless audio codec and authoring tool |
US911067 | 2004-08-04 | ||
US10/911,067 US7392195B2 (en) | 2004-03-25 | 2004-08-04 | Lossless multi-channel audio codec |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2537820T3 true ES2537820T3 (es) | 2015-06-12 |
Family
ID=38072128
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES10167970.2T Active ES2537820T3 (es) | 2004-03-25 | 2005-03-21 | Códec de audio sin pérdidas escalable y herramienta de autoría |
ES05728310T Active ES2363932T3 (es) | 2004-03-25 | 2005-03-21 | Codec audio sin pérdida escalable y herramienta de autoría. |
ES05731220T Active ES2363346T3 (es) | 2004-03-25 | 2005-03-21 | Códec de audio multi-canal sin pérdidas. |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05728310T Active ES2363932T3 (es) | 2004-03-25 | 2005-03-21 | Codec audio sin pérdida escalable y herramienta de autoría. |
ES05731220T Active ES2363346T3 (es) | 2004-03-25 | 2005-03-21 | Códec de audio multi-canal sin pérdidas. |
Country Status (7)
Country | Link |
---|---|
US (5) | US7272567B2 (es) |
JP (4) | JP4934020B2 (es) |
KR (1) | KR101307693B1 (es) |
CN (2) | CN1961351B (es) |
ES (3) | ES2537820T3 (es) |
HK (2) | HK1099597A1 (es) |
RU (2) | RU2387022C2 (es) |
Families Citing this family (126)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7536305B2 (en) * | 2002-09-04 | 2009-05-19 | Microsoft Corporation | Mixed lossless audio compression |
US7378586B2 (en) * | 2002-10-01 | 2008-05-27 | Yamaha Corporation | Compressed data structure and apparatus and method related thereto |
JP4679049B2 (ja) | 2003-09-30 | 2011-04-27 | パナソニック株式会社 | スケーラブル復号化装置 |
US7272567B2 (en) * | 2004-03-25 | 2007-09-18 | Zoran Fejzo | Scalable lossless audio codec and authoring tool |
US7536302B2 (en) * | 2004-07-13 | 2009-05-19 | Industrial Technology Research Institute | Method, process and device for coding audio signals |
US7930184B2 (en) * | 2004-08-04 | 2011-04-19 | Dts, Inc. | Multi-channel audio coding/decoding of random access points and transients |
DE102004042819A1 (de) * | 2004-09-03 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals |
EP1785985B1 (en) * | 2004-09-06 | 2008-08-27 | Matsushita Electric Industrial Co., Ltd. | Scalable encoding device and scalable encoding method |
US7466867B2 (en) * | 2004-11-26 | 2008-12-16 | Taiwan Imagingtek Corporation | Method and apparatus for image compression and decompression |
US8265929B2 (en) * | 2004-12-08 | 2012-09-11 | Electronics And Telecommunications Research Institute | Embedded code-excited linear prediction speech coding and decoding apparatus and method |
US20060235683A1 (en) * | 2005-04-13 | 2006-10-19 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Lossless encoding of information with guaranteed maximum bitrate |
US7991610B2 (en) * | 2005-04-13 | 2011-08-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Adaptive grouping of parameters for enhanced coding efficiency |
EP1876585B1 (en) * | 2005-04-28 | 2010-06-16 | Panasonic Corporation | Audio encoding device and audio encoding method |
DE602006011600D1 (de) * | 2005-04-28 | 2010-02-25 | Panasonic Corp | Audiocodierungseinrichtung und audiocodierungsverfahren |
US8170883B2 (en) * | 2005-05-26 | 2012-05-01 | Lg Electronics Inc. | Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal |
EP1908057B1 (en) * | 2005-06-30 | 2012-06-20 | LG Electronics Inc. | Method and apparatus for decoding an audio signal |
US8494667B2 (en) * | 2005-06-30 | 2013-07-23 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
CA2613731C (en) | 2005-06-30 | 2012-09-18 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
US7830921B2 (en) * | 2005-07-11 | 2010-11-09 | Lg Electronics Inc. | Apparatus and method of encoding and decoding audio signal |
JP4859925B2 (ja) * | 2005-08-30 | 2012-01-25 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号デコーディング方法及びその装置 |
JP4568363B2 (ja) * | 2005-08-30 | 2010-10-27 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号デコーディング方法及びその装置 |
ATE455348T1 (de) * | 2005-08-30 | 2010-01-15 | Lg Electronics Inc | Vorrichtung und verfahren zur dekodierung eines audiosignals |
US7788107B2 (en) * | 2005-08-30 | 2010-08-31 | Lg Electronics Inc. | Method for decoding an audio signal |
JP5478826B2 (ja) * | 2005-10-03 | 2014-04-23 | シャープ株式会社 | 表示装置 |
US7672379B2 (en) * | 2005-10-05 | 2010-03-02 | Lg Electronics Inc. | Audio signal processing, encoding, and decoding |
US7696907B2 (en) * | 2005-10-05 | 2010-04-13 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
KR100878833B1 (ko) * | 2005-10-05 | 2009-01-14 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치 |
US7646319B2 (en) * | 2005-10-05 | 2010-01-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
CN101283249B (zh) * | 2005-10-05 | 2013-12-04 | Lg电子株式会社 | 信号处理的方法和装置以及编码和解码方法及其装置 |
US7751485B2 (en) * | 2005-10-05 | 2010-07-06 | Lg Electronics Inc. | Signal processing using pilot based coding |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
US7653533B2 (en) * | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
US7752053B2 (en) * | 2006-01-13 | 2010-07-06 | Lg Electronics Inc. | Audio signal processing using pilot based coding |
US8260620B2 (en) * | 2006-02-14 | 2012-09-04 | France Telecom | Device for perceptual weighting in audio encoding/decoding |
US8306827B2 (en) * | 2006-03-10 | 2012-11-06 | Panasonic Corporation | Coding device and coding method with high layer coding based on lower layer coding results |
JP4193865B2 (ja) * | 2006-04-27 | 2008-12-10 | ソニー株式会社 | デジタル信号切換え装置及びその切換え方法 |
EP1852848A1 (en) * | 2006-05-05 | 2007-11-07 | Deutsche Thomson-Brandt GmbH | Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream |
EP1852849A1 (en) * | 2006-05-05 | 2007-11-07 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream |
KR101322392B1 (ko) * | 2006-06-16 | 2013-10-29 | 삼성전자주식회사 | 스케일러블 코덱의 부호화 및 복호화 방법 및 장치 |
EP1881485A1 (en) * | 2006-07-18 | 2008-01-23 | Deutsche Thomson-Brandt Gmbh | Audio bitstream data structure arrangement of a lossy encoded signal together with lossless encoded extension data for said signal |
US7907579B2 (en) * | 2006-08-15 | 2011-03-15 | Cisco Technology, Inc. | WiFi geolocation from carrier-managed system geolocation of a dual mode device |
CN1920947B (zh) * | 2006-09-15 | 2011-05-11 | 清华大学 | 用于低比特率音频编码的语音/音乐检测器 |
US7471218B2 (en) * | 2006-09-18 | 2008-12-30 | National Semiconductor Corporation | Methods and systems for efficiently storing and retrieving streaming data |
JP4325657B2 (ja) * | 2006-10-02 | 2009-09-02 | ソニー株式会社 | 光ディスク再生装置、信号処理方法、およびプログラム |
US8260070B1 (en) * | 2006-10-03 | 2012-09-04 | Adobe Systems Incorporated | Method and system to generate a compressed image utilizing custom probability tables |
US9053753B2 (en) * | 2006-11-09 | 2015-06-09 | Broadcom Corporation | Method and system for a flexible multiplexer and mixer |
US20080114478A1 (en) * | 2006-11-09 | 2008-05-15 | David Wu | Method and System for Multi-Channel PCM Audio Grouping in Hardware |
US7385532B1 (en) * | 2007-02-16 | 2008-06-10 | Xilinx, Inc. | Extended bitstream and generation thereof for dynamically configuring a decoder |
US7886303B2 (en) * | 2007-05-18 | 2011-02-08 | Mediatek Inc. | Method for dynamically adjusting audio decoding process |
JP5264901B2 (ja) * | 2007-07-06 | 2013-08-14 | フランス・テレコム | デジタルオーディオ信号の階層符号化 |
KR101518507B1 (ko) * | 2007-07-19 | 2015-05-11 | 한국전자통신연구원 | 영상신호 송수신 장치 및 방법 |
US9541658B2 (en) * | 2007-08-02 | 2017-01-10 | Westerngeco L. L. C. | Dynamically allocating different numbers of bits to windows of a series representing a seismic trace |
KR100912826B1 (ko) * | 2007-08-16 | 2009-08-18 | 한국전자통신연구원 | G.711 코덱의 음질 향상을 위한 향상 계층 부호화 및복호화 장치와 그 방법 |
KR101381602B1 (ko) * | 2007-09-17 | 2014-04-04 | 삼성전자주식회사 | 계층적 부호화 및 복호화 방법 및 장치 |
CN101578655B (zh) * | 2007-10-16 | 2013-06-05 | 松下电器产业株式会社 | 流合成装置、解码装置、方法 |
JP4893892B2 (ja) * | 2007-12-04 | 2012-03-07 | 国立大学法人島根大学 | 可逆圧縮用符号化システム、情報記録媒体及び印刷媒体 |
US20090164223A1 (en) * | 2007-12-19 | 2009-06-25 | Dts, Inc. | Lossless multi-channel audio codec |
US8239210B2 (en) * | 2007-12-19 | 2012-08-07 | Dts, Inc. | Lossless multi-channel audio codec |
US8972247B2 (en) * | 2007-12-26 | 2015-03-03 | Marvell World Trade Ltd. | Selection of speech encoding scheme in wireless communication terminals |
US8548002B2 (en) * | 2008-02-08 | 2013-10-01 | Koolspan, Inc. | Systems and methods for adaptive multi-rate protocol enhancement |
US8386271B2 (en) | 2008-03-25 | 2013-02-26 | Microsoft Corporation | Lossless and near lossless scalable audio codec |
GB0817977D0 (en) * | 2008-10-01 | 2008-11-05 | Craven Peter G | Improved lossy coding of signals |
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
US20100191534A1 (en) * | 2009-01-23 | 2010-07-29 | Qualcomm Incorporated | Method and apparatus for compression or decompression of digital signals |
JP4784653B2 (ja) * | 2009-01-23 | 2011-10-05 | ソニー株式会社 | 音声データ送信装置、音声データ送信方法、音声データ受信装置および音声データ受信方法 |
WO2010140306A1 (ja) * | 2009-06-01 | 2010-12-09 | 三菱電機株式会社 | 信号処理装置 |
KR20100136890A (ko) | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
FR2947944A1 (fr) * | 2009-07-07 | 2011-01-14 | France Telecom | Codage/decodage perfectionne de signaux audionumeriques |
EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
JP2011109172A (ja) * | 2009-11-12 | 2011-06-02 | Hitachi Kokusai Electric Inc | 映像符号化装置、および、そのデータ処理方法 |
UA102347C2 (ru) | 2010-01-19 | 2013-06-25 | Долби Интернешнл Аб | Усовершенствованное гармоническое преобразование на основе блока поддиапазонов |
US8649521B2 (en) * | 2010-01-28 | 2014-02-11 | Cleversafe, Inc. | Obfuscation of sequenced encoded data slices |
US8374858B2 (en) * | 2010-03-09 | 2013-02-12 | Dts, Inc. | Scalable lossless audio codec and authoring tool |
WO2011119111A1 (en) * | 2010-03-26 | 2011-09-29 | Agency For Science, Technology And Research | Methods and devices for providing an encoded digital signal |
WO2011132368A1 (ja) * | 2010-04-19 | 2011-10-27 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法及び復号方法 |
CA2857849C (en) * | 2010-04-23 | 2020-02-11 | Soo Mi Oh | Apparatus and method for encoding a moving picture |
KR101676477B1 (ko) * | 2010-07-21 | 2016-11-15 | 삼성전자주식회사 | 컨텍스트 기반의 무손실 부호화 장치 및 방법, 그리고 복호화 장치 및 방법 |
BR122021003688B1 (pt) | 2010-08-12 | 2021-08-24 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. | Reamostrar sinais de saída de codecs de áudio com base em qmf |
US9008811B2 (en) | 2010-09-17 | 2015-04-14 | Xiph.org Foundation | Methods and systems for adaptive time-frequency resolution in digital data coding |
JP6000854B2 (ja) | 2010-11-22 | 2016-10-05 | 株式会社Nttドコモ | 音声符号化装置および方法、並びに、音声復号装置および方法 |
EP2464146A1 (en) | 2010-12-10 | 2012-06-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decomposing an input signal using a pre-calculated reference curve |
US8639494B1 (en) * | 2010-12-28 | 2014-01-28 | Intuit Inc. | Technique for correcting user-interface shift errors |
US9009036B2 (en) | 2011-03-07 | 2015-04-14 | Xiph.org Foundation | Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding |
WO2012122297A1 (en) * | 2011-03-07 | 2012-09-13 | Xiph. Org. | Methods and systems for avoiding partial collapse in multi-block audio coding |
US8838442B2 (en) | 2011-03-07 | 2014-09-16 | Xiph.org Foundation | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
WO2013036972A1 (en) | 2011-09-09 | 2013-03-14 | Panamorph, Inc. | Image processing system and method |
EP2600343A1 (en) * | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for merging geometry - based spatial audio coding streams |
US9165563B2 (en) * | 2012-03-19 | 2015-10-20 | Casio Computer Co., Ltd. | Coding device, coding method, decoding device, decoding method, and storage medium |
GB201210373D0 (en) * | 2012-06-12 | 2012-07-25 | Meridian Audio Ltd | Doubly compatible lossless audio sandwidth extension |
EP2717262A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding |
CA3076775C (en) | 2013-01-08 | 2020-10-27 | Dolby International Ab | Model based prediction in a critically sampled filterbank |
US9336791B2 (en) * | 2013-01-24 | 2016-05-10 | Google Inc. | Rearrangement and rate allocation for compressing multichannel audio |
PL3011555T3 (pl) * | 2013-06-21 | 2018-09-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Rekonstrukcja ramki sygnału mowy |
EP2830053A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
CN103346949B (zh) * | 2013-07-25 | 2016-08-17 | 北京大学 | 基于嵌入式的双通道网络数据包的拆包和组包方法及系统 |
EP2863386A1 (en) | 2013-10-18 | 2015-04-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder |
AU2014339086B2 (en) | 2013-10-22 | 2017-12-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for combined dynamic range compression and guided clipping prevention for audio devices |
US11350015B2 (en) | 2014-01-06 | 2022-05-31 | Panamorph, Inc. | Image processing system and method |
US9564136B2 (en) * | 2014-03-06 | 2017-02-07 | Dts, Inc. | Post-encoding bitrate reduction of multiple object audio |
CN106471575B (zh) * | 2014-07-01 | 2019-12-10 | 韩国电子通信研究院 | 多信道音频信号处理方法及装置 |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
CN108140396B (zh) * | 2015-09-22 | 2022-11-25 | 皇家飞利浦有限公司 | 音频信号处理 |
CN105512079B (zh) * | 2015-12-12 | 2018-07-03 | 中国航空工业集团公司西安航空计算技术研究所 | 一种1394总线多通道流数据并行组包方法 |
KR101968456B1 (ko) | 2016-01-26 | 2019-04-11 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응형 양자화 |
US10735794B2 (en) * | 2016-03-28 | 2020-08-04 | Sony Corporation | Information processing device, information processing method, and information processing system |
EP3264644A1 (en) | 2016-07-01 | 2018-01-03 | Nxp B.V. | Multiple source receiver |
US10936941B2 (en) * | 2016-08-12 | 2021-03-02 | Xilinx, Inc. | Efficient data access control device for neural network hardware acceleration system |
US10522155B2 (en) | 2017-02-21 | 2019-12-31 | Cirrus Logic, Inc. | Pulse code modulation (PCM) data-marking |
US10891960B2 (en) * | 2017-09-11 | 2021-01-12 | Qualcomm Incorproated | Temporal offset estimation |
CN107680605A (zh) * | 2017-09-29 | 2018-02-09 | 湖南国科微电子股份有限公司 | 一种ape格式错误数据处理方法及系统 |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
US10727858B2 (en) * | 2018-06-18 | 2020-07-28 | Qualcomm Incorporated | Error resiliency for entropy coded audio data |
CN109243471B (zh) * | 2018-09-26 | 2022-09-23 | 杭州联汇科技股份有限公司 | 一种快速编码广播用数字音频的方法 |
WO2020232631A1 (zh) * | 2019-05-21 | 2020-11-26 | 深圳市汇顶科技股份有限公司 | 一种语音分频传输方法、源端、播放端、源端电路和播放端电路 |
EP4002277A4 (en) * | 2019-08-14 | 2023-02-22 | LG Electronics Inc. | POINT CLOUD DATA TRANSMITTING DEVICE, POINT CLOUD DATA TRANSMITTING METHOD, POINT CLOUD DATA RECEIVING DEVICE AND POINT CLOUD DATA RECEIVING METHOD |
CN110827838A (zh) * | 2019-10-16 | 2020-02-21 | 云知声智能科技股份有限公司 | 一种基于opus的语音编码方法及装置 |
WO2021232376A1 (zh) * | 2020-05-21 | 2021-11-25 | 华为技术有限公司 | 一种音频数据传输方法及相关装置 |
CN111641416B (zh) * | 2020-06-19 | 2023-04-07 | 重庆邮电大学 | 一种多归一化因子的低密度奇偶校验码译码方法 |
CN111768793B (zh) * | 2020-07-11 | 2023-09-01 | 北京百瑞互联技术有限公司 | 一种lc3音频编码器编码优化方法、系统、存储介质 |
US20240205433A1 (en) * | 2022-12-14 | 2024-06-20 | Qualcomm Incorporated | Truncation error signaling and adaptive dither for lossy bandwidth compression |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4833718A (en) * | 1986-11-18 | 1989-05-23 | First Byte | Compression of stored waveforms for artificial speech |
JPS6444499A (en) * | 1987-08-12 | 1989-02-16 | Fujitsu Ltd | Forecast encoding system for voice |
WO1992012607A1 (en) * | 1991-01-08 | 1992-07-23 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
EP0649557B1 (en) * | 1993-05-05 | 1999-08-25 | Koninklijke Philips Electronics N.V. | Transmission system comprising at least a coder |
US5589830A (en) * | 1994-11-02 | 1996-12-31 | Advanced Micro Devices, Inc. | Stereo audio codec |
GB9509831D0 (en) * | 1995-05-15 | 1995-07-05 | Gerzon Michael A | Lossless coding method for waveform data |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
WO1997029549A1 (fr) * | 1996-02-08 | 1997-08-14 | Matsushita Electric Industrial Co., Ltd. | Codeur, decodeur, codeur-decodeur et support d'enregistrement de signal audio large bande |
EP0798866A2 (en) * | 1996-03-27 | 1997-10-01 | Kabushiki Kaisha Toshiba | Digital data processing system |
US5839100A (en) * | 1996-04-22 | 1998-11-17 | Wegener; Albert William | Lossless and loss-limited compression of sampled data signals |
JP3622365B2 (ja) * | 1996-09-26 | 2005-02-23 | ヤマハ株式会社 | 音声符号化伝送方式 |
KR100261254B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치 |
IL122714A (en) * | 1997-04-02 | 2011-06-30 | Samsung Electronics Co Ltd | Digital data coding/decoding method and apparatus |
KR100261253B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치 |
US6016111A (en) * | 1997-07-31 | 2000-01-18 | Samsung Electronics Co., Ltd. | Digital data coding/decoding method and apparatus |
KR100251453B1 (ko) * | 1997-08-26 | 2000-04-15 | 윤종용 | 고음질 오디오 부호화/복호화장치들 및 디지털다기능디스크 |
US6118392A (en) * | 1998-03-12 | 2000-09-12 | Liquid Audio Inc. | Lossless data compression with low complexity |
US6023233A (en) | 1998-03-20 | 2000-02-08 | Craven; Peter G. | Data rate control for variable rate compression systems |
US6360204B1 (en) * | 1998-04-24 | 2002-03-19 | Sarnoff Corporation | Method and apparatus for implementing rounding in decoding an audio signal |
TW366660B (en) * | 1998-04-30 | 1999-08-11 | Nat Science Council | Method of degrouping a codeword in a computer system |
US6029126A (en) * | 1998-06-30 | 2000-02-22 | Microsoft Corporation | Scalable audio coder and decoder |
JP3515903B2 (ja) * | 1998-06-16 | 2004-04-05 | 松下電器産業株式会社 | オーディオ符号化のための動的ビット割り当て方法及び装置 |
JP3344581B2 (ja) * | 1998-10-13 | 2002-11-11 | 日本ビクター株式会社 | 音声符号化装置 |
JP2000134105A (ja) * | 1998-10-29 | 2000-05-12 | Matsushita Electric Ind Co Ltd | オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法 |
US6226608B1 (en) * | 1999-01-28 | 2001-05-01 | Dolby Laboratories Licensing Corporation | Data framing for adaptive-block-length coding system |
US6370502B1 (en) * | 1999-05-27 | 2002-04-09 | America Online, Inc. | Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec |
US6226616B1 (en) * | 1999-06-21 | 2001-05-01 | Digital Theater Systems, Inc. | Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility |
US6446037B1 (en) * | 1999-08-09 | 2002-09-03 | Dolby Laboratories Licensing Corporation | Scalable coding method for high quality audio |
EP1087557A3 (en) * | 1999-09-22 | 2005-01-19 | Matsushita Electric Industrial Co., Ltd. | Apparatus for transmitting digital audio data and receiving apparatus for receiving the digital audio data |
US6373411B1 (en) * | 2000-08-31 | 2002-04-16 | Agere Systems Guardian Corp. | Method and apparatus for performing variable-size vector entropy coding |
US6675148B2 (en) * | 2001-01-05 | 2004-01-06 | Digital Voice Systems, Inc. | Lossless audio coder |
EP1368898A2 (en) * | 2001-03-05 | 2003-12-10 | Koninklijke Philips Electronics N.V. | Device and method for compressing a signal |
JP3690591B2 (ja) * | 2001-05-28 | 2005-08-31 | シャープ株式会社 | 符号化装置 |
EP1292036B1 (en) * | 2001-08-23 | 2012-08-01 | Nippon Telegraph And Telephone Corporation | Digital signal decoding methods and apparatuses |
US7110941B2 (en) * | 2002-03-28 | 2006-09-19 | Microsoft Corporation | System and method for embedded audio coding with implicit auditory masking |
US20030231799A1 (en) | 2002-06-14 | 2003-12-18 | Craig Schmidt | Lossless data compression using constraint propagation |
DE10236694A1 (de) * | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
US7742926B2 (en) * | 2003-04-18 | 2010-06-22 | Realnetworks, Inc. | Digital audio signal compression method and apparatus |
WO2004098066A1 (ja) * | 2003-04-28 | 2004-11-11 | Nippon Telegraph And Telephone Corporation | 浮動小数点形式ディジタル信号可逆符号化方法、及び復号化方法と、その各装置、その各プログラム |
EP1662667B1 (en) * | 2003-09-02 | 2015-11-11 | Nippon Telegraph And Telephone Corporation | Floating point signal reversible encoding method, decoding method, device thereof, program, and recording medium thereof |
US7009533B1 (en) * | 2004-02-13 | 2006-03-07 | Samplify Systems Llc | Adaptive compression and decompression of bandlimited signals |
US7272567B2 (en) * | 2004-03-25 | 2007-09-18 | Zoran Fejzo | Scalable lossless audio codec and authoring tool |
JP4324200B2 (ja) * | 2004-10-15 | 2009-09-02 | 日本電信電話株式会社 | 情報符号化方法、復号化方法、共通乗数推定方法、これらの方法を利用した装置、プログラム及び記録媒体 |
EP1901432B1 (en) * | 2005-07-07 | 2011-11-09 | Nippon Telegraph And Telephone Corporation | Signal encoder, signal decoder, signal encoding method, signal decoding method, program, recording medium and signal codec method |
-
2004
- 2004-08-04 US US10/911,062 patent/US7272567B2/en active Active
- 2004-08-04 US US10/911,067 patent/US7392195B2/en active Active
-
2005
- 2005-03-21 KR KR1020127024711A patent/KR101307693B1/ko active IP Right Grant
- 2005-03-21 RU RU2006137566/09A patent/RU2387022C2/ru active
- 2005-03-21 RU RU2006137573/09A patent/RU2387023C2/ru active
- 2005-03-21 ES ES10167970.2T patent/ES2537820T3/es active Active
- 2005-03-21 JP JP2007505046A patent/JP4934020B2/ja active Active
- 2005-03-21 ES ES05728310T patent/ES2363932T3/es active Active
- 2005-03-21 ES ES05731220T patent/ES2363346T3/es active Active
- 2005-03-21 CN CN2005800134433A patent/CN1961351B/zh active Active
- 2005-03-21 CN CN2005800134448A patent/CN101027717B/zh active Active
-
2007
- 2007-06-21 HK HK07106643.1A patent/HK1099597A1/xx unknown
- 2007-08-14 US US11/891,905 patent/US7668723B2/en active Active
- 2007-10-04 HK HK07110721.8A patent/HK1105475A1/xx unknown
-
2009
- 2009-11-05 US US12/613,316 patent/US20100082352A1/en not_active Abandoned
-
2010
- 2010-03-09 US US12/720,416 patent/US20110106546A1/en not_active Abandoned
-
2011
- 2011-12-27 JP JP2011284818A patent/JP5551677B2/ja active Active
-
2013
- 2013-05-10 JP JP2013100133A patent/JP5593419B2/ja active Active
- 2013-05-10 JP JP2013100134A patent/JP5599913B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
RU2387022C2 (ru) | 2010-04-20 |
KR101307693B1 (ko) | 2013-09-11 |
KR20120116019A (ko) | 2012-10-19 |
US20050246178A1 (en) | 2005-11-03 |
US20080021712A1 (en) | 2008-01-24 |
JP2012078865A (ja) | 2012-04-19 |
RU2006137573A (ru) | 2008-04-27 |
US20100082352A1 (en) | 2010-04-01 |
JP5593419B2 (ja) | 2014-09-24 |
ES2363346T3 (es) | 2011-08-01 |
RU2006137566A (ru) | 2008-04-27 |
HK1105475A1 (en) | 2008-02-15 |
US7392195B2 (en) | 2008-06-24 |
JP2013190809A (ja) | 2013-09-26 |
ES2363932T3 (es) | 2011-08-19 |
CN101027717B (zh) | 2011-09-07 |
JP5599913B2 (ja) | 2014-10-01 |
JP5551677B2 (ja) | 2014-07-16 |
US7668723B2 (en) | 2010-02-23 |
JP2007531012A (ja) | 2007-11-01 |
JP2013148935A (ja) | 2013-08-01 |
CN1961351A (zh) | 2007-05-09 |
CN101027717A (zh) | 2007-08-29 |
US20110106546A1 (en) | 2011-05-05 |
RU2387023C2 (ru) | 2010-04-20 |
US20050216262A1 (en) | 2005-09-29 |
HK1099597A1 (en) | 2007-08-17 |
CN1961351B (zh) | 2010-12-15 |
US7272567B2 (en) | 2007-09-18 |
JP4934020B2 (ja) | 2012-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2537820T3 (es) | Códec de audio sin pérdidas escalable y herramienta de autoría | |
US8374858B2 (en) | Scalable lossless audio codec and authoring tool | |
EP2228791B1 (en) | Scalable lossless audio codec and authoring tool | |
TWI474316B (zh) | 使用具隨機存取點及多重預測參數集合能力的適應性分段技術之無損多聲道音訊編解碼器 | |
KR100917464B1 (ko) | 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 | |
JP6264699B2 (ja) | 二重の互換性を持つ損失のないオーディオ帯域幅拡張 | |
JP2015519615A5 (es) | ||
JP2004289196A (ja) | ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム | |
KR100923301B1 (ko) | 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 |