ES2555658T3 - Grabación en estéreo compatible con multicanal - Google Patents

Grabación en estéreo compatible con multicanal Download PDF

Info

Publication number
ES2555658T3
ES2555658T3 ES10183788.8T ES10183788T ES2555658T3 ES 2555658 T3 ES2555658 T3 ES 2555658T3 ES 10183788 T ES10183788 T ES 10183788T ES 2555658 T3 ES2555658 T3 ES 2555658T3
Authority
ES
Spain
Prior art keywords
audio
sample
samples
mono
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10183788.8T
Other languages
English (en)
Inventor
Guido Van Den Berghe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Auro Technologies NV
Original Assignee
Auro Technologies NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Auro Technologies NV filed Critical Auro Technologies NV
Application granted granted Critical
Publication of ES2555658T3 publication Critical patent/ES2555658T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/363Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems using optical disks, e.g. CD, CD-ROM, to store accompaniment information in digital form
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00992Circuits for stereophonic or quadraphonic recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/091Info, i.e. juxtaposition of unrelated auxiliary information or commercial messages with or between music files
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

Un codificador para mezclar - una pluralidad de canales de audio mono en - una grabación de señal de audio estéreo que comprende muestras mezcladas para su almacenamiento en una pista de audio de un dispositivo de almacenamiento, y - comprendiendo cada canal de audio mono un primer número de muestras por unidad de tiempo, - teniendo cada canal de audio mono el mismo número de muestras por unidad de tiempo, y el mismo tiempo de referencia, - comprendiendo la señal de audio menos muestras mezcladas por unidad de tiempo que una suma del número de muestras por unidad de tiempo de todos los canales de audio mono usados en la señal de audio, y caracterizado por que el codificador está adaptado para: - atenuar al menos un canal de audio mono usando al menos un coeficiente de atenuación, - derivar muestras aproximadas filtrando por interpolación muestras de los canales de audio mono respectivos, - siendo las muestras aproximadas intermedias en el tiempo con respecto a las muestras originales, formando las muestras originales de cada uno de la pluralidad de canales de audio mono un patrón regular escalonado en el tiempo con relación a cada muestra original de cada uno distinta de la pluralidad de canales de audio mono, - sumar una primera muestra original de una primera de la pluralidad de canales de audio mono y una primera muestra aproximada obtenida a partir de una segunda de la pluralidad de canales de audio mono para obtener una primera muestra mezclada, y sumar una segunda muestra original de la segunda de la pluralidad de canales de audio mono y una segunda muestra aproximada obtenida a partir de la primera de la pluralidad de canales de audio mono para obtener una segunda muestra mezclada, teniendo cada una de las segundas muestras tiempos que son sucesivos a los tiempos de cada una de las primeras muestras, estando el codificador adaptado para: - generar un conjunto de parámetros adicionales para la masterización de la pista de audio del dispositivo de almacenamiento que comprende la grabación de la señal de audio, - el conjunto de parámetros que comprende parámetros del filtro de interpolación, coeficientes de atenuación y muestras que permiten un cálculo de la primera muestra de la primera de una pluralidad de canales de audio mono y la segunda muestra de la segunda de una pluralidad de canales de audio mono de la primera muestra mezclada.

Description

DESCRIPCION
Grabacion en estereo compatible con multicanal.
5 Campo tecnico de la invencion
La presente invencion se refiere a las tecnicas de formateo para el almacenamiento de datos, por ejemplo para dispositivos de estado solido o disco optico, tal como DVD (Disco Versatil Digital). Mas particularmente, la presente invencion se describira con referencia al formato de CD de audio, un formato de electronica de consumo para 10 musica pregrabada en disco compacto, de CD+G(w), pero sin limitacion a esta forma de grabacion. Este formato de CD de audio puede ser, por ejemplo, CD-DA (Compact Disc Digital Audio, el formato de CD de musica original, que almacena la informacion de audio como datos digitales PCM modulados por codificacion de impulsos) compatibles con Redbook, y puede usar el modo CD+G usuario para almacenar datos adicionales. CD+G(w) es una tecnica de codificacion y decodificacion util para, pero sin limitacion, funciones de Cantar y Tocar en grupo (Sing & Play-Along), 15 tales como karaoke y la reproduccion automatizada de instrumentos, usando grabacion en estereo compatible con multicanal.
Antecedentes de la invencion
20 Generalmente, el CD+G existente es un formato de CD de audio, que tiene capacidades limitadas para almacenar datos graficos adicionales y se usa, principalmente, en aplicaciones de karaoke. La parte de audio de CD+G puede reproducirse en cualquier CD de audio estandar. Para la visualizacion de graficos, se requiere un reproductor de CDG, un reproductor de CD especial con salida de TV, por ejemplo, un reproductor de CD de karaoke. En el formato CD+G, los datos de audio se graban en un area de programa, mientras que los datos adicionales pueden 25 almacenarse en una zona de gestion de programas, la cual se divide en ocho canales sub-codigo, los canales P a W. El canal P indica el inicio y el final de cada pista, alternando entre 0 y 1. El canal Q contiene los codigos de tiempo y una tabla de contenidos. Mas datos adicionales contenidos en los canales de sub-codigo R a W, pueden permitir que se visualicen graficos y texto mientras se esta reproduciendo musica, tal como se usa, por ejemplo, para representar imagenes fijas o representar letras, por ejemplo, para un karaoke.
30
El estandar CD+G define diferentes modos de CD+G, que son los modos ZERO, GRAPHICS (karaoke), MIDI y USER:
• El modo ZERO es un modo en el que no se realiza ninguna operacion en una pantalla de visualizacion.
35 • El modo GRAPHICS permite representar imagenes o sfmbolos, por ejemplo, para un karaoke.
• El modo MIDI proporciona un canal de datos de 3.125 kb/s maximo para los datos de Interfaz Digital de Instrumentos Musicales (MIDI, Musical Instrument Digital Interface), como especifica la Asociacion Internacional MIDI.
• El modo USER esta destinado para aplicaciones profesionales. El significado de los datos es especffico de
40 la aplicacion.
El documento US-5.852.800 describe un metodo y un aparato para la modulacion y el mezclado, controlados por usuario, de datos comprimidos, almacenados digitalmente. En este documento, la pluralidad de canales se almacena por separado en un CD ROM. De esta manera, la pista de audio en el CD ROM corresponde a la 45 pluralidad de canales de audio mono independientes. Esta pluralidad de canales se recupera del CD ROM, se modulan y se mezclan segun las direcciones y las ordenes recibidas del usuario, y se crea una senal de suma para su presentacion a una audiencia. La senal de suma se obtiene descomprimiendo los canales de audio por separado, multiplicando cada canal de audio por los valores de intensidad correctos y, a continuacion, sumando entre si todos los canales seleccionados. Cada canal puede enmascararse o silenciarse por completo.
50
En el documento EP-0757506, los canales de audio separados se codifican como paquetes de datos especfficos en un flujo de bits multicanal y, como tales, son accesibles por el decodificador. A nivel del decodificador, el usuario tiene control sobre el modo downmix (conversion de multicanal a estereo) para activar o desactivar ciertos canales de audio en la conversion de muticanal a estereo.
El documento US-6405163 describe el uso de caracterfsticas de frecuencia presentes igualmente en ambos canales izquierdo y derecho (desde el punto de vista de las caracterfsticas de frecuencia) para "reducir" o "amplificar" la informacion de audio que esta centrada. Esta solucion permite la "atenuacion" de la informacion de audio central.
Resumen de la invencion
Un objeto de la presente invencion es proporcionar un sistema de audio mejorado.
5 El objetivo anterior se consigue mediante un codificador de acuerdo con la reivindicacion 1 y un decodificador de acuerdo con la reivindicacion 6.
Los aspectos particulares y preferentes de la invencion se exponen en las reivindicaciones independientes y dependientes adjuntas. Las caracterfsticas de las reivindicaciones dependientes pueden combinarse con las 10 caracterfsticas de las reivindicaciones independientes y con caracterfsticas de otras reivindicaciones dependientes, segun sea apropiado, y no solo como se expone explfcitamente en las reivindicaciones.
La presente invencion proporciona un codificador que permite mezclar una pluralidad de canales independientes de audio mono en una grabacion en estereo y generar un conjunto restringido de parametros adicionales usados para 15 la masterizacion de una pista de audio de un dispositivo de almacenamiento, estando construidos la pluralidad de canales independientes de audio mono de manera que el dispositivo de almacenamiento puede reproducirse usando un reproductor de disco optico de manera que, en un primer modo, la totalidad de la pluralidad de canales independientes de audio mono se reproducen como la grabacion en estereo y, en un segundo modo, al menos uno de la pluralidad de canales independientes de audio mono puede desmezclarse y la grabacion en estereo puede 20 reproducirse con al menos un canal de audio mono eliminado. El dispositivo de almacenamiento puede ser un disco optico, tal como, por ejemplo, un disco de CD de audio digital.
En un codificador de acuerdo con una realizacion de la presente invencion, preferiblemente, el conjunto restringido de parametros adicionales no exceden el tamano de datos disponible como datos de sub-codigo dentro del modo 25 CD+G USER.
La presente invencion proporciona un decodificador que permite reconstruir, en un primer modo, una pluralidad de canales independientes de audio mono en una grabacion en estereo usando un conjunto restringido de parametros adicionales usados para la masterizacion de una pista de audio de un dispositivo de almacenamiento, cuando se lee 30 unicamente la grabacion de audio en estereo y los parametros adicionales del dispositivo de almacenamiento y, en un segundo modo, al menos uno de la pluralidad de canales independientes de audio mono puede desmezclarse y la grabacion en estereo se reproduce con el al menos un canal de audio eliminado y no reproducido.
Los canales reconstruidos pueden estar no correlacionados, y pueden ser sustancialmente identicos, 35 perceptualmente, a los canales mono originales.
En un decodificador de acuerdo con una realizacion de la presente invencion, el conjunto restringido de parametros adicionales y los datos de mezclado, de panoramizacion y/o atenuacion asociados pueden proporcionar informacion suficiente al decodificador para decodificar, aislar, eliminar o atenuar un unico canal o mas canales durante la 40 reproduccion en tiempo real.
La presente invencion proporciona un sistema de audio de acuerdo con la reivindicacion independiente 11 que comprende un codificador de acuerdo con una realizacion de la presente invencion y un decodificador de acuerdo con una realizacion de la presente invencion.
45
En un sistema de audio de acuerdo con una realizacion de la presente invencion, el sistema soporta aplicaciones o configuraciones de audio diferentes, incluyendo filtrado de solista (estereo), filtrado de voz solista (mono) e instrumento solista (mono), reproduccion de audio cuadrafonico verdadero.
50 Ademas, cuando se usa en una aplicacion de karaoke, la informacion de las letras puede incluirse en el dispositivo de almacenamiento, en un formato tal que puede visualizarse en una pantalla de visualizacion. Cuando se usa con una aplicacion de reproductor de instrumento, el instrumento principal puede filtrarse del audio y puede reemplazarse por un reproductor de instrumento controlado, donde los datos de control son una parte de los datos sub-codigo en el dispositivo de almacenamiento. Puede proporcionarse una combinacion tanto de la aplicacion de 55 Karaoke como de la aplicacion de reproductor de instrumento.
Tambien, pueden incluirse, en el dispositivo de almacenamiento, datos adicionales del filtro de audio para mejorar la expansion temporal y/o el cambio de tono.
Cuando se usa en aplicaciones de audio de sonido envolvente, el decodificador puede ser capaz de reconstruir los canales de audio estereo traseros totalmente aislados de los canales estereo frontales, a partir de un dispositivo de almacenamiento con codificacion cuadrafonica verdadera. Cuando se usa en aplicaciones de sonido envolvente, el decodificador puede ser capaz de panoramizar dinamicamente la voz principal (mono) y/o el instrumento principal 5 (mono) a partir de un disco optico de un dispositivo de almacenamiento codificado para Karaoke, en el espacio auditivo 3D, para reproducir el efecto de una actuacion en vivo, cuando el artista se esta moviendo en el escenario.
Los datos MIDI pueden integrarse en el dispositivo de almacenamiento. El sistema de audio puede tener una precision de temporizacion de 272 ps por evento MIDI, asf como una resolucion de velocidad MIDI de 256 niveles 10 diferentes.
En un sistema de audio de acuerdo con las realizaciones de la presente invencion, el decodificador puede tener medios para ejecutar la operacion inversa del codificador y tanto el decodificador como el codificador pueden implementarse en aritmetica de numeros enteros de 32 bits, siendo independientes de la implementacion en coma 15 flotante. En primer lugar, el codificador puede generar canales de audio aproximados antes de mezclar estos canales, usando parametros del filtro de audio generados como valores en coma flotante primero, que son el resultado de una optimizacion con objetivos configurables por el usuario, que pueden incluir caracterfsticas perceptuales de audio. El sistema de audio puede comprender adicionalmente la conversion en aritmetica entera, teniendo el codificador y/o el decodificador medios para compensar los errores de redondeo y de conversion para 20 proporcionar un proceso de decodificacion que es la operacion inversa de la codificacion.
En un sistema de audio de acuerdo con las realizaciones de la presente invencion, los parametros del filtro de audio requeridos por el decodificador y que son una parte del conjunto de parametros de datos, pueden regenerarse para cada perfodo de tiempo, que es corto en comparacion con la resolucion de audio del ofdo humano. El perfodo de 25 tiempo puede ser de 40 ms de audio.
En un sistema de audio de acuerdo con las realizaciones de la presente invencion, el codificador puede incorporar un compresor dinamico que previene rebasamientos al mezclar y/o codificar la pluralidad de canales mono en un canal estereo convertido desde multicanal.
30
La presente invencion proporciona un codificador que permite mezclar una pluralidad de canales de audio mono independientes en una grabacion estereo y generar un conjunto restringido de parametros adicionales usados para masterizar una pista de audio de un dispositivo de almacenamiento, comprendiendo cada canal de audio un primer numero de muestras por unidad de tiempo, estando la pluralidad de canales de audio mono independientes 35 almacenados en el dispositivo de almacenamiento con menos que el numero de muestras por unidad de tiempo de cada canal de audio con la adicion de valores calculados, calculados usando un filtro de interpolacion con parametros del filtro, para muestras intermedias, aproximando las muestras intermedias calculadas a las muestras intermedias de los canales de audio, almacenandose los parametros del filtro en el dispositivo de almacenamiento en los parametros adicionales.
40
La presente invencion proporciona un decodificador que permite decodificar una pluralidad de canales de audio mono grabados en una grabacion estereo usando un conjunto restringido de parametros adicionales para masterizar una pista de audio de un dispositivo de almacenamiento, estando cada canal de audio reconstruido a partir de un primer numero de muestras por unidad de tiempo, estando la pluralidad de canales de audio mono almacenados en 45 el dispositivo de almacenamiento con menos del numero de muestras por unidad de tiempo de cada canal de audio con la adicion de valores calculados, calculados usando un filtro de interpolacion con parametros del filtro, para muestras intermedias, aproximando las muestras intermedias calculadas a las muestras intermedias de los canales de audio, almacenandose los parametros del filtro en el dispositivo de almacenamiento en los parametros adicionales.
50
En un ejemplo adicional, la presente invencion proporciona un dispositivo de almacenamiento que tiene almacenados en el mismo una pluralidad de canales de audio mono grabados en una grabacion estereo usando un conjunto restringido de parametros adicionales para masterizar una pista de audio del dispositivo de almacenamiento, pudiendo reconstruirse cada canal de audio a partir de un primer numero de muestras por unidad 55 de tiempo, estando la pluralidad de canales de audio mono almacenados en el dispositivo de almacenamiento con menos del numero de muestras por unidad de tiempo de cada canal de audio con la adicion de valores calculados, calculados usando un filtro de interpolacion con parametros del filtro, para muestras intermedias, aproximando las muestras intermedias calculadas a las muestras intermedias de los canales de audio, almacenandose los parametros del filtro en el dispositivo de almacenamiento en los parametros adicionales.
El formato CD+G(w), que puede usarse con la presente invencion, usa el modo USER del estandar CD+G para almacenar datos adicionales. Una parte de estos datos, la seccion de datos de filtro, define diversos parametros del filtro de audio. Otra parte, la seccion de datos MIDI, define los datos usados para los dispositivos compatibles con 5 MIDI. Las letras de canciones para cantar en grupo pueden integrarse dentro de la seccion MIDI de los datos.
En un aspecto de la presente invencion, la seccion de datos del filtro de audio contiene los parametros del filtro de audio que permiten a un decodificador CD+G(w) filtrar pistas individuales, tales como la voz principal y/o un instrumento solista de la grabacion de audio en estereo. Segun la grabacion combinada de audio en estereo se filtra, 10 la cantidad de datos adicionales necesarios para almacenar la grabacion en estereo no es significativamente mayor que los usados para almacenar la grabacion en estereo usando los parametros estandar. La seccion de datos MIDI contiene datos para controlar los dispositivos controlados digitalmente (MIDI), tales como pianos digitales o pianolas u otros instrumentos musicales controlados MIDI, equipo ligero controlador de MIDI o virtualmente cualquier equipo compatible con MIDI.
15
En otro aspecto de la presente invencion, la seccion de datos del filtro de audio es el resultado de un complejo esquema de codificacion, asf como una remasterizacion de las grabaciones de las pistas master originales a parti r de las grabaciones de audio master. El decodificador CD+G(w) es capaz de aislar o eliminar 1 o 2 o mas "pistas principales" que estan mezcladas en el estereo convertido desde multicanal, remasterizado, sin la necesidad de 20 almacenar estas "pistas principales" separadas en el CD. En combinacion con la salida en TV de las letras y dispositivos con capacidad MIDI, tales como, por ejemplo, instrumentos musicales automatizados, este formato CD+G(w) es un formato de CD unico y proporciona solucion a diversas caracterfsticas diferentes: tales como el karaoke o canto en grupo cuando la pista vocal principal se filtra/elimina de la mezcla en estereo, o reproduccion en grupo cuando una pista del instrumento principal se filtra/elimina, o incluso reproduccion en grupo y canto en grupo, 25 cuando las partes vocal principal e instrumento principal se filtran/eliminan y los datos MIDI se usan para mostrar letras, asf como para controlar un reproductor de instrumento automatizado. Cuando se eliminan la voz principal y el instrumento principal, las voces/los instrumentos de respaldo estereo son todavfa audibles, sin ningun artefacto. Junto con estas caracterfsticas, una grabacion de audio compatible con CD-DA de audio cuadrafonico verdadero se convierte en una realidad, ya que la naturaleza basica de este formato y su grabacion y esquema de masterizacion y 30 codificacion permiten grabar y convertir cuatro pistas independientes de audio mono en 1 grabacion en estereo, permitiendo, asimismo, una operacion de desmezclado.
En otro aspecto de la presente invencion, se proporciona una tecnica de grabacion multicanal, preferiblemente, una tecnica de grabacion de CD de audio multicanal, para grabar en un canal mezclado una pluralidad de canales mono, 35 en el que cada uno tiene una frecuencia de muestreo original, en el que, antes de la mezcla, cada canal mono es redefinido usando al menos la mitad de su frecuencia de muestreo original y un conjunto limitado de parametros adicionales. La tecnica de grabacion de acuerdo con este aspecto de la presente invencion permite, durante la reproduccion de las pistas grabadas, obtener un 100 % de filtrado de canal, es decir, en un primer modo, toda la pluralidad de canales independientes mono (audio) pueden reproducirse como una grabacion estereo y, en un 40 segundo modo, al menos uno de la pluralidad de canales independientes mono (audio) puede desmezclarse y la grabacion estereo puede reproducirse con al menos un canal mono (audio) eliminado. La frecuencia de muestreo de los canales mono redefinidos depende del numero de canales a mezclar, es decir, es la mitad de la frecuencia de muestreo original de los canales mono si se van a mezclar dos canales mono, o es una cuarta parte de la frecuencia de muestreo de canal mono original si se van a mezclar cuatro canales, etc. Unicamente a modo de ejemplo, si se 45 van a mezclar dos canales mono de 16 bits con una frecuencia de muestreo de 44 kHz, de acuerdo con el presente aspecto de la invencion, estos canales mono son redefinidos como dos canales mono de 15 bits con una frecuencia de muestreo de 22 kHz, y estos canales mono redefinidos se mezclan. La redefinicion de los canales mono de 16 bits puede realizarse tomando, del primer canal, solo las muestras pares, y tomando, del segundo canal, solo las muestras impares. Como otro ejemplo, si se van a mezclar cuatro canales mono de 16 bits, cada uno con una 50 frecuencia de muestreo de 44 kHz, los canales mono pueden redefinirse como cuatro canales de 14 bits, cada uno con una frecuencia de muestreo de 11 kHz, y estos cuatro canales mono redefinidos pueden mezclarse. La redefinicion de los canales mono de 16 bits puede realizarse tomando, del primer canal, cada 4kesima muestra, desde el segundo canal, cada (4k+1)esima muestra, del tercer canal, cada (4k+2)esima muestra, y del cuarto canal, cada (4k+3)esima muestra.
55
En un aspecto adicional de la presente invencion, puede obtenerse un canal mono casi equivalente a partir del canal mono redefinido y el conjunto limitado de parametros adicionales, por ejemplo, interpolando las muestras que se han descartado durante el proceso de redefinicion. Esto significa que, a partir de los canales mono redefinidos grabados, por ejemplo dos canales mono de 15 bits con una frecuencia de muestreo de 22 kHz o cuatro canales mono de
14 bits con una frecuencia de muestreo de 11 kHz, junto con el conjunto de parametros complementarios, pueden obtenerse canales mono de 16 bits originales aproximados, que tienen una frecuencia de muestreo de 44 kHz.
Las caracterfsticas anteriores y otras caracterfsticas y funciones y ventajas de la presente invencion se haran 5 evidentes a partir de la siguiente descripcion detallada, tomada junto con los dibujos adjuntos, que ilustran, a modo de ejemplo, los principios de la invencion. Esta descripcion se proporciona solamente como ejemplo, sin limitar el alcance de la invencion. Los numeros de referencia indicados mas adelante se refieren a los dibujos adjuntos.
Breve descripcion de los dibujos
10
La figura 1 ilustra un flujo de procesamiento para la codificacion de audio para aplicaciones de acuerdo con una primera realizacion de la presente invencion.
La figura 2 ilustra un flujo de procesamiento para la grabacion de audio cuadrafonico verdadero de acuerdo con una segunda realizacion de la presente invencion.
15 La figura 3 ilustra la autorfa de CD+G(w).
La figura 4 ilustra un primer flujo A de audio (serie 1) y un flujo A' de audio aproximado (serie 2).
La figura 5 ilustra un segundo flujo B de audio (serie 1) y un flujo B' de audio aproximado (serie 2).
La figura 6 ilustra un flujo A+B de audio mezclado (serie 1) y un flujo A'+B' de audio mezclado aproximado (serie 2).
20 La figura 7 ilustra la aproximacion de muestra de la muestra A5 basada en un filtro FIR.
La figura 8 ilustra una compresion de audio debida a una mezcla o una interpolacion.
La figura 9 es una tabla que ilustra una comparacion de las propiedades de datos MIDI para los datos MIDI estandar y para los datos MIDI incluidos en el formato CD+G(w) tal como se usa de acuerdo con las realizaciones de la presente invencion.
25
Descripcion de realizaciones ilustrativas
La presente invencion se describira con respecto a realizaciones particulares y con referencia a ciertos dibujos, pero la invencion no se limita a los mismos, sino solamente por las reivindicaciones. Los dibujos descritos son solo 30 esquematicos y no son limitantes. Ademas, los terminos primero, segundo, tercero y similares, en la descripcion y en las reivindicaciones, se usan para distinguir entre elementos similares y no necesariamente para describir un orden secuencial o cronologico. Debe entenderse que los terminos usados de este modo son intercambiables en las circunstancias apropiadas y que las realizaciones de la invencion descritas en el presente documento son capaces de funcionar en otras secuencias que las descritas e ilustradas en el presente documento.
35
Cabe destacar que la expresion "que comprende", usada en las reivindicaciones, no deberfa interpretarse como restringida a los medios indicados mas adelante; no excluye otros elementos o etapas. Por lo tanto, debe interpretarse que especifica la presencia de las caracterfsticas, numeros enteros, etapas o componentes indicados, tal como se refiere, pero no excluye la presencia o adicion de una o mas caracterfsticas, numeros enteros, etapas o 40 componentes diferentes, o grupos de los mismos. Por lo tanto, el alcance de la expresion "un dispositivo que comprende medios A y B" no deberfa limitarse a dispositivos que consisten solo en componentes A y B. Significa que, con respecto a la presente invencion, los unicos componentes relevantes del dispositivo son A y B.
Ahora, la invencion se describira por medio de una descripcion detallada de varias realizaciones de la invencion. Es 45 evidente que otras realizaciones de la invencion pueden configurarse de acuerdo con el conocimiento de los expertos en la tecnica, sin apartarse de las ensenanzas tecnicas de la invencion, estando la invencion limitada solo por los terminos de las reivindicaciones adjuntas.
En un aspecto, la presente invencion propone una codificacion y decodificacion de audio multicanal.
50
1. Principio basico.
El presente aspecto de la presente invencion se refiere a la codificacion de una pluralidad de canales en una senal de audio mezclada de manera que los flujos de audio originales puedan reconstruirse a partir de la senal de audio 55 mezclada, y la decodificacion de al menos uno de la pluralidad de canales a partir de la senal de audio mezclada.
Un ejemplo de la presente invencion se describe con referencia a la codificacion y decodificacion de 4 canales, pero la presente invencion no se limita a las mismas. Cuantos mas canales se graben, mas muestras tienen que calcularse usando un filtro y menor puede ser la calidad de la musica reproducida, pero, en algunas aplicaciones, la
calidad de la musica no es de importancia primordial. El formato de codificacion de la presente invencion esta basado en la mezcla de 2 o mas flujos digitales de audio, de tal manera que los flujos de audio originales pueden ser reconstruidos a partir de la senal de audio mezclada.
5 Como un ejemplo para ilustrar esto, se parte de 2 flujos A y B de audio digital, mono, de 44,1 KHz, de 16 bits.
Al mezclar dos senales de audio, se usa una tecnica de aproximacion.
Se usa modulacion por codificacion de impulsos (PCM, Pulse Code Modulation) para muestrear audio analogico a 10 un codigo digital, tfpicamente, a 8.000 muestras/segundo. La cadena de audio digital se denomina, entonces, un flujo PCM.
En la figura 4, se muestra un primer flujo A de audio PCM en el grafico, como una lfnea de color gris oscuro (serie 1). Las muestras del primer flujo A de audio son: A0, A1, A2, A3, A4, A5,... A partir de esta serie de muestras, se genera 15 un nuevo flujo A' (gris claro, serie 2). El nuevo flujo A' es una aproximacion del primer flujo A de audio, usando una interpolacion lineal para aproximar las muestras impares del flujo A recien generado, mientras se copian las muestras pares. Las muestras del flujo A' son: A'0, A'1, A'2,... con A'2i = A2i y A2+1 = (A'2i + A'2i+2)/2. Por lo tanto, todas las muestras pares de la serie de muestras recien generada son identicas a los datos originales y todas las muestras impares se definen como la interpolacion lineal de la muestra anterior y la muestra siguiente.
20
En la figura 5, se muestra un segundo flujo B de audio PCM en el grafico, como una lfnea de color gris oscuro (serie 1). Las muestras del segundo flujo B de audio son: B0, B1, B2, B3, B4, B5,... A partir de esta serie de muestras, se genera un nuevo flujo B' (gris claro, serie 2). El nuevo flujo B' es una aproximacion del segundo flujo B de audio, usando una interpolacion lineal para aproximar las muestras pares del flujo B' recien generado, mientras se copian 25 las muestras impares. Las muestras del flujo B' son: B'0, B'1, B'2,... con B'2+1 = B2i+1 y B'2i = (B2-1 + B'2i+1)/2. Por lo tanto, todas las muestras impares son identicas a los datos originales y todas las muestras pares se definen como la interpolacion lineal de la muestra anterior y la muestra siguiente.
En la figura 6, ambos flujos A y B originales se mezclan (sumados) para obtener un primer flujo A+B mezclado (gris 30 oscuro, serie 1). Los flujos A' y B' aproximados se mezclan (sumados) para obtener un segundo flujo A'+B' mezclado (gris claro, serie 2). El segundo flujo A'+B' mezclado puede ser diferente del primer flujo A+B mezclado para cada muestra, ya que A' o B' pueden diferir de las muestras originales, pero, en general, el segundo flujo mezclado es todavfa una buena aproximacion del flujo A+B mezclado original (gris oscuro, serie 1).
35 Para desmezclar el flujo A'+B' mezclado, a fin de obtener las senales A, B' mono, aproximadas, a partir del flujo A' + B' mezclado, se necesitan la primera muestra original A0 = A'0 del primer flujo A de audio y la segunda muestra B1 = B'1 del segundo flujo B de audio.
El desmezclado de las senales (mono) a partir de A'+B' puede realizarse como se indica a continuacion: Las 40 muestras del segundo flujo A'+B' mezclado son: A'0+Bo, A'1+B'1, A2+B2, A3+B3, A4+B4, A5+B5,... Cuando se tiene una copia de la primera muestra A0 A'0 del primer flujo A de audio y de la segunda muestra B1 = B'1 del segundo flujo B de audio, los flujos A' y B' pueden reconstruirse.
1. con (A'0+Bo) y (A'0) conocidos, puede obtenerse B'0 45 2. con (A'1+B'1) y (B'1) conocidos, puede obtenerse (A'1)
3. con (A'0) y (A'1) conocidos, puede obtenerse (A'2), usando A'1 = (A'0+A'2)/2 o, por lo tanto, A'2 = (2 A'1 - A'0)
4. con (A2+B2) y (A'2) conocidos, puede obtenerse (B'2)
5. con (B'1) y (B'2) conocidos, puede obtenerse (B'3), usando B'2 = (B'1+B'3)/2 o, por lo tanto, B'3 = (2 B'2 - 50 B'1)
6. con (A3+B3) y (B'3) conocidos, puede obtenerse A'3
7. etc.
Si este procedimiento de mezcla de un flujo A, B de audio original con un flujo A', B' de audio interpolado se repite 55 para otro par de flujos (C, D) PCM (mono), se obtiene un segundo flujo C' + D' PCM (mono) mezclado. Estos 2 flujos A + B', C + D', PCM (mono) mezclados constituyen un flujo PCM estereo equivalente, que son los datos de audio PCM basicos generados por el codificador CD+G(w) y usados por las herramientas de creacion CD+G.
Con este principio basico en mente, puede concluirse que al menos algunos duplicados (A0 = A'0 y B1 = B'1)
(identicos) de las primeras muestras PCM iniciales a partir de los flujos originales se requieren como parte de la los parametros de filtro, con el fin de poder decodificar o desmezclar los flujos de audio PCM mezclados.
2. Restricciones y limitaciones del principio basico 5
La idea basica, como se ha explicado en la seccion anterior, para mezclar/desmezclar 2 flujos PCM mono, tiene diversas limitaciones y restricciones.
La aproximacion de un flujo PCM, usando una interpolacion lineal para aproximar las muestras impares de un flujo 10 (mientras se copian las muestras pares), y viceversa para el otro flujo PCM, da como resultado una perdida de informacion de frecuencia mas elevada del flujo pCm original. Por lo tanto, puede usarse una tecnica de aproximacion mas compleja, que incluye la optimizacion de los parametros del filtro usando criterios tales como la minimizacion de los errores de interpolacion, o la optimizacion de las caracterfsticas de frecuencia, que pueden incluir caracterfsticas perceptuales como parte de los criterios de optimizacion.
15
El mezclado de 2 flujos PCM puede dar como resultado rebasamientos. Cada uno de los flujos PCM del presente ejemplo es un flujo de 16 bits, de 44,1 kHz, con valores enteros de 16 bits, con signo, con un maximo de 32.767 y un mfnimo de -32.768. La suma de 2 flujos PCM, donde cada flujo podrfa tener su maximo de 32.767 en el mismo momento, proporciona un valor total de 65.534, que excede el maximo PCM de 16 bits (con signo). Para evitar 20 dichos rebasamientos, puede usarse un esquema de compresion dinamica, aplicado a los datos PCM, antes de mezclar todos estos flujos en un flujo estereo convertido desde multicanal.
Los parametros del filtro usados por tecnicas mas complejas en la aproximacion del flujo PCM, son el resultado de una optimizacion y se representan como valores en coma flotante. Sin embargo, para hacer que el procesamiento de 25 codificacion/decodificacion sea independiente de implementaciones aritmeticas en coma flotante, la codificacion CD+G(w) usada con la presente invencion se basara en calculos enteros y, de esta manera, los parametros tienen que convertirse o representarse por un numero entero, tanto para la codificacion como para la decodificacion.
Finalmente, el desmezclado de las muestras PCM con este algoritmo basico puede dar como resultado errores, 30 cuando se lee un error durante la lectura del disco CD+G. La naturaleza de este proceso es tal que todas las muestras reconstruidas despues de un unico error de lectura, seran tambien incorrectas, ya que las muestras PCM siguientes se reconstruyen usando la muestra anterior con su error, dando lugar a errores adicionales.
La tecnica de codificacion/decodificacion CD+G(w) avanzada de acuerdo con la presente invencion abordara todas 35 estas deficiencias y/o limitaciones.
3. Codificacion y decodificacion avanzada de acuerdo con las realizaciones de la presente invencion
a. Parametros del filtro 40
Para el primer flujo PCM, las muestras impares deben interpolarse. La interpolacion lineal, como se explica en la seccion acerca del principio basico, se reemplaza por un filtro FIR, donde los parametros del filtro se optimizan como se muestra en la figura 7.
45 Los parametros del filtro se usan para aproximar las muestras impares, por ejemplo, la muestra en A5 se genera a partir de las muestras pares Ao, A2, A4 y A6. A'5 = a.Aa+p.A4+y.A2+8.A0.
La formula general para la aproximacion de una muestra impar A2+5 es:
50
A'2i+5 = a.A2i+6+P.A2i+4+y.A2i+2+8.A2i o A'2i+6 = (1/a).(A'2i+5-P.A2i+4-y.A2i+2-8.A2i)
Esta formula puede usarse para el algoritmo basico cuando (a, p, y, 8) se definen como (0,5, 0,5, 0, 0), pero con el codificador de acuerdo con las realizaciones de la presente invencion, (a, p, y, 8) es el resultado de una optimizacion, que se explicara mas adelante. Ademas, puesto que el decodificador necesitara (1/a), se definen 55 restricciones sobre los conjuntos de parametros, para evitar valores de a demasiado cercanos a 0, para eliminar divisiones por cero. Ademas, debido a que se usan calculos enteros en el esquema de codificacion y decodificacion final, deben establecerse restricciones todavfa mas altas sobre los valores a para evitar calculos que introducen errores de redondeo demasiado altos.
B'2i+6 = a.B2i+7+P.B2i+5+Y.B2i+3+8.B2i+1 o B'2i+7 = (1/a).(B'2i+6-P.B2i+5-Y.B2i+3-8.B2i+1)
5 Un primer flujo A PCM, con muestras A0, A1, A2, A3, A4, A5, Aa, A7,..., se usa para generar un nuevo flujo A'. El nuevo flujo A' es una aproximacion del primer flujo A, por lo que las muestras pares se copian desde el primer flujo A PCM, y las muestras impares son aproximadas. Las muestras de A' son: A'o, A'i, A'2, A'3, A'4, A'5, A'a, A'7,... con A'2i = A2i y A'2i+5 se define por la formula anterior para todo i > 0. A'i = Ai para i < 5. Se usa un segundo flujo B PCM, con muestras Bo, Bi, B2, B3, B4, B5, Ba, B7,... para generar un nuevo flujo B'. El nuevo flujo B' es una aproximacion del 10 segundo flujo B, por lo que las muestras impares se copian desde el segundo flujo B PCM, y las muestras impares son aproximadas. Las muestras de B' son: B'o, B'i, B'2, B'3, B'4, B'5, B'a, B'7,... con B'2i+i = B2i+i y B'2i+a definidos por
una formula equivalente para todo i > 0. B'i = Bi para i < 6.
b. Operaciones de desmezclado i5
Al mezclar estos flujos A' y B' recien generados, se obtiene: A'0+Bo, A'i+B'i, A'2+B'2, A'3+B'3 A'4+B'4, A'5+B'5 A'a+B'a A'7+B'7, A'a+B'a A'g+B'g,... Usando una copia de las primeras muestras pares A0, A2, A4 del primer flujo A de audio, y una copia de las primeras muestras impares Bi, B3, B5 del segundo flujo B de audio, y los conjuntos de parametros del filtro (aA, Pa, ya, 8a) y (as, Pb, yb, 8b) puede definirse el siguiente esquema de desmezclado:
20
1. con (A'0+B'0) y (A'0) conocidos, puede obtenerse B'0
2. con (A'i+B'i) y (B'i) conocidos, puede obtenerse A'i
3. con (A2+B2) y (A'2) conocidos, puede obtenerse B'2
4. con (A3+B3) y (B'3) conocidos, puede obtenerse A'3 25 5. con (A4+B4) y (A'4) conocidos, puede obtenerse B'4
6. con (A5+B5) y (B'5) conocidos, puede obtenerse A'5
7. con A'0, A'2, A'4, A'5 conocidos, puede calcularse A'a usando A'a = (i/aA).(A'5 - Pa.A'4 - ya.A'2 - 8a.Ao)
8. con (A'a+B'a) y (A'a) conocidos, puede obtenerse B'a
9. con B'i, B'3, B'5, B'a conocidos, puede calcularse B'7 usando B'7 = (i/as).(B'a - Pb.B'5 - YB.B'3 - 8b.B'i)
30 i0. con (A'7+B'7) y (B'7) conocidos, puede obtenerse A'7
11. con A'2, A'4, A'a, A'7 conocidos, puede calcularse A'a usando A'a = (1/aA).(AV - PaA - YA.A'4 - 8a.A'2)
12. con (A'a+B'a) y (A'a) conocidos, puede obtenerse B'a
13. con B'3, B'5, B'7, B'a conocidos, puede calcularse B'g usando B'g = (1/as).(B'a - Pb.B'7 - YB.B'5 - 8b.B'3)
14. con (A'g+B'g) y (B'g) conocidos, puede obtenerse A'g
35 15. etc.
En esta etapa, se puede concluir que junto con los conjuntos de parametros (aA, Pa, ya, 8a) y (as, Pb, yb, 8b), se necesitaran tambien una copia de 3 muestras de la primera serie series (A'0, A'2, A'4) y 3 muestras de la segunda serie (B'i, B'3, B'5).
40
c. Secciones de tiempo y mapeo de parametros enteros
Una de las restricciones del principio basico era que no se recupera de un error. Una forma de limitar los efectos de un error de lectura (leyendo las muestras digitalmente desde el CD) es limitar el uso de estos parametros (aA, Pa, ya, 45 8a) y (as, Pb, yb, 8b) y la series de muestras iniciales (A'0, A'2, A'4) y (B'i, B'3, B'5) a un numero restringido de muestras PCM. Se ha descubierto que 40 ms de muestras de audio (3 x 588 muestras) es una longitud aceptable para una serie de muestras. Tal grupo de muestras se denominara una "seccion". Esto permite reducir el efecto de un error a una unica seccion, (max 40 ms), asf como optimizar un grupo de parametros de filtro para una cantidad menor de muestras, proporcionando un mejor comportamiento, por ejemplo, en terminos de errores de interpolacion o 50 caracterfsticas de frecuencia. Para cada una de estas secciones, se necesitaran las primeras 3 muestras, asf como los parametros del filtro.
Como se ha mencionado anteriormente, los parametros del filtro (a, p, y, 8) se optimizan y dan como resultado numeros en coma flotante. Estos numeros se representan por numeros enteros, ya que el algoritmo de codificacion y 55 decodificacion se implementa con operaciones de enteros, para hacerlo portatil e independiente de las implementaciones en coma flotante. Se usa la siguiente conversion para representar estos parametros usando un numero de ia bits, con signo, y un valor de 2 bits (numero de la base). Por ejemplo, a se convierte en un valor entero A de (-32.7a8) a 32.7a7 mientras que Ab recibe los valores 0, 1, 2 o 3. El procedimiento se explica a
En primer lugar, se define el valor de la base Ab:
5 Cuando a > 0: Ab = (unsigned char)(fabs(a+ 0,999999999999999999999999)) - 1;
si no, si a < 0: Ab = (unsigned char)(fabs(a- 0,999999999999999999999999)) - 1; si no: Ab = 0;
nota: fabs(x) devuelve el valor absoluto del valor x en coma flotante.
10 A continuacion
cuando Ab > 7: condicion de rebasamiento; la optimizacion de parametros no deberfa recibir tales valores
cuando Ab = 7, 6, 5 o 4, Ab se restablece a Ab = 3 15 cuando Ab = 3 o 2, Ab se restablece a Ab = 2
cuando Ab = 1, Ab no cambia. cuando Ab = 0, Ab no cambia.
O, en resumen
20
Ab = 0 cuando 1 > a > (-1),
Ab = 1 cuando 2 > a > 1 o (-1) > a > (-2),
Ab = 2 cuando 4 > a > 2 o (-2) > a > (-4),
Ab = 3 cuando 8 > a > 4 o (-4) > a > (-8).
25
Finalmente, a se convierte en un numero entero de 16 bits, con signo, usando la siguiente formula:
A = (corto) (a x (32768/(1 << Ab))).
30 De esta manera, a se convierte en un par (A, Ab), p se convierte en un par (B, Bb), y se convierte en un par (C, Cb) y 8 se convierte en un par (D, Db). Los numeros de base Ab, Bb, Cb, Db se fusionan en una BASE de 16 bits = Ab | (Bb<<4) | (Cb<<8) | (Db<<12).
La conclusion en esta etapa es la siguiente:
35
Para cada seccion de 40 ms, a partir de un unico flujo PCM, mono, de 16 bits, de 44,1 KHz, o 3 x 588 muestras (mono) de 16 bits, el codificador de acuerdo con las realizaciones de la presente invencion define un conjunto de parametros de filtro (a, p, y, 8) y convierte estos parametros en cuatro numeros (A, B, C, D) de 16 bit, con signo, y un numero BASE de 16 bits. Ademas, para la operacion de desmezclado, se requieren 3 muestras de 16 bits; serie (A'0, 40 A'2, A'4). Esto suma un total de 8 valores (4 + 1 + 3) de 16 bits, necesarios para las operaciones de desmezclado. Para el segundo flujo PCM de 16 bits, mono, de 44,1 KHz, se genera un conjunto similar de 8 valores de 16 bits por el codificador de acuerdo con las realizaciones de la presente invencion.
En total, el codificador de acuerdo con las realizaciones de la presente invencion es capaz de mezclar una 45 pluralidad, por ejemplo 4, flujos PCM, mono, de 16 bits en un flujo pCm, estereo, de 16 bits. 1 segundo de musica se divide en secciones de 40 ms (o 25 secciones por segundo). Cada seccion requiere valores/parametros de 4 x 8 x 16 bits.
En esta etapa, el codificador requiere 25x 4x 8x 2x bytes de datos adicionales por segundo, o 1600 bytes por 50 segundo.
d. Esquemas de mezclado avanzados y otros parametros de acuerdo con las realizaciones de la presente invencion
Hasta ahora, se han proporcionado ejemplos de mezclado de dos flujos PCM, mono, de 16 bits, en otro flujo PCM, 55 mono, de 16 bits, pero el codificador de acuerdo con las realizaciones de la presente invencion soporta diferentes esquemas de mezclado y desmezclado o "Modos de mezclado". El Modo de mezclado seleccionado es parte de los parametros CD+G(w), usando un parametro de Modo de mezclado de 4 bits.
Los siguientes modos de mezclado se proporcionan como ejemplos de referencia y pueden usarse con un codificador de acuerdo con la presente invencion;
Modo de mezclado 0: Solista en estereo (Instrumento/Voz), mezclado con fondo en estereo.
5
- Instrumento o voz solista en estereo, los canales izquierdo y derecho son (Solo-L, Solo-R)
- Fondo en estereo, los canales izquierdo y derecho (Bckg-L, Bckg-R)
Se mezclan en: Canales mezclados en estereo (Solo-L + Bckg-L, Solo-R + Bckg-R).
10 No se requieren operaciones adicionales de mezclado o desmezclado.
Modo de mezclado 1: Voz e instrumento mono mezclados con fondo en estereo.
- El canal de voz mono es (Voc)
15 - El canal de instrumento mono es (Instr)
- El fondo en estereo, los canales izquierdo y derecho son (Bckg-L, Bckg-R)
Se mezclan en: Canales estereos mezclados (Bckg-L + a.Voc + b.Instr, Bckg-R + c.Voc + d.Instr)
20 La panoramizacion de instrumento y voz depende de los valores para (a, b, c, d), donde a, b, c y d son tales que no hay ningun numero t que cumpla a = t.c y b = t.d. Los valores tfpicos son:
(a, b, c, d) = (1, 1, 1, 2): panoramiza la voz en el centro, el instrumento mas a la derecha.
(a, b, c, d) = (1,2, 1, 1): panoramiza la voz en el centro, el instrumento mas a la izquierda.
25 (a, b, c, d) = (2, 1, 1, 2): panoramiza la voz mas a la izquierda, el instrumento mas a la derecha.
(a, b, c, d) = (1,2, 2, 1): panoramiza la voz mas a la derecha, el instrumento mas a la izquierda. a, b, c o d pueden ser > 2, pero estos ejemplos incluiran la mayorfa de los casos.
Este esquema de mezclado requiere algunas operaciones adicionales, a fin de preparar los flujos originales para convertirse desde multicanal. Por ello, se generan en primer lugar 2 nuevos flujos mono;
30
- LeftVI = a.Voc + b.lnstr
- RightVI = c.Voc + d.Instr
Estos nuevos flujos se mezclaron con los canales de fondo (Bckg-L, Bckg-R) en (Bckg-L + a.Voc + b.lnstr, Bckg-R + 35 c.Voc + d.Instr). El desmezclado de estos flujos suministrara LeftVI y RightVI, que pueden usarse para reconstruir las pistas vocales e instrumentales, usando esta formula:
- Instr = (a/(d.a-c.b)).(RightVI - (c/a).LeftVI)
- Voc = (b/(c.b-a.d)).(RightVI - (d/b).LeftVI)
40
Modo de mezclado 2: 4 canales mono independientes mezclados con respecto a un canal estereo convertido desde multicanal
- El canal mono 1 es (C1)
45 - El canal mono 2 es (C2)
- El canal mono 3 es (C3)
- El canal mono 4 es (C4)
Se mezclan en: Canales en estereo (a.C1 + b.C2 + a'.C3 + b'.C4, c.C1 + d.C2 + c'.C3 + d'.C4). Este esquema de 50 mezclado requiere algunas operaciones adicionales con el fin de preparar los flujos originales para convertirse a estereo. Por ello, en primer lugar, se generan 4 nuevos flujos mono;
- Left1 = a.C1 + b.C2
- Right1 = c.C1 + d.C2
55 - Left2 = a'.C3 + b'.C4
- Right2 = c'.C3 + d'.C4
Estos canales se mezclan en (Left1 + Left2, Right1 + Right2). El par (a, c) define la panoramizacion del primer canal C1 al estereo convertido desde multicanal. (b, d), (a'c') y (b'd'), respectivamente, definen la panoramizacion para C2,
C3 y C4. Una vez mas, se aplica la restriccion de que no hay numeros t y t' que cumplan a = t.c y b = t.d y a' = t'.c' y b'= t'.d'.
Los valores tfpicos son:
5
(a, c) = (3,1): panoramiza el Canal 1 a la izquierda (b, d) = (l, 3): panoramiza el Canal 2 a la derecha (a', c') = (2,1): panoramiza el Canal 3 al centro-izquierda (a', c') = (1,2): panoramiza el Canal 4 al centro-derecha
10
A partir de la mezcla en estereo (Left1 + Left2, Right1 + Right2), Left1 y Left2, Right1 y Right2 pueden desmezclarse. A partir de estos canales desmezclados, C1, C2, C3 y C4 pueden reconstruirse usando:
- C1 = (b/(c.b-a.d)).(Right1 - (d/b).Left1)
15 - C2 = (a/(d.a-c.b)).(Right1 - (c/a).Left1)
- C3 = (b'/(c'.b'-a'.d')).(Right2 - (d'/b').Left2)
- C4 = (a'/(d'.a'-c'.b')).(Right2 - (c'/a').Left2)
Modo de mezclado 3: Audio cuadrafonico: Canales estereo frontal y estereo posterior
20
- Los canales estereos frontales izquierdo y derecho son (Fr-L, Fr-R)
- Los canales estereos posteriores izquierdo y derecho son (Rr-L, Rr-R)
Se mezclan en: (Fr-L + a.Rr-L, Fr-R + a.Rr-R)
25
Tfpicamente, los canales posteriores se atenuan antes del mezclado en una grabacion en estereo: (Fr-L + a.Rr-L, Fr- R + a.Rr-R). El parametro "a" indica una atenuacion de 0 dB a -255 dB.
Modos de mezclado 4-15: Otros modos de mezclado son libres de definirse para aplicaciones dedicadas, y los 30 codificadores/decodificadores estandar pueden ser compatibles o no con estos modos extra.
Debido a que el codificador de acuerdo con las realizaciones de la presente invencion es capaz de mezclar y desmezclar diferentes esquemas de panoramizacion, el decodificador requiere parametros adicionales de acuerdo con las realizaciones de la presente invencion y se generan por el codificador para seleccionar el esquema de 35 desmezclado correcto. Las opciones adicionales podrfan consistir en incluir informacion de panoramizacion envolvente dinamica usada por el decodificador para posicionar, de manera dinamica, los canales independientes dentro del espacio auditivo 3d. Por ejemplo, usando 1 byte para la panoramizacion izquierda/derecha dinamica, y otro byte para la panoramizacion frontal/posterior dinamica para un canal especffico. Otra opcion consiste en almacenar los parametros adicionales del filtro, por ejemplo, para las caracterfsticas del filtro que pueden ser utiles 40 cuando se aplican operaciones de cambio de tono o expansion temporal a los canales de audio desmezclados. Las tecnicas de procesamiento de audio, tales como el cambio de tono, son utiles para el karaoke, y la expansion temporal es util cuando se usa CD+G(w) como base para la formacion musical para cantar y tocar en grupo. Los efectos de procesamiento crean, de alguna manera, distorsion, y pueden ser utiles filtros adicionales para reducir los artefactos de estos efectos. El uso de dichos conjuntos de parametros adicionales solo se incluye aquf como 45 opciones extensionales.
Para poder vincular los grupos de parametros al numero de seccion de audio correcto, el numero de seccion puede incluirse como parte de los parametros. Estos numeros de seccion estan relacionados con el inicio de esa pista especffica. (La primera seccion de una pista en estereo es el numero 0). Para estos numeros de seccion, se asignan 50 18 bits (el maximo es 131071). (80 min = 80 x 60 x 25 = 120000 secciones). A continuacion, el formato CD+G(w) puede incorporar tambien datos MIDI y letras. Si estos datos estan presentes, se indica usando un unico bit para MIDI, y otro bit para las letras.
En resumen, para cada seccion de audio, se usan 8 bytes adicionales para especificar estos parametros:
55
byte1: ((Numero de Seccion y 0x000FF)) byte2: ((Numero de Seccion y 0x0FF00)>>8)
byte3: ((Numero de Seccion y 0x30000)>>16)|(Modo de Mezclado<<2)|(MIDI<<6) |(Letras<<7)
Los siguientes bytes dependen del modo de mezclado:
Modo de mezclado 0:
5 byte4 - byte8: podnan usarse para almacenar los parametros de expansion temporal o filtros de
cambio de tono
Modo de mezclado 1:
10 byte4: (a<<6 | b<<4 | c<<2 | d) (Esquema de mezclado a.V + b.I y c.V + d.I)
byte5 - byte8: usados para los filtros de desplazamiento temporal/expansion temporal o panoramizacion dinamica de audio de 1 o 2 canales, 1 byte para Izquierda/Derecha: (0x80: centro, 0xFF: derecha, 0x00: izquierda), otro byte para Frontal/Posterior: (0x80: centro, 0xFF: frontal, 0x00: posterior)
15
Modo de mezclado 2:
byte4: (a<<6 | b<<4 | c<<2 | d) (Esquema de mezclado a.C1 + b.C2 y c.C1 + d.C2) byte5: (a'<<6 | b'<<4 | c'<<2 | d') (Esquema de mezclado a'.C3 + b'.C4 y c'.C3 + d'.C4)
20 byte6 - byte8: usados para los filtros desplazamiento temporal/expansion temporal o
panoramizacion dinamica de 1 o 2 canales, 1 byte para Izquierda/Derecha: (0x80: centro, 0xFF: derecha, 0x00: izquierda), otro byte para Frontal/Posterior: (0x80: centro, 0xFF: frontal, 0x00: posterior)
25 Modo de Mezclado 3:
byte4: una atenuacion de sonido envolvente de canal de audio (0 dB a -255 dB) byte5 - byte8: disponible
30 Modo de Mezclado 4-15: los modos se van a definir, dependiendo de la aplicacion
byte4- byte8: a definir
Estos 8 bytes adicionales por seccion, 25 secciones por segundo, suman otros 200 bytes por segundo, de manera que el total de datos de parametros de acuerdo con las realizaciones de la presente invencion, incluyendo los 35 parametros de filtrado de audio, suman 1600 + 200 = 1800 bytes por segundo.
e. Compresores
El mezclado de los flujos PCM puede introducir rebasamientos. Un numero PCM, de 16 bits, con signo, esta limitado 40 a valores entre (-32768) a (32767). Con el fin de explicar los esquemas de compresion, los flujos PCM usados en el siguiente ejemplo de mezclado se definen como se indica a continuacion:
Un flujo PCM (voz), mono, de 16 bits, y un flujo PCM (instrumento), mono, de 16 bits se mezclan con un flujo PCM (audio de fondo-L/fondo-R), de 16 bits.
45
La primera pasada del codificador de acuerdo con las realizaciones de la presente invencion es para definir los parametros del filtro para Voz, Instrumento, Fondo-L y Fondo-R. Los flujos se convierten en primer lugar en datos en coma flotante, y se mapean a una escala de valores entre (-1) y (1). Se usa la aproximacion de muestra "impar" para los flujos de voz e instrumento, y la aproximacion de muestra "par" para el Fondo-L y Fondo-R. Estos flujos 50 aproximados recien generados son Voc', Instr', BckgL' y BckgR'. Debido a la naturaleza de la aproximacion, pueden haberse introducido rebasamientos durante la generacion de estos nuevos flujos, obteniendo valores >1 o <(-1). Por lo tanto, los nuevos datos se escalan, tfpicamente mediante la multiplicacion por (1/2) para volver a un intervalo de valores entre (-1) y (1) y, finalmente, los flujos se convierten en flujos PCM, de 24 bits, con signo, con valores entre (8388608) y (8388607) para anadir resolucion.
55
A continuacion, las marcas de tiempo de estas muestras que generan rebasamientos se identifican antes de mezclarlas en la conversion final en estereo desde multicanal. Para cada uno de estos flujos, de manera individual, se definen los factores de compresion asociados con las marcas de tiempo requeridas para reducir los rebasamientos. Cada muestra que no genera un rebasamiento recibira un factor de escala de 1, pero las muestras
que generan rebasamientos reciben un factor de escala <1. Para cada flujo, se define un valor umbral maximo. Cada muestra en la que, por ejemplo, |Voc'i| > MaxThreshold, recibe un factor de escala definido por (MaxThreshold/|Voc'i|). Los flujos comprimidos se definen como Voc'', Instr'', BckgL'' y BckgR''.
5 La conversion final desde multicanal al flujo en estereo es otra fuente de generation de rebasamientos, que requiere una compresion adicional. Por ejemplo, si se toma el siguiente esquema de mezclado: (BckgL'' + Voc'' + 2xlnstr'') y (BckgR'' + Voc'' + Instr''). Cuando |(BckgL" + Voc" + 2xInstr"i)| > MaxThld o |(BckgR"i + Voc" + Instr")| > MaxThld, se define un factor de escala adicional. En el caso en el que ambas muestras mezcladas (izquierda y derecha) requieren compresion, se selecciona la compresion mas alta y se aplica en ambas. En el caso en el que solo una 10 muestra mezclada requiere compresion, esa compresion se aplica aun a ambas muestras mezcladas (tanto muestra izquierda como derecha). Como resultado de la compresion, se obtienen nuevos flujos, Voc*, Instr*, BckgR* y BckgL*, donde, por ejemplo, Voc* = Voc x Vcompn y Vcompr es el resultado de multiplicar todos los factores de escala aplicados a esa muestra particular de ese flujo. La secuencia de todos estos factores de compresion para generar, por ejemplo, Voc*, como tal, constituyen un nuevo flujo Vcompr, en el que la mayorfa de los factores de 15 escala seran = 1 y aquellos que requieren compresion tendran un factor de escala <1.
En esta etapa, se obtienen 4 flujos de datos de factores de compresion, Vcompr, Icompr, BRcompr y BLcompr, que definen los factores de escala requeridos para cada muestra en cada flujo de audio PCM. Estos son en realidad una compresion de "impulsos", ya que funcionaran sobre las muestras especfficas que introducen rebasamientos en el 20 mezclado. Al aplicar dicha compresion solo a muestras "aisladas" se introducira una distorsion sustancial o artefactos en la grabacion de audio, ya que una compresion de "impulsos" de la muestra no serfa diferente de una discontinuidad del flujo de audio. Por lo tanto, debe aplicarse un filtro de efecto temporal, que extiende el efecto de compresion a lo largo de un periodo de tiempo tfpico de 100 ms antes y despues de estas marcas de tiempo especfficas de estas muestras.
25
La figura 8 proporciona una vision general de los factores de compresion, donde el efecto de compresion se aplica sobre varias muestras consecutivas.
En la section superior de la figura 8, la lfnea con rombos negros (serie 1) representa las muestras del flujo original. 30 La lfnea con cuadrados grises (serie 2) es el resultado de una (mala) aproximacion. Si se define un valor umbral de 60, hay presentes 2 muestras en las que se necesita la compresion, en la position 4 de las muestras originales y en la posicion 10, debido a la aproximacion.
En la seccion inferior de la figura 8, la lfnea con rombos negros (serie 1) representa los factores de compresion de 35 "impulsos", mientras que la lfnea gris claro (serie 2) define a una mejor compresion que se usara de acuerdo con una realization de la presente invention. Se aplica una compresion gradual sobre un numero de muestras antes y despues de los casos de compresion de "impulsos", por ejemplo, sobre las dos muestras antes y sobre dos muestras despues de la muestra en la que se necesita compresion.
40 f. Optimization de Parametros.
Como se ha explicado en la seccion anterior en el presente documento acerca de los parametros del filtro usados por el codificador/decodificador de acuerdo con las realizaciones de la presente invencion, los parametros del filtro (a, p, y, 8) tienen que optimizarse. Los parametros se usan para la aproximacion de una seccion de 1 flujo PCM 45 mono, de 16 bits, de 44,1 kHz. Dicha una seccion es equivalente a 3 x 588 muestras o 40 ms. La optimizacion de los parametros requiere criterios de optimizacion. El apartado siguiente proporciona una vision general de los diferentes criterios utiles para la optimizacion.
A modo de referencia, la seccion original de ese flujo PCM mono se define como A, con muestras Ai y 0 < i < 1764, y 50 los parametros del filtro (a, p, y, 8). El resultado de la aproximacion es un nuevo flujo, A'i (0 < i < 1764), con A'2i = A2i, A'2i+5 = a.A2i+6 + p.A2i+4 + y.A2i+2 + 8.A2i y A'i = Ai para i< 5.
55
Como se ha explicado anteriormente, una optimizacion con restricciones se define con un parametro a > (0,1), ya que no se permite que ese parametro este muy cerca de 0. Los criterios de optimizacion pueden ser definidos como:
A. Error mfnimo ponderado de interpolation lineal:
imagen1
siendo Wi el factor de
ponderacion, definido, por ejemplo, en funcion de |Ai-A'i| o, por ejemplo, de |Ai|. Los factores de ponderacion pueden usarse para aumentar el efecto de los errores en relation al error de aproximacion o al valor absoluto de las muestras.
10
15
20
25
B. Espectro de frecuencia similar.
Se define FA = DFT(A) y FA' = DFT(A') como la transformada discreta de Fourier de las secciones de audio A con Ai (0 < i < 1764) y A' con A'i (0 < i < 1764). FAi y FAi son numeros complejos. El espectro de potencia se define por PFAi = FAi*cj(FAi) y PFAi = FAi*cj(FAi) siendo cj() el complejo conjugado. PFAi (0 < i < 882) es el espectro de potencia de la section A para una frecuencia entre 0 y 22,05 kHz. PFAi (0 < i < 882) es el espectro de potencia de la seccion A'.
Al optimizar los parametros del filtro (a, p, y, 8), los criterios pueden definirse en base al espectro de potencia del flujo aproximado y el flujo original. Debido a que el nuevo flujo se crea copiando cada muestra par en el nuevo flujo, se puede esperar que el espectro de potencia para frecuencias en el intervalo de 011,025 kHz sera similar. Sin embargo, el espectro de potencia para frecuencias en el intervalo de 11,025 kHz hasta 22,050 kHz puede ser sustancialmente diferente. Por tanto, los criterios de optimization podrian definirse como:
mm
868
£Wi(PFAi-PFA’i)
siendo Wi factores de ponderacion, por ejemplo, para aumentar el efecto de los errores de potencia a frecuencia elevada. En el ejemplo, se observan los errores de potencia para el intervalo de frecuencias de 10,85 kHz (434) a 21,70 kHz (868).
C. Pueden aplicarse criterios de optimizacion mas complejos, como aquellos que tienen en cuenta las caracterfsticas perceptuales de audio, o una combination de diferentes criterios. En cualquier caso, se obtiene un conjunto de parametros (a, p, y, 8) que se van a usar por el decodificador y el codificador. Los esquemas del codificador y del descodificador son independientes de los criterios de optimizacion seleccionados para los parametros del filtro.
g. Implementation con enteros.
El proceso de codification de acuerdo con las realizaciones de la presente invention requiere varias etapas. Se parte de los flujos A y B originales y, a continuation, los parametros del filtro se optimizan para las secciones de 30 40 ms. Usando estos filtros, se obtienen A y B' como flujos aproximados. A continuacion, estos flujos A' y B' aproximados se mezclan de acuerdo con un esquema de mezclado seleccionado. Se definen los factores de compresion (representados por los flujos de compresion) y estos se aplican a los flujos A y B originales, antes de la mezcla, para obtener A" y B".
35 Como se ha explicado en los parrafos anteriores, el decodificador y el codificador se implementaran usando operaciones con numeros enteros, para hacer que la codificacion y la decodificacion sean independientes de la implementacion aritmetica en coma flotante. Debido a este enfoque, se introducen errores de redondeo. Esto es especialmente cierto para formulas como: A*2i+5 = a.A"2i+6+p.A"2i+4+y.A"2i+2+8.A"2i o A"2i+6 = (1/a).(A*2i+5 - p.A"2i+4 - y.A"2i+2-8.A"2i).
40
Como se ha indicado anteriormente, los parametros del filtro (a, p, y, 8) se representan como numeros enteros (A, B, C, D) de 16 bits, con numeros de base (Ab, Bb, Cb, Db). Usando esta representation, la formula de codificacion:
A*2i+5 = a.A”2i+6+p.A”2i+4+rA”2,+2+5.A”2i
45
se convierte en una operation con enteros de 32 bits:
A*tmp = (l«Ab).A.A”2i+6+(l«Bb).B.A”2i+4+(l«Cb).C.A”2i+2+(l«Db).D.A”2j
50 y se convierte de nuevo a un valor entero de 16 bits:
Si (A*tmp > 0) entonces A* = (A*tmp+16384)/32768;
Si no A* = (A*tmp-16384)/32768;
55 Esta implementacion con enteros de esta aproximacion, como tal, puede ser otra fuente generadora de condiciones
de rebasamiento, que ha de comprobarse de nuevo:
Si (|A*|> MaxThreshold) entonces "jInformar de condition de rebasamiento!!"
Si no A*2i+5 = A*tmp 5
En el caso de que exista una nueva condicion de rebasamiento, los flujos de compresion iniciales deben redefinirse, usando valores MaxThreshold mas pequenos.
Despues de analizar los efectos de la implementation con enteros de la formula de codification, los efectos de la 10 implementacion del decodificador con enteros deben analizarse tambien. La formula de decodificacion usada es:
A”2i+6 = (l/a).(A*2i+5 - p.A”2i+4 - y.A”2i+2 - 8.A”2i).
convertida en una formula con numeros enteros de 32 bits:
15
A”tmp = (32768. A*2i+s) - (l«Bb).B. A”2i+4 - (l«Cb).C. A”2i+2 - (l«Db).D. A”2i
A”= A”tmp / ((l«Ab).A)
De nuevo, esta implementacion con numeros enteros de esta aproximacion puede ser otra fuente generadora de 20 condiciones de rebasamiento, que ha de revisarse otra vez:
Si (|A"|> MaxThreshold) entonces "jInformar de condicion de rebasamiento!!"
Ademas, debido a las conversiones en enteros y al error de redondeo asociado, A" no es necesariamente igual a 25 A"2i+6. Para garantizar que el decodificador funcionara correctamente, el valor A"2i+6. original se "actualiza" o "reemplaza" con el valor aproximado de A". Este valor actualizado de A"2i+6. se usara, a continuation, como uno de los valores usados en la siguiente aproximacion de A"2i+7.
Una consecuencia de estos errores de redondeo es que no solo se aproximan las muestras impares del flujo, sino 30 tambien los valores pares son "actualizados" con los valores para los cuales la formula de decodificacion proporcionara el "valor" (actualizado) correcto. Pueden necesitarse actualizaciones sucesivas para las muestras pares, lo que puede conducir a una divergencia. Por lo tanto, se requiere indicar el nivel o las correcciones de los errores de redondeo. Como se ha mencionado anteriormente, se hace uso de una optimization con restricciones para los parametros (a, p, y, 8) para evitar grandes errores de redondeo. Para el parametro a, se establece, 35 tfpicamente, un lfmite inferior de 0,1, que representa un buen equilibrio entre las caracterfsticas de optimizacion del filtro, por un lado, y la minimization de los errores de redondeo, por otro. Sin embargo, si el efecto de los errores de redondeo es aun demasiado alto, la optimizacion debe repetirse con mayores restricciones para los parametros.
En un aspecto adicional, los datos MIDI y las letras de la presente invention se incluyen en el formato del 40 codificador.
Como se ha explicado en las secciones anteriores, el formato CD+G(w) usado para las realizaciones de la presente invencion incorpora tambien datos MIDI, asf como letras. Las letras se incluyen como parte del flujo de datos MIDI.
45 MIDI (Musical Instruments Digital Interface) define un protocolo de serie a-sfncrono, usado por los instrumentos musicales para transmitir datos. La tasa de bits se define como de 31250 bits/s. Un byte se transfiere usando un bit de inicio y parada, y la maxima tasa de bytes real es: 3125 bytes por segundo.
CD+G(w) usa, junto con los datos de audio PCM, canales de datos adicionales (canales de sub-codigo R-W desde el 50 CD) para almacenar parametros adicionales. Un sector de datos de audio PCM (es decir, 1/75esima parte de un segundo) tiene 72 bytes de sub-codigo R-W adicionales. Debido a una capa de correction de errores, y algunas estructuras logicas de datos de cabecera, el modo CD+G USER permite almacenar solo 48 bytes adicionales, o 48 x 75 = 3600 bytes por segundo. Se usan 1800 bytes por segundo para los parametros del filtro de audio, como se ha explicado en las secciones anteriores, que toman 24 bytes por sector de los sub-codigos CD. Esto deja solo 55 1800 bytes libres para estos datos MIDI u otros 24 bytes por section. Por lo tanto, se concluye que este ancho de banda (75 x 24 = 1800 bytes por segundo) no permite almacenar datos MIDI en un "formato de emision en tiempo real".
Por lo tanto, los datos MIDI usados en el formato CD+G(w) comprenden datos discretos con la informacion de marca de tiempo incluida. Los datos discretos son similares al evento o eventos de datos MIDI y la marca de tiempo es el tiempo delta, relativo al inicio de esa seccion de datos de sub-codigo particular. Un mensaje MIDI tfpico comprende 2
0 3 bytes. Por ejemplo:
5
Mensaje Nota ON: Byte 1: Nota On MIDI (0x90) en el Canal 2 (|0x02)
Byte 2: Numero de nota MIDI 64 (0x40)
Byte 3: Velocidad nota On MIDI 32 (0x20)
Mensaje Nota OFF: Byte 1: Nota Off MIDI (0x80) en el Canal 2 (|0x02)
Byte 2: Numero nota MIDI 64 (0x40)
Byte 3: Velocidad nota Off MIDI 0 (0x0)
Mensaje Nota OFF: (estado de ejecucion): Byte 1: Numero de nota MIDI 64 (0x40)
Byte 2: Velocidad nota Off MIDI 0 (0x0)
Un mensaje MIDI tfpico requiere 3 bytes, o 30 bits, de manera que la precision de temporizacion no es mejor que
1 ms. En CD+G(w) se usa 1 byte para definir la temporizacion delta relativa al inicio de la seccion sub-codigo de CD que contiene los mensajes MIDI. Una seccion es 1/75esima parte de un segundo o 13,3 ms. Este periodo de tiempo se
10 divide en 49 marcas de tiempo, con una precision del intervalo de marca de tiempo de (12/44100) o aprox. 272 us. Como tal, la resolucion temporal del CD+G(w) es 4 veces mejor en comparacion con MIDI. Debido a que se usan valores de 8 bits como marca de tiempo, pueden definirse retrasos para los eventos MIDI de aproximadamente 70 ms relativos al inicio de la seccion que contiene el mensaje MIDI. Esto permite agrupar, de manera mas eficaz, los mensajes MIDI dentro de un intervalo de tiempo mas corto.
15
MIDI restringe la definicion de velocidad a valores de 7 bits, pero CD+G(w) anade 1 bit adicional para aumentar la resolucion de la velocidad. Los mensajes MIDI tfpicos son de 3 bytes o de 2 bytes. Por cada seccion de Sub-codigo CD hay 24 bytes disponibles. Un mensaje MIDI de 3 bytes requiere 4 bytes de datos de sub-codigo de CD (marca de tiempo incluida), mientras que un mensaje MIDI de 2 bytes requiere 3 bytes. O, en 24 bytes pueden definirse 6 x 20 "mensaje MIDI de 3 bytes" [6 x (3+1)] u 8 x "mensaje MIDI de 2 bytes" [8 x (2+1)]. Si se toma la media, aproximadamente 17 bytes de datos MIDI eficaces estan disponibles dentro de 1 sector del sub-codigo CD+G(w), o 17 x 75 = 1275 bytes por segundo.
Se puede encontrar una comparacion de los datos MIDI estandar, y los datos MIDI incorporados en el formato 25 CD+G(w), de acuerdo con una realizacion de la presente invencion, en la figura 9.
Se usara MIDI en el formato CD+G(w), solo como datos para informacion tfpica de instrumento solista y/o letras, y no para remplazar una actuacion de una banda o una orquesta completa. Debido a este uso restringido, el ancho de banda limitado de 1275 bytes por segundo, no se considera un problema. Ademas, se gana en precision de 30 temporizacion y de velocidad, que es lo que se necesita, especfficamente, para las aplicaciones de reproduccion de instrumentos (reproduccion automatizada en grupo).
Finalmente, una suma de control CRC (Codigo de redundancia cfclica) de 16 bits, es decir, 16 bits anadidos al final de un bloque de datos para fines de comprobacion de errores, con una cabecera de 8 bits, podrfa anadirse por cada 35 3 sectores (40 ms) como parte de los datos MIDI de los datos de subcodigo RW, abarcando tanto el PCM como el subcodigo RW, como una referencia usada por el decodificador para verificar la integridad tanto de PCM como de los datos de subcodigo. Si se detecta un error de CRC, el decodificador deberfa decidir no decodificar el audio PCM, reproducir como estereo regular y gestionar los eventos de datos MIDI de una manera apropiada.
40 A partir de lo anterior, se apreciara que la presente invencion se refiere a un codificador para mezclar una pluralidad de canales independientes de audio mono en una grabacion estereo y generar un conjunto restringido de parametros adicionales usados para la masterizacion de una pista de audio de un dispositivo de almacenamiento, comprendiendo cada canal de audio un primer numero de muestras por unidad de tiempo, estando almacenada la pluralidad de canales independientes de audio mono en el dispositivo de almacenamiento con menos que el numero 45 de muestras por unidad de tiempo de cada canal de audio con la adicion de los valores calculados, calculados
usando un filtro de interpolacion con los parametros del filtro, para las muestras intermedias, aproximando las muestras intermedias calculadas a las muestras intermedias de los canales de audio, estando almacenados los parametros del filtro en el dispositivo de almacenamiento en los parametros adicionales.
5 La presente invencion se refiere tambien a un decodificador para decodificar una pluralidad de canales de audio mono grabados en una grabacion en estereo usando un conjunto limitado de parametros adicionales para la masterizacion de una pista de audio de un dispositivo de almacenamiento, estando cada canal de audio reconstruido a partir de un primer numero de muestras por unidad de tiempo, almacenandose la pluralidad de canales de audio mono en el dispositivo de almacenamiento con menos que el numero de muestras por unidad de tiempo de cada 10 canal de audio con la adicion de los valores calculados, calculados usando un filtro de interpolacion con los parametros del filtro, para muestras intermedias, aproximando las muestras intermedias calculadas a las muestras intermedias de los canales de audio, siendo almacenados los parametros del filtro en el dispositivo de almacenamiento en los parametros adicionales.
15 La presente invencion se refiere tambien a un dispositivo de almacenamiento que ha almacenado en el mismo una pluralidad de canales de audio mono grabados en una grabacion en estereo usando un conjunto restringido de parametros adicionales para la masterizacion de una pista de audio del dispositivo de almacenamiento, en el que cada canal de audio puede reconstruirse a partir de un primer numero de muestras por unidad de tiempo, estando almacenada la pluralidad de canales de audio mono en el dispositivo de almacenamiento con menos que el numero 20 de muestras por unidad de tiempo de cada canal de audio con la adicion de los valores calculados, calculados usando un filtro de interpolacion con los parametros del filtro, para las muestras intermedias, aproximando las muestras intermedias calculadas a las muestras intermedias de los canales de audio, siendo almacenados los parametros del filtro en el dispositivo de almacenamiento en los parametros adicionales.
25 En un aspecto, el codificador/descodificador de acuerdo con la presente invencion puede usarse para codificar y mezclar varios canales independientes, por ejemplo, 4 x canales de 44,1 KHz, de 16 bit, mono, en una grabacion de audio en estereo, de 44,1 KHz, de 16 bits, que genera un conjunto de parametros de datos adicionales. La grabacion puede realizarse en cualquier medio de grabacion adecuado, tal como un dispositivo de memoria de estado solido o un disco optico. Por ejemplo, estos parametros de datos adicionales se copian a un disco optico de audio estandar, 30 tal como un CD-DA (Audio Digital) usando, por ejemplo, los canales de sub-codigo del formato CD+G USER. El decodificador es capaz de regenerar la pluralidad de canales independientes. Se proporcionan diferentes caracterfsticas para su uso en diversas aplicaciones de audio, tales como Sing-Along & Play-Along o Automated Play-Along.
35 Se genera un conjunto de parametros de datos para cada perfodo de tiempo, por ejemplo, para cada 40 ms de grabacion de audio, y pueden incluir
- Parametros del filtro decodificador, para la reconstruccion de los canales de audio originales
- Parametros y modo de mezclado de audio, para indicar la presencia de datos MIDI y letras
40 - Parametros de atenuacion y panoramizacion de audio
- Datos de panoramizacion dinamica de audio 3D
- Parametros del filtro de audio para una extension de tiempo y/o cambio de tono mejorados
- Datos MIDI para instrumentos musicales electronicos o automatizados
- Datos de letras (integrados en MIDI)
45 - Datos de suma de control CRC de 16 bits, con cabecera de 8 bits, (integrado en MIDI)
La presente invencion puede usarse con grabaciones de audio y/o video en cualquier forma de dispositivo de almacenamiento, por ejemplo, de estado solido, disco optico, tales como CD-DA, CD-ROM, DVD-AUDIO o DVD- ROM, cinta, tales como cinta DAT. Tambien, pueden grabarse mas de 4 canales de audio de manera que cada uno 50 puede desmezclarse, segun sea necesario, por ejemplo, usando menos muestras de cada pista de audio mono y calculando mas puntos intermedios. Sin embargo, esto puede reducir la calidad global del audio y, normalmente, son suficientes 4 pistas.

Claims (16)

  1. Un codificador para mezclar
    - una pluralidad de canales de audio mono en
    - una grabacion de senal de audio estereo que comprende muestras mezcladas para su almacenamiento en una pista de audio de un dispositivo de almacenamiento, y
    - comprendiendo cada canal de audio mono un primer numero de muestras por unidad de tiempo,
    - teniendo cada canal de audio mono el mismo numero de muestras por unidad de tiempo, y el mismo tiempo de referencia,
    - comprendiendo la senal de audio menos muestras mezcladas por unidad de tiempo que una suma del numero de muestras por unidad de tiempo de todos los canales de audio mono usados en la senal de audio, y caracterizado por que
    el codificador esta adaptado para:
    15 - atenuar al menos un canal de audio mono usando al menos un coeficiente de atenuacion,
    - derivar muestras aproximadas filtrando por interpolacion muestras de los canales de audio mono respectivos,
    - siendo las muestras aproximadas intermedias en el tiempo con respecto a las muestras originales, formando las muestras originales de cada uno de la pluralidad de canales de audio mono un patron regular
    20 escalonado en el tiempo con relacion a cada muestra original de cada uno distinta de la pluralidad de
    canales de audio mono,
    - sumar una primera muestra original de una primera de la pluralidad de canales de audio mono y una primera muestra aproximada obtenida a partir de una segunda de la pluralidad de canales de audio mono para obtener una primera muestra mezclada, y sumar una segunda muestra original de la segunda de la
    25 pluralidad de canales de audio mono y una segunda muestra aproximada obtenida a partir de la primera de
    la pluralidad de canales de audio mono para obtener una segunda muestra mezclada, teniendo cada una de las segundas muestras tiempos que son sucesivos a los tiempos de cada una de las primeras muestras, estando el codificador adaptado para:
    - generar un conjunto de parametros adicionales para la masterizacion de la pista de audio del dispositivo
    30 de almacenamiento que comprende la grabacion de la senal de audio,
    - el conjunto de parametros que comprende parametros del filtro de interpolacion, coeficientes de atenuacion y muestras que permiten un calculo de la primera muestra de la primera de una pluralidad de canales de audio mono y la segunda muestra de la segunda de una pluralidad de canales de audio mono de la primera muestra mezclada.
    35
  2. 2. Un codificador como se ha indicado en la reivindicacion 1, en el que el dispositivo de almacenamiento puede reproducirse usando un reproductor de disco optico de audio, de manera que, en un primer modo, toda la pluralidad de canales de audio mono se reproduzcan como la grabacion de la senal de audio mezclada y, en un segundo modo, a partir de la grabacion de senal de audio, al menos uno de entre la pluralidad de canales de audio
    40 mono pueda desmezclarse y la grabacion de senal de audio se reproduzca con al menos un canal de audio mono eliminado.
  3. 3. Un codificador como se ha indicado en la reivindicacion 1 o 2, en el que el codificador esta adaptado para derivar las muestras aproximadas por interpolacion lineal, o en el que el codificador esta adaptado para derivar
    45 las muestras aproximadas usando un filtro FIR.
  4. 4. El codificador de cualquiera de las reivindicaciones anteriores, en el que la pluralidad de canales de audio mono son canales de audio PCM.
    50 5. El codificador de cualquiera de las reivindicaciones anteriores, adaptado para almacenar
    adicionalmente datos de control para un reproductor de instrumento controlado en un canal de sub-codigo del formato CD+G.
  5. 6. Un decodificador para decodificar
    55
    - un primer y un segundo canal de audio mono de
    - una grabacion de senal de audio estereo que comprende muestras mezcladas almacenadas en una pista de audio de un dispositivo de almacenamiento, comprendiendo adicionalmente la pista de audio un conjunto restringido de parametros adicionales, en el que
    1.
    10
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    - cada canal de audio mono comprende un primer numero de muestras por unidad de tiempo,
    - teniendo cada canal de audio mono el mismo numero de muestras por unidad de tiempo, y el mismo tiempo de referencia, y
    - la grabacion de la senal de audio comprende menos muestras mezcladas por unidad de tiempo que una suma del numero de muestras por unidad de tiempo del primer y segundo canal de audio mono,
    - estando al menos uno de los canales de audio mono atenuado usando coeficientes de atenuacion, y caracterizado por que: el decodificador esta adaptado para:
    - recuperar un conjunto de parametros,
    - restar una primera muestra decodificada previamente del primer canal de audio mono de una primera muestra mezclada para obtener una primera muestra del segundo canal de audio mono, estando la primera muestra decodificada previamente obtenida a partir de una muestra conocida de los parametros del filtro almacenados en el conjunto restringido de parametros adicionales, y restar una segunda muestra aproximada del segundo canal de audio mono de una segunda muestra mezclada para obtener una segunda muestra del primer canal de audio mono,
    - calcular, usando un parametro del filtro de interpolacion obtenido del conjunto de parametros, una tercera muestra de un primer canal de audio mono, de la primera muestra decodificada previamente y una segunda muestra aproximada de un primer canal de audio mono,
    - decodificar una tercera muestra aproximada posterior del segundo canal de audio mono usando la tercera muestra de un primer canal de audio mono y una tercera muestra mezclada,
    - precediendo la primera muestra mezclada directamente la segunda muestra mezclada y precediendo la segunda muestra mezclada directamente la tercera muestra mezclada,
    - precediendo la primera muestra decodificada previamente del primer canal de audio mono la segunda muestra aproximada del segundo canal de audio mono que precede la tercera muestra del primer canal de audio mono,
    - precediendo la primera muestra del segundo canal de audio mono que precede la segunda muestra del segundo canal de audio mono que precede la tercera muestra aproximada del segundo canal de audio mono,
    - formando las muestras originales de cada uno de los canales de audio mono un patron regular escalonado en el tiempo en relacion con cada muestra original de cada uno distinto de los otros canales de audio mono, y
    - reconstruir el primer y segundo canal de audio mono usando los coeficientes de atenuacion obtenidos del conjunto de parametros para invertir una atenuacion de uno de los canales de audio mono.
  6. 7. Un decodificador como se ha indicado en la reivindicacion 6, en el que la grabacion de la senal de audio puede reproducirse en un primer modo, al leer unicamente la grabacion de senal de audio estereo, y en un segundo modo, leyendo de forma complementarla el conjunto restringido de parametros adicionales del dispositivo de almacenamiento, al menos uno de la pluralidad de canales de audio mono puede desmezclarse y la grabacion de la senal de audio puede reproducirse con al menos un canal de audio eliminado y no reproducido.
  7. 8. Un decodificador como se ha indicado en la reivindicacion 6 o 7, en el que el decodificador esta adaptado para calcular las muestras aproximadas por interpolacion lineal, o en el que el decodificador esta adaptado para calcular las muestras aproximadas usando un filtro FIR.
  8. 9. El decodificador de cualquiera de las reivindicaciones 6 a 8, adaptado para recuperar adicionalmente datos de control para un reproductor de instrumento controlado de un canal de sub-codigo del formato CD+G.
  9. 10. El decodificador de acuerdo con cualquiera de las reivindicaciones 6 a 9, en el que el conjunto restringido de parametros adicionales comprende parametros para aislar, eliminar o atenuar uno o mas canales mono durante la reproduccion.
  10. 11. Un sistema de audio que comprende un codificador de acuerdo con cualquiera de las reivindicaciones 1 a 5, y/o un decodificador de acuerdo con cualquiera de las reivindicaciones 6 a 9 y/o un dispositivo de almacenamiento que comprende una grabacion de la senal de audio obtenida de un codificador de acuerdo con cualquiera de las reivindicaciones 1 a 5.
  11. 12. El sistema de audio de acuerdo con la reivindicacion 11, en el que cuando se usa con una aplicacion de reproductor de instrumento, el instrumento principal se filtra de la senal de audio y se reemplaza por un
    reproductor de instrumento controlado.
  12. 13. El sistema de audio de acuerdo con cualquiera de las reivindicaciones 11 o 12, en el que se proporciona una combinacion de tanto la aplicacion de Karaoke como la aplicacion de reproductor de instrumento.
    5
  13. 14. El sistema de audio de acuerdo con cualquiera de las reivindicaciones 11 o 13, en el que los datos Midi se integran en el dispositivo de almacenamiento.
  14. 15. El sistema de audio de acuerdo con la reivindicacion 11, que esta adaptado adicionalmente para la 10 conversion en aritmetica de numeros enteros, estando adaptados el codificador y/o el decodificador para compensar
    los errores de redondeo y conversion para proporcionar un proceso de decodificacion que es la operacion inversa de la codificacion.
  15. 16. El sistema de audio de acuerdo con cualquiera de las reivindicaciones 11 a 15, en el que los 15 parametros del filtro de audio requeridos por el decodificador y que son una parte del conjunto restringido de
    parametros adicionales, se regeneran para cada periodo de tiempo, que es corto en comparacion con la resolucion de audio del ofdo humano.
  16. 17. El sistema de audio de acuerdo con cualquiera de las reivindicaciones 11 a 16, en el que el codificador 20 incorpora un compresor dinamico que previene rebasamientos cuando se mezclan y/o codifican la pluralidad de
    canales mono en el canal de audio mezclado.
ES10183788.8T 2004-04-30 2005-04-29 Grabación en estéreo compatible con multicanal Active ES2555658T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US56704104P 2004-04-30 2004-04-30
US567041P 2004-04-30

Publications (1)

Publication Number Publication Date
ES2555658T3 true ES2555658T3 (es) 2016-01-07

Family

ID=34935948

Family Applications (3)

Application Number Title Priority Date Filing Date
ES10183793.8T Active ES2552802T3 (es) 2004-04-30 2005-04-29 Grabación en estéreo compatible con multicanal
ES05009434T Active ES2385986T3 (es) 2004-04-30 2005-04-29 Grabación en estéreo compatible con multicanal
ES10183788.8T Active ES2555658T3 (es) 2004-04-30 2005-04-29 Grabación en estéreo compatible con multicanal

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES10183793.8T Active ES2552802T3 (es) 2004-04-30 2005-04-29 Grabación en estéreo compatible con multicanal
ES05009434T Active ES2385986T3 (es) 2004-04-30 2005-04-29 Grabación en estéreo compatible con multicanal

Country Status (6)

Country Link
US (1) US8009837B2 (es)
EP (3) EP2337028B1 (es)
DK (3) DK2337029T3 (es)
ES (3) ES2552802T3 (es)
HK (1) HK1159302A1 (es)
PL (3) PL2337029T3 (es)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006086921A (ja) * 2004-09-17 2006-03-30 Sony Corp オーディオ信号の再生方法およびその再生装置
US8271872B2 (en) * 2005-01-05 2012-09-18 Apple Inc. Composite audio waveforms with precision alignment guides
PT2299734E (pt) * 2006-10-13 2013-02-20 Auro Technologies Um método e um codificador para combinação de conjuntos de dados digitais, um método de descodificação e um descodificador para esses conjuntos combinados de dados digitais, e um suporte de gravação para armazenamento desse conjunto combinado de dados digitais
US20110015767A1 (en) * 2009-07-20 2011-01-20 Apple Inc. Doubling or replacing a recorded sound using a digital audio workstation
US8774417B1 (en) * 2009-10-05 2014-07-08 Xfrm Incorporated Surround audio compatibility assessment
JP5532518B2 (ja) * 2010-06-25 2014-06-25 ヤマハ株式会社 周波数特性制御装置
US8428277B1 (en) * 2011-10-11 2013-04-23 Google Inc. Clipping protection in fixed-width audio mixing
US9131313B1 (en) * 2012-02-07 2015-09-08 Star Co. System and method for audio reproduction
KR101444140B1 (ko) 2012-06-20 2014-09-30 한국영상(주) 모듈형 음향 시스템용 오디오 믹서
JP6040357B2 (ja) * 2012-08-30 2016-12-07 ティアック株式会社 アンプユニット及びこれを備える携帯電子機器
KR20140029935A (ko) * 2012-08-31 2014-03-11 삼성전자주식회사 디스플레이 장치, 안경 장치 및 그 제어 방법
US10127912B2 (en) 2012-12-10 2018-11-13 Nokia Technologies Oy Orientation based microphone selection apparatus
WO2014168618A1 (en) * 2013-04-11 2014-10-16 Nuance Communications, Inc. System for automatic speech recognition and audio entertainment
CN107430862B (zh) * 2015-02-27 2022-10-04 奥罗技术公司 数字数据集合的编码和解码
US10210881B2 (en) 2016-09-16 2019-02-19 Nokia Technologies Oy Protected extended playback mode
JP7434792B2 (ja) 2019-10-01 2024-02-21 ソニーグループ株式会社 送信装置及び受信装置、並びに音響システム
CN111798866A (zh) * 2020-07-13 2020-10-20 商汤集团有限公司 音频处理网络的训练及立体声重构方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH087941B2 (ja) 1986-04-10 1996-01-29 ソニー株式会社 デジタル再生機器の同期方法
US5274740A (en) 1991-01-08 1993-12-28 Dolby Laboratories Licensing Corporation Decoder for variable number of channel presentation of multidimensional sound fields
JP2766466B2 (ja) 1995-08-02 1998-06-18 株式会社東芝 オーディオ方式、その再生方法、並びにその記録媒体及びその記録媒体への記録方法
US5852800A (en) 1995-10-20 1998-12-22 Liquid Audio, Inc. Method and apparatus for user controlled modulation and mixing of digitally stored compressed data
US5796844A (en) * 1996-07-19 1998-08-18 Lexicon Multichannel active matrix sound reproduction with maximum lateral separation
US5862228A (en) 1997-02-21 1999-01-19 Dolby Laboratories Licensing Corporation Audio matrix encoding
US6055502A (en) * 1997-09-27 2000-04-25 Ati Technologies, Inc. Adaptive audio signal compression computer system and method
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US6405163B1 (en) 1999-09-27 2002-06-11 Creative Technology Ltd. Process for removing voice from stereo recordings
EP1532734A4 (en) * 2002-06-05 2008-10-01 Sonic Focus Inc ACOUSTIC VIRTUAL REALITY ENGINE AND ADVANCED TECHNIQUES FOR IMPROVING THE DELIVERED SOUND
WO2005003927A2 (en) 2003-07-02 2005-01-13 James Devito Interactive digital medium and system

Also Published As

Publication number Publication date
DK2337029T3 (en) 2015-12-07
EP2337028A1 (en) 2011-06-22
EP1592008A3 (en) 2006-07-12
PL1592008T3 (pl) 2012-09-28
HK1159302A1 (zh) 2012-07-27
US8009837B2 (en) 2011-08-30
EP2337029B1 (en) 2015-08-26
PL2337028T3 (pl) 2016-03-31
EP1592008A2 (en) 2005-11-02
DK1592008T3 (da) 2012-07-02
EP1592008B1 (en) 2012-05-23
US20050259828A1 (en) 2005-11-24
EP2337028B1 (en) 2015-09-16
ES2552802T3 (es) 2015-12-02
PL2337029T3 (pl) 2016-02-29
EP2337029A1 (en) 2011-06-22
DK2337028T3 (en) 2016-01-04
ES2385986T3 (es) 2012-08-06

Similar Documents

Publication Publication Date Title
ES2555658T3 (es) Grabación en estéreo compatible con multicanal
ES2350018T3 (es) Método y codificador para combinar conjuntos de datos digitales, método para descodificar y descodificador para tales conjuntos de datos digitales combinados y soporte de grabación para almacenar tales conjuntos de datos digitales combinados.
JP4731774B2 (ja) 高品質オーディオ用縮尺自在符号化方法
EP0798866A2 (en) Digital data processing system
JPH09231693A (ja) 光ディスクシステムにおけるエラー補正方法および装置
GB2366444A (en) The copy protection of digital audio compact discs
JP2003535420A (ja) コピー・プロテクトされたデジタル・オーディオ・コンパクト・ディスク、ならびに当該のディスクを作成するための方法およびシステム
KR100341374B1 (ko) 디지탈신호처리방법,디지털신호처리장치및기록매체
JP2009116362A (ja) 記録媒体より再生されるデジタルデータを処理するための装置および方法
ES2248549T3 (es) Edicion de señales de audio.
JP4211166B2 (ja) 符号化装置及び方法、記録媒体、並びに復号装置及び方法
US5636186A (en) Multiple audio channels recording and reproduction apparatus
JP3552379B2 (ja) 音響再生装置
WO2002086889A1 (fr) Procede et appareil d&#39;enregistrement de donnees, procede et appareil de reproduction de donnees, et procede et appareil d&#39;edition de donnees
US8626494B2 (en) Data compression format
Smyth et al. DTS Coherent Acoustics Delivering High-Quality Multichannel Sound to the Consumer
JPH0536208A (ja) マルチメデイア対応再生専用デイスク、その記録方法及び再生装置
KR0138464B1 (ko) 화음데이터가 기록된 영상가요매체와 그 재생장치
JP2005084696A (ja) オーディオ信号にカラオケ情報を挿入するための方法、挿入されたカラオケ情報の再生方法、及びその装置とそれを具現するためのプログラムが記録された記録媒体
JP3572817B2 (ja) 情報符号化方法及び情報復号化装置
JPH07287877A (ja) Cdマスタリング用記録媒体
JPH07273659A (ja) ディジタル信号処理方法及び装置、並びに記録媒体
Nilsson Tech talk: all about audio.
WO2003085836A1 (fr) Procede d&#39;enregistrement/lecture de signal, procede de generation d&#39;une chaine de codes et programme
JP2005093061A (ja) 情報記録装置及び情報再生装置