ES2374434T3 - Codificación paramétrica conjunta de fuentes de audio. - Google Patents
Codificación paramétrica conjunta de fuentes de audio. Download PDFInfo
- Publication number
- ES2374434T3 ES2374434T3 ES06708241T ES06708241T ES2374434T3 ES 2374434 T3 ES2374434 T3 ES 2374434T3 ES 06708241 T ES06708241 T ES 06708241T ES 06708241 T ES06708241 T ES 06708241T ES 2374434 T3 ES2374434 T3 ES 2374434T3
- Authority
- ES
- Spain
- Prior art keywords
- audio
- parameters
- source signals
- source
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000003595 spectral effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 238000005311 autocorrelation function Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 abstract description 28
- 238000003786 synthesis reaction Methods 0.000 abstract description 28
- 230000000875 corresponding effect Effects 0.000 abstract description 10
- 238000011156 evaluation Methods 0.000 abstract 1
- 230000005236 sound signal Effects 0.000 description 22
- 239000000203 mixture Substances 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008447 perception Effects 0.000 description 5
- 230000001934 delay Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 101100268670 Caenorhabditis elegans acc-3 gene Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 235000014366 other mixer Nutrition 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000005307 time correlation function Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/13—Application of wave-field synthesis in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
Método para sintetizar una pluralidad de canales de audio ( x1 (n ), x2(n )) 1 x n x n , que comprende las etapas de: - recuperar de un flujo de audio al menos una señal suma (s(n)) que representa una suma de señales fuente ( ( ), ( ),..., ( )) 1 2 s n s n s n M , - recuperar del flujo de audio la información estadística (Φ)(n,d) , (φ)(n,e) , Es~s (n) } i que representa el envolvente espectral de una o más señales fuente ( ( ), ( ),..., ( )) 1 2 s n s n s n M , - recibir del flujo de audio, o determinar de manera local, parámetros ( ) n S que describen un formato de audio de salida y unos parámetros de mezcla ( , ) i i a b de las señales fuente, y - sintetizar la pluralidad de canales de audio ( x1 ( n) x2 (n )) 1 2 x n x n a partir de la al menos una señal suma basándose en unos parámetros de mezclador de salida (g , g , D , D ) 1 2 1 2 calculados, en el que se calculan los parámetros de mezclador de salida (g , g , D , D ) 1 2 1 2 a partir de la información estadística recibida, los parámetros que describen el formato de audio de salida, y dichos parámetros de mezcla ( , ) i i a b de las señales fuente, de manera que la pluralidad de canales de audio sintetizados tienen indicaciones (ICLD, ICTD, ICC) similares a las indicaciones (ICLD, ICTD, ICC) de los canales de audio obtenibles mediante la mezcla de las señales fuente utilizando los parámetros (S) n que describen el formato de audio de salida y dichos parámetros de mezcla de las señales fuente.
Description
Codificación paramétrica conjunta de fuentes de audio.
En un problema de codificación general, existe un número de señales (mono) fuente si(n) (1 < i < M) y un
vector de descripción de escena S(n), donde n es el índice de tiempo. El vector de descripción de escena contiene parámetros, tal como posiciones de fuente (virtuales), anchos de fuente y parámetros acústicos, tal como los parámetros del área (virtuales). La descripción de escena puede ser invariante con el tiempo o puede cambiar con el tiempo. Las señales fuente y la descripción de escena se codifican y transmiten a un descodificador. Las señales fuente codificadas,
sˆi(n) son mezcladas sucesivamente como una función de la descripción de escena, Sˆ(n) , para generar síntesis de
campo de onda, señales multicanal o estéreo, como una función del vector de descripción de escena. Las señales de
salida del descodificador se denotan como (xˆi (n) (0 : i : N).
Cabe mencionar que el vector de descripción de escena S(n) puede no ser transmitido, pero puede ser determinado en el descodificador. En este documento, el término de “señal de audio estéreo” siempre se refiere a señales de audio estéreo de dos canales.
Se trata ISOMEC MPEG-4 del escenario de codificación descrito. Define la descripción de escena y usa para cada señal fuente (“natural”) un codificador de audio mono separado, por ejemplo, un codificador de audio de AAC. Sin embargo, cuando una escena compleja con muchas fuentes se va a mezclar, la velocidad de bits llega a ser alto, es decir, se escala en forma ascendente la velocidad de bits con el número de fuentes. La codificación de una señal fuente con alta calidad requiere de aproximadamente 60 a 90 kb/seg.
Anteriormente, se refirió a un caso especial del problema de codificación descrito [1][2] con un esquema denominado Codificación de Indicación Binaural (BCC, Binaural Cue Coding) para la Presentación Flexible. Al transmitir sólo la suma de las señales fuente dadas, más la información secundaria de la velocidad de bits baja, se logra esta velocidad de bits baja. Sin embargo, no pueden recuperarse las señales fuente en el descodificador y el esquema se limitó a la generación de señales circundantes estéreo y multicanales. Igualmente, sólo se utilizó la mezcla sencilla, con base en la panorámica de amplitud y retardo. Así, podía controlarse la dirección de fuentes, pero no otros atributos de imagen espacial auditivos. Otra limitación de este esquema es su calidad de audio limitada. Especialmente, hay una disminución en la calidad de audio conforme se aumenta el número de señales fuente.
El documento [1] (Codificación de Indicación Binaural, Estéreo Paramétrico, MP3 Circundante, MPEG Circundante) cubre el caso donde N canales de audio se codifican y N canales de audio, con indicaciones similares y a continuación los canales de audio originales se descodifican. La información secundaria transmitida incluye parámetros de indicación entre canales relativos a las diferencias entre los canales de entrada.
Los canales de las señales de audio estéreo y multicanal contienen mezclas de señales fuente de audio y son así diferentes en naturaleza con respecto a las señales fuente de audio puras. Las señales de audio estéreo y multicanal se mezclan de modo que cuando se reproducen en un sistema de reproducción apropiado, el oyente percibirá una imagen espacial auditivo (“etapa de sonido”) tal y como se captura por el ajuste de grabación o se diseña por el ingeniero de grabación durante la mezcla. Se ha propuesto anteriormente un número de esquemas para la codificación conjunta para los canales de una señal de audio estéreo o multicanal.
Se da a conocer en la tesis doctoral titulada “Parametric Coding of Spatial Audio”, de Christof Faller, Lausanne ELF, 2004, la codificación paramétrica de audio espacial utilizando indicaciones de percepción. Se introduce en un banco de filtros una señal suma transmitida y una etapa de síntesis realiza una síntesis en el dominio del banco de filtros.
Es objeto de la invención proporcionar un concepto mejorado para sintetizar una pluralidad de canales de audio.
Se alcanza este objeto mediante un método para sintetizar una pluralidad de canales de audio según la reivindicación 1,
o un aparato para sintetizar una pluralidad de canales de audio según la reivindicación 13.
Preferiblemente, la invención proporciona un método para transmitir una pluralidad de señales fuente utilizando un ancho de banda mínimo. En la mayoría de los métodos conocidos, el formato de reproducción (por ejemplo estéreo, 5.1) es predefinido y tiene una influencia directa en el escenario de codificación. El flujo de audio en el lado del descodificador debe usar solamente este formato de reproducción predefinido, por lo tanto, obligando al usuario a utilizar un escenario de reproducción predefinido (por ejemplo, estéreo).
La invención propuesta codifica N señales fuente de audio, típicamente no canales de señales estéreo o multicanal, sino señales independientes, tal como diferentes señales de voz o de instrumentos. La información secundaria transmitida incluye parámetros estadísticos que se relacionan con las señales fuente de audio de entrada.
La invención propuesta descodifica M canales de audio con indicaciones diferentes con respecto a las señales fuente de audio originales. Estas indicaciones diferentes se sintetizan implícitamente mediante la aplicación de un mezclador a la señal suma recibida. El mezclador se controla como una función de la información fuente estadística recibida y los parámetros de formato de audio recibidos (o determinados de manera local) y los parámetros de mezcla. Alternativamente, estas diferentes indicaciones se calculan explícitamente como una función de la información fuente estadística recibida y los parámetros de formato de audio recibidos (o determinados de manera local) y los parámetros de mezcla. Estas indicaciones calculadas se usan para controlar un descodificador de la técnica anterior (Codificación de Indicación Binaural, Estéreo Paramétrico, MPEG Circundante) para sintetizar los canales de salida dada la señal suma recibida.
El esquema propuesto para la codificación conjunta de señales fuente de audio es el primero de su clase. Se ha diseñado para la codificación conjunta de señales fuente de audio. Las señales fuente de audio habitualmente son señales de audio mono que no son adecuadas para la reproducción mediante un sistema de audio estéreo o multicanal. Para brevedad, en lo siguiente, las señales fuente de audio son a menudo denominadas como señales fuente.
Las señales fuente de audio primero necesitan ser mezcladas a las señales de audio estéreo, multicanal o de síntesis de campo de onda anteriormente a la reproducción. Una señal fuente de audio puede ser un único instrumento
o conversador, o la suma de un número de instrumentos y conversadores. Otro tipo de señal fuente de audio es una señal de audio mono capturada con un micrófono de zona durante un concierto. A menudo las señales fuente de audio se almacenan en grabadoras de múltiples pistas o en sistemas de grabación de disco duro.
El esquema reivindicado para la codificación conjunta de señales fuente de audio se basa en transmitir solamente la suma de las señales fuente de audio,
(1)
o una suma ponderada de las señales fuente. Opcionalmente, la suma ponderada puede realizarse con diferentes pesos en diferentes subbandas y pueden adaptarse los pesos en el tiempo. Además puede aplicarse la suma con ecualización, tal y como se describe en el Capítulo 3.3.2 en [1]. En lo siguiente, al referirse a la suma o señal suma, siempre se entiende una señal generada por (1) o generada según lo descrito. Además de la señal suma, se transmite la información secundaria. La suma y la información secundaria representan el flujo de audio producido. Opcionalmente, se codifica la señal suma usando un codificador convencional de audio mono. Puede almacenarse este flujo en un archivo (CD, DVD, disco duro) o transmitirse al receptor. La información secundaria representa las propiedades estadísticas de las señales fuente que son los factores más importantes que determinan las indicaciones espaciales de percepción de las señales de salida del mezclador. Se mostrará que estas propiedades son envolventes espectrales que se desarrollan en el tiempo y funciones de autocorrelación. Se transmiten alrededor de 3 kb/seg de información
secundaria por señal fuente. En el receptor, se recuperan las señales fuente sˆi(n) (1 < i < M) con las propiedades
estadísticas antes mencionadas, que se aproximan a las propiedades correspondientes de las señales fuente originales y la señal suma.
Se comprenderá mejor la invención gracias a las figuras adjuntas, en las que:
- -
- la figura 1 muestra un esquema en el que la transmisión de cada señal fuente se hace independientemente para un procesamiento ulterior;
- -
- la figura 2 muestra un número de fuentes transmitidas como la señal suma más la información secundaria;
- -
- la figura 3 muestra un diagrama de bloques del esquema de Codificación de Indicación Binaural (BCC);
- -
- la figura 4 muestra un mezclador para generar señales estéreo con base en varias señales fuente,
- -
- la figura 5 muestra la dependencia entre ICTD, ICLD e ICC y la potencia de subbanda de la señal fuente;
- -
- la figura 6 muestra el proceso de la generación de información secundaria;
- -
- la figura 7 muestra el proceso de estimar los parámetros de LPC de cada señal fuente;
- -
- la figura 8 muestra el proceso de recrear las señales fuente desde una señal suma;
- -
- la figura 9 muestra un esquema alternativo para la generación de cada señal desde la señal suma;
- -
- la figura 10 muestra un mezclador para generar señales estéreo basándose en la señal suma;
- -
- la figura 11 muestra un algoritmo panorámico de amplitud que evita que los niveles fuente dependan de los parámetros de mezcla;
- -
- la figura 12 muestra un conjunto de altavoces de un sistema de reproducción de síntesis de campo de onda;
- -
- la figura 13 muestra cómo recuperar una estimación de las señales fuente en el receptor mediante el 5 procesamiento de la mezcla descendente de los canales transmitidos;
- -
- la figura 14 muestra cómo recuperar una estimación de las señales fuente en el receptor mediante el procesamiento de los canales transmitidos.
II. DEFINICIONES, NOTACIÓN Y VARIABLES
Se usan en este documento la siguiente notación y variables:
n índice de tiempo;
i canal de audio o índice fuente;
d índice de retardo;
M número de señales fuente de entrada del codificador;
N número de canales de salida del descodificador;
señales fuente originales mezcladas;
xi (n)
señales de salida del descodificador mezcladas;
señales fuente de entrada del codificador;
si (n)
señales fuente transmitidas, también llamadas señales pseudo fuente
s(n) señal suma transmitida;
señal de audio del canal L; (señal de audio a remezclar);
si (k) una señal de subbanda de si(n) (definida de manera análoga para otras señales);
2 ~2
E{~si (n)} estimación de tiempo corto de si(n) (definida de manera análoga para otras señales);
ICLD diferencia de nivel entre canales;
ICTD diferencia de tiempo entre canales;
ICC coherencia entre canales
ML(n) ICLD de subbanda estimada;
T(n) ICTD de subbanda estimada;
c(n) ICC de subbanda estimada;
~ pi (n) potencia de subbanda de fuente relativa;
factores de escala del mezclador;
ai , bi
retardos del mezclador;
ci , di
nivel del mezclador y diferencia de tiempo;
MLi , T (n)
ganancia fuente del mezclador
Gi
III. CODIFICACIÓN CONJUNTA DE SEÑALES FUENTE DE AUDIO
Primero, se describe la Codificación de Indicación Binaural (BCC), una técnica de codificación de audio multicanal paramétrica. A continuación se muestra que con la misma perspicacia en la que se basa la BCC, es posible concebir un algoritmo para la codificación conjunta de las señales fuente para un escenario de codificación.
A. Codificación de indicación binaural (BCC)
Se muestra en la figura más adelante un esquema de BCC [1][2] para una codificación de audio multicanal. Se mezcla en forma descendente la señal de audio multicanal de entrada a un solo canal. A diferencia de la información de codificación y transmisión sobre todas las formas de onda del canal, se codifica y transmite solamente la señal mezclada en forma descendente (con el codificador de audio mono convencional). Adicionalmente, se estiman las “diferencias de canal de audio” con motivos de percepción entre los canales de audio originales y también se transmiten al descodificador. El descodificador genera sus canales de salida de modo que las diferencias de canal de audio se aproximen a las diferencias de canal de audio correspondientes de la señal de audio original.
La localización de suma implica que las diferencias de canal de audio relevantes con percepción para una pareja de canales de señal de altavoz son la diferencia de tiempo entre canales (ICTD) y la diferencia de nivel entre canales (ICLD). ICTD e ICLD pueden estar relacionadas a la dirección percibida de eventos auditivos. Otros atributos de imagen espacial auditiva, tal como un ancho de fuente aparente y el envolvimiento del oyente, pueden estar relacionados con la coherencia interaural (IC). Para parejas de altavoces delante o detrás de un oyente, la coherencia interaural está a menudo relacionada directamente a la coherencia entre canales (ICC), que es así considerada como la tercera medida de la diferencia de canal de audio por BCC. Se estiman la ICTD, ICLD e ICC en las subbandas como una función del tiempo. Tanto la resolución espectral como temporal que se usan son motivadas por percepción.
B. Codificación conjunta paramétrica de fuentes de audio
Un descodificador BCC es capaz de generar una señal de audio multicanal con cualquier imagen espacial auditiva tomando una señal mono y sintetizando en intervalos de tiempo regulares una sola indicación de ICTD, ICLD e ICC específica por subbanda y pareja de canales. El buen desempeño de los esquemas de BCC para un amplio intervalo de material de audio [véase 1] implica que la imagen espacial auditiva percibida se determina en gran medida
por la ICTD, ICLD e ICC. Por lo tanto, a diferencia de exigir las señales fuente “limpias” si(n) como entrada del
mezclador en la figura 1, sólo se exigen señales pseudo fuente sˆi(n) con la particularidad de que ellas resulten en
ICTD, ICLD e ICC en la salida del mezclador similares al caso de suministro de señales fuente reales al mezclador Hay
tres objetivos para la generación de sˆi (n) :
• Si se suministran sˆi(n) a un mezclador, los canales de salida del mezclador tendrán aproximadamente las
mismas indicaciones espaciales (ICLD, ICTD, ICC) como si se suministraran si(n) al mezclador.
- •
- Se van a generar sˆi(n) con tan poca información como sea posible acerca de las señales fuente originales
s(n) (debido a el objetivo es tener la información secundaria de la velocidad de bits baja).
- •
- Las sˆi(n) se generan desde la señal suma transmitida s(n) de modo que sea introducida una cantidad
mínima de distorsión de señal.
Para proporcionar el esquema propuesto, se considera un mezclador estéreo (M=2). Una simplificación más sobre el caso general es que sólo se aplican la panorámica de amplitud y retardo para la mezcla. Si las señales fuente discretas estuvieran disponibles en el descodificador, se mezclaría una señal estéreo tal como se muestra en la figura 4, es decir,
(2)
En este caso, el vector de descripción de escena S(n) contiene solamente direcciones fuente que determinan los parámetros de mezcla,
donde T es la transposición de un vector. Cabe mencionar que para los parámetros de mezcla, se hizo caso omiso al índice de tiempo por conveniencia de notación. Los parámetros más convenientes para controlar el mezclador son la diferencia de tiempo y de nivel, Ti y MLi , 5que se relacionan a ai , bi , ci y di por
donde Gi es un factor de ganancia fuente en dB.
En lo siguiente, se calcularán ICTD, ICLD e ICC de la salida del mezclador estéreo como una función de las
señales fuente de entrada si (n) . Las expresiones obtenidas indicarán las propiedades de señales fuentes que
10 determinan ICTD, ICLD e ICC (junto con los parámetros de mezcla). Entonces se generan sˆi(n) de modo que las propiedades de la señal fuente identificadas se aproximen a las propiedades correspondientes de las señales fuente
originales.
Se estiman las indicaciones en subbandas y como una función del tiempo. En lo siguiente, se supone que las
15 señales fuente si(n) son cero y mutuamente independientes. Una pareja de señales de subbanda de la salida (2) del mezclador se denota xˆi(n) y xˆ2(n) . Cabe mencionar que para simplicidad de notación se utilizan el mismo índice de tiempo n para señales de dominio de tiempo y de dominio de subbanda. Igualmente no se utiliza un índice de subbanda
y se aplica el análisis/procesamiento descrito a cada subbanda independientemente. La potencia de la subbanda de las dos señales de salida del mezclador es:
~
donde si(n) es una señal de subbanda de la fuente si(n) y E{}. denota la expectación de tiempo corto, por ejemplo,
donde K determina la longitud del promedio móvil. Cabe mencionar que los valores de potencia de subbanda
E{~ s(n)} representan para cada señal fuente el envolvente espectral como una función de tiempo. La ICLD, ML(n) ,
(7)
Para estimar la ICTD e ICC, se estima la función de correlación cruzada normalizada
(8)
Se calcula la IC, c(n) , de acuerdo con
(9) Para calcular la ICTD, T(n), se calcula la ubicación del pico más alto en el eje de retardo,
(10)
Ahora la cuestión es cómo puede calcularse la función de correlación cruzada normalizada como una función de los parámetros de mezcla. Junto con (2), (8) puede escribirse como
que es equivalente a
donde la función de autocorrelación normalizada r(n,e) es
(13)
y Ti = di – ci . Cabe mencionar que para calcular (12) dada (11) se ha supuesto que las señales son estacionarias de sentido amplio dentro del intervalo considerado de retardos, es decir,
Se muestra en la figura 5 un ejemplo numérico para dos señales fuente, que ilustra la dependencia entre ICTD, ICLD e ICC y la potencia de subbanda de fuente. Se muestra en las partes superior, intermedia e inferior de la figura 5 ML(n) , T(n) y c(n) , respectivamente, como una función de la relación de la potencia de subbanda de las dos señales
22 2
fuente a =E{~ s (n)}/ E{~s (n)}+ E{~ s(n)} para diferentes parámetros de mezcla (4) ML, ML, T1 y T2. Cabe
112 12
mencionar que cuando sólo una fuente tiene potencia en la subbanda (a = 0 ó a = 1), entonces ML(n) y T(n) calculados son iguales a los parámetros de mezcla ( ML, ML,T1,T2).
B.2. Información secundaria necesaria
La ICLD (7) depende de los parámetros de mezcla ( ai , bi , ci , di ) y en la potencia de subbanda de corto
tiempo de las fuentes, E{~si (n)}(6). La función de correlación cruzada de subbanda normalizada <(n,d) (12) que
es necesaria para calcular la ICTD (10) e ICC (9) depende de E{~si(n)} y adicionalmente de la función de autocorrelación de subbanda normalizada, <(n,e) (13), para cada señal fuente. El máximo de <(n,d) está dentro
i
del intervalo {}:d :max T Para fuente i con parámetro de mezclador -di , el intervalo
ii ii Ti = cicorrespondiente para el cual se necesita la propiedad de la subbanda de señal fuente <(n,e) (13) es
i
(14)
Puesto que las indicaciones de ICTD, ICLD e ICC dependen de las propiedades de subbanda de la señal
fuente E{~si(n)}y <i (n,e) en el intervalo (14), en principio es necesario transmitir esas propiedades de subbanda
de la señal fuente como información secundaria. Se supone que cualquier otra clase de mezclador (por ejemplo, mezclador con efectos, mezclador/dispositivo de convolución de síntesis de campo de onda, etc.) tiene propiedades similares y así esta información secundaria es útil también cuando se utilizan otros mezcladores además del descrito. Para reducir la cantidad de la información secundaria, puede almacenarse un conjunto de funciones de autocorrelación predefinidas en el descodificador y solamente se transmiten índices de selección de aquellas que corresponden más estrechamente con las propiedades de la señal fuente. Una primera versión del presente algoritmo supone que dentro
del intervalo (14) <(n,e) =1 y así (12) se calcula utilizando sólo los valores de potencia de subbanda (6) como
información secundaria. Se han calculado los datos mostrados en la figura 5 suponiendo <(n,e) =1.
Con el fin de reducir la cantidad de información secundaria, se limita el intervalo dinámico relativo de las señales fuente. En cada momento, para cada subbanda, se selecciona la potencia de la fuente más fuerte. Es suficiente limitar inferiormente la potencia de la subbanda correspondiente de todas las otras fuentes a un valor de 24 dB más bajo que la potencia de subbanda más fuerte. Así, el intervalo dinámico del cuantificador puede limitarse a 24 dB.
Suponiendo que las señales fuente son independientes, el descodificador puede calcular la suma de la
potencia de subbanda de todas las fuentes como E{~s 2(n)}. Así, en principio es suficiente transmitir al descodificador
sólo los valores de potencia de subbanda de M-1 fuentes, mientras la potencia de subbanda de la fuente restante puede calcularse de manera local. Dada esta idea, la velocidad de información secundaria puede reducirse levemente mediante la transmisión de la potencia de subbanda de fuentes con índices 2 :i :M con relación a la potencia de la
primera fuente.
(15)
Cabe mencionar que el intervalo dinámico que limita como se describió anteriormente se lleva a cabo antes de (15). Como una alternativa, los valores de potencia de subbanda pueden normalizarse con relación a la potencia de subbanda de la señal suma, a diferencia de la normalización con relación a una potencia de subbanda de una fuente 5 (15). Para una frecuencia de muestreo de 44.1 kHz, se utilizan 20 subbandas y se transmiten para cada subbanda
M~ pi (n) (2 :i : M ) alrededor de cada 12 ms. 20 subbandas corresponden a la mitad de la resolución espectral del
sistema auditivo (una subbanda es de una amplitud de dos “anchos de banda críticos”). Los experimentos informales indican que sólo se logra una leve mejora usando más de 20 subbandas, por ejemplo 40 subbandas. El número de subbandas y los anchos de banda de estas subbandas se escogen de acuerdo con la resolución de frecuencia y tiempo
10 del sistema auditivo. Una implementación de baja calidad del esquema exige al menos tres subbandas (frecuencias baja, media y alta).
De acuerdo con una realización particular, las subbandas tienen anchos de banda diferentes, las subbandas a frecuencias más bajas tienen anchos de banda menores que las subbandas a frecuencias más altas.
Los valores de potencia relativos se cuantifican con un esquema similar al cuantificador de ICLD descrito en [2], 15 que resulta en una velocidad de bits de aproximadamente 3(M-1) kb/s. La figura 6 ilustra el proceso de la generación de información secundaria (que corresponde al bloque de “generación de información secundaria” en la figura 2).
La velocidad de información secundaria puede reducirse adicionalmente mediante el análisis de actividad para cada señal fuente y la transmisión únicamente de la información secundaria asociada con la fuente si es activa.
A diferencia de transmitir los valores de potencia de subbanda E{~si2(n)} como información estadística, puede
20 transmitirse otra información que representa los envolventes espectrales de las señales fuente. Por ejemplo, pueden transmitirse los parámetros de la codificación predictiva lineal (LPC) u otros parámetros correspondientes, tal como los parámetros del filtro de red o los parámetros de la pareja espectral de línea (LSP). El proceso de estimar los parámetros LPC de cada señal fuente se ilustra en la figura 7.
B.3 Calculación sˆi (n)
25 La figura 8 ilustra el proceso que se usa para recrear las señales fuente, dada la señal suma (1). Este proceso forma parte del bloque de “Síntesis” en la figura 2. Las señales fuente individuales se recuperan escalando cada
subbanda de la señal suma con gi(n) y aplicando un filtro de descorrelación con respuesta de impulso hi (n) ,
donde * es el operador de convolución lineal y se calcula E{~si(n)} con la información secundaria mediante
Como filtros de descorrelación hi (n) , pueden utilizarse filtros de peine complementarios, filtros de todo paso,
retardos o filtros con respuestas de impulso aleatorio. El objetivo para el procesamiento de descorrelación es reducir la correlación entre las señales sin modificar cómo se perciben las formas de onda individuales. Diferentes técnicas de descorrelación causan diferentes artefactos. Los filtros de peine complementarios causan coloración. Todas las técnicas 35 descritas diseminan la energía de transitorios en el tiempo que causan artefactos, tal como los “ecos previos”. Dado su potencial para artefactos, las técnicas de descorrelación deben aplicarse tan poco como sea posible. La siguiente sección describe técnicas y estrategias que requieren menos procesamiento de descorrelación que la simple generación
de señales independientes sˆi (n) .
Un esquema alternativo para la generación de señales sˆi(n) se muestra en la figura 9. Primero se aplana el espectro de s(n) por medio del cálculo del error de predicción lineal e(n). Entonces, dados los filtros de LPC estimados en el codificador, fi , se calculan los filtros de todos los polos correspondientes como la transformada z inversa de
5 Los filtros resultantes de todos los polos, fi , representan el envolvente espectral de las señales fuente. Si se transmite
otra información secundaria distinta a los parámetros LPC, primero es necesario calcular los parámetros LPC como una
función de la información secundaria. Igual que en el otro esquema, se utilizan los filtros de descorrelación hi para
hacer que las señales fuente sean independientes.
IV. IMPLEMENTACIONES CONSIDERANDO RESTRICCIONES PRÁCTICAS
10 En la primera parte de esta sección, se proporciona un ejemplo de implementación usando un esquema de síntesis BCC como un mezclador estéreo o multicanal. Esto es particularmente interesante puesto que tal esquema de síntesis de tipo BCC forma parte de un estándar ISO/IEC MPEG próximo, denominado “codificación de audio espacial”.
No se calculan explícitamente las señales fuentes sˆi(n) en este caso, dando como resultado una complejidad de
cálculo reducida. Igualmente, este esquema ofrece el potencial de mejor calidad de audio, puesto que efectivamente se
15 necesita menos descorrelación que en el caso en el que se calculan explícitamente las señales fuente sˆi (n) .
La segunda parte de esta sección se dirige a los problemas cuando se aplica el esquema propuesto con cualquier mezclador y no se aplica ningún procesamiento de descorrelación. Tal esquema tiene una menor complejidad que un esquema con procesamiento de descorrelación, pero puede tener otros inconvenientes, tal como se describirán más adelante.
20 Idealmente, sería deseable aplicar el procesamiento de descorrelación de modo que la sˆi(n) generada pueda
considerarse independiente. Sin embargo, puesto que el procesamiento de descorrelación es problemático en términos de introducir artefactos, sería deseable aplicar tan poco procesamiento de descorrelación como sea posible. La tercera parte de esta sección se dirige a cómo puede reducirse la cantidad de procesamiento de descorrelación problemático
mientras otorga beneficios como si la sˆi(n) generada fuera independiente.
25 A. Implementación sin cálculo explícito de sˆi (n)
Se aplica la mezcla directamente a la señal suma transmitida (1), sin explicítale cálculo explícito de sˆi (n) . Se
utilizó un esquema de síntesis de BCC para este propósito. En lo siguiente, se considera el caso de estéreo, pero todos los principios descritos pueden aplicarse también para la generación de señales de audio multicanal.
Se muestra en la figura 10 un esquema de síntesis de BCC de estéreo (o un esquema “estéreo paramétrico”),
30 aplicado para procesar la señal suma (1). Sería deseable que el esquema de síntesis de BCC genere una señal que se percibe de manera similar a la señal de salida de un mezclador, tal como se muestra en la figura 4. Esto es así cuando ICTD, ICLD e ICC en los canales de salida del esquema de síntesis son similares, como las indicaciones correspondientes que aparecen entre los canales de la señal de salida (4) del mezclador.
Se utiliza la misma información secundaria que en el esquema general anteriormente descrito, permitiendo que
35 el descodificador calcule los valores de potencia de subbanda de tiempo corto E{~si (n)} de las fuentes. Dada
E{~si (n)}, se calculan los factores de ganancia g1 y g2 en la figura 10 como de modo que la potencia de subbanda de salida e ICLD (7) sean los mismos como para el mezclador en la figura 4. Se calcula la ICTD T(n) de acuerdo con (10), determinando los retardos D1 y D2 en la figura 10,
Se calcula la ICC c(n) de acuerdo con (9), determinando el procesamiento de descorrelación en la figura 10. Se describe el procesamiento de descorrelación (síntesis de ICC) en [1]. Las ventajas de aplicar el procesamiento de descorrelación a los canales de salida del mezclador frente a aplicarlo para generar independientes sˆi(n) son:
- •
- Normalmente, el número de señales fuente M es mayor que el número de canales de salida de audio N. Así, el número de canales de audio independientes que se necesitan generar es menor cuando se descorrelacionan N canales de salida a diferencia de la descorrelación de las M señales fuente.
- •
- A menudo, se correlacionan los N canales de salida de audio (ICC > 0) y puede aplicarse menos procesamiento de descorrelación que sería necesario para generar M o N canales independientes.
Se espera mejor calidad de audio debido a menos procesamiento de descorrelación.
Se espera la mejor calidad de audio cuando se limitan los parámetros del mezclador de modo que
ai + bi = 1, es decir, Gi= 0 dB. En este caso, la potencia de cada fuente en la señal suma transmitida (1) es
idéntica a la potencia de la misma fuente en la señal de salida del descodificador mixta. La señal de salida del descodificador (figura 10) es la misma como si la señal de salida del mezclador (figura 4) se codificara y descodificara por un codificador/descodificador de BCC en este caso. Así, puede esperarse una calidad igualmente similar.
El descodificador puede no sólo determinar la dirección en la que cada fuente va a aparecer, sino también
puede variarse la ganancia de cada fuente. Se aumenta la ganancia eligiendo ai + bi > 1 ( Gi > 0 dB) y se
disminuye eligiendo a+ b < 1 ( Gi < 0 dB).
ii
B. Uso de ningún procesamiento de descorrelación
La restricción de la técnica anteriormente descrita es que la mezcla se lleva a cabo sin el esquema de síntesis de BCC. Puede imaginarse la implementación no sólo de las síntesis de ICTD, ICLD e ICC, sino adicionalmente el procesamiento de efectos dentro de la síntesis de BCC.
Sin embargo, puede ser deseable que puedan utilizarse los mezcladores y procesadores de efectos existentes. Esto también incluye los mezcladores de síntesis de campo de onda (a menudo denominados como “dispositivos de
convolución”). Para el uso de los mezcladores y procesadores de efectos existentes, se calculan las sˆi (n)
explícitamente y se utilizan como si fueran las señales fuente originales.
Cuando no se aplica ningún procesamiento de descorrelación (hi (n) =5(n) en (16) también puede lograrse
buena calidad de audio. Es un compromiso entre los artefactos introducidos debidos al procesamiento de descorrelación
y los artefactos debidos al hecho de que las señales fuente sˆi(n) se correlacionan. Cuando no se utiliza ningún
procesamiento de descorrelación, la imagen espacial auditiva resultante puede sufrir de inestabilidad [1]. Pero puede introducir el propio mezclador alguna descorrelación cuando se utilizan reverberadores u otros efectos y así hay menos necesidad de procesamiento de descorrelación.
Si se generan sˆi(n) sin procesamiento de descorrelación, el nivel de las fuentes depende de la dirección en la
que se mezclan en relación con otras fuentes. Mediante la sustitución de algoritmos panorámicos de amplitud en los mezcladores existentes con un algoritmo que compensa esta dependencia de nivel, puede evitarse el efecto negativo de la dependencia de la sonoridad en los parámetros de mezcla. Se muestra en la figura 11 un algoritmo de amplitud de compensación de nivel, el cual se dirige a compensar la dependencia del nivel de fuente en los parámetros de mezcla.
Dados los factores de ganancia de un algoritmo panorámico de amplitud (por ejemplo, la figura 4), ai y bi , se calculan
los pesos de la figura 11, ai y bi , mediante Cabe mencionar que se calculan ai y bi de modo que la potencia de subbanda de salida sea la misma como si sˆi (n) fueran independientes en cada subbanda.
c. Reducción de la cantidad de procesamiento de descorrelación
5 Tal como se mencionó anteriormente, la generación de las sˆi(n) independientes es problemática. Se describen en el presente documento estrategias para aplicar menor procesamiento de descorrelación mientras se logra efectivamente un efecto similar como si sˆi(n) fueran independientes.
Se contempla, por ejemplo, un sistema de síntesis de campo de ondas, tal como se muestra en la figura 12. Se indican las posiciones de fuente virtuales deseadas para s , s ,..., s (M =6) . Una estrategia para calcular sˆi (n)
12 6
10 (16) sin generar M señales completamente independientes es:
1) generar grupos de índices de fuentes que corresponden a las fuentes cercanas entre sí. Por ejemplo, en la figura 8 podrían ser {}{ }{} 1, 2,5, 3,and {4,6}.
2) En cada momento en cada subbandas, seleccionar el índice de fuente de la fuente más fuerte
(21)
15 No se aplica ningún procesamiento de descorrelación para la parte de los índices de fuentes que contiene i , es
max
decir, hi (n) =5(n) .
3) Para cada otro grupo, seleccionar el mismo hi(n) dentro del grupo.
El algoritmo descrito modifica las componentes de señal más fuertes a menor medida. Adicionalmente, se
reduce el número de diferentes hi(n) que se utilizan. Esto es una ventaja debido a que la descorrelación es más fácil
20 cuanto menos canales independientes que se necesitan generar. También es aplicable la técnica descrita cuando se mezclan señales de audio estéreo o multicanal.
V. ESCALABILIDAD EN TÉRMINOS DE CALIDAD Y VELOCIDAD DE BITS.
El esquema propuesto transmite solamente la suma de todas las señales fuentes, la cual puede codificarse con un codificador de audio mono convencional. Cuando ninguna compatibilidad hacia atrás es necesaria y la capacidad 25 está disponible para la transmisión/almacenamiento de más de una forma de onda de audio, el esquema propuesto puede ser escalado para el uso con más de un canal de transmisión. Esto se realiza generando varias señales suma con diferentes subconjuntos de las señales fuente dadas, es decir, a cada subconjunto de las señales fuente se aplica individualmente el esquema de codificación propuesto. Se espera que la calidad de audio mejore conforme se aumenta el número de canales de audio transmitidos debido a que tienen que generarse canales menos independientes
30 mediante la descorrelación desde cada canal transmitido (comparado con el caso de un canal transmitido).
VI. COMPATIBILIDAD HACÍA ATRÁS CON FORMATOS DE AUDIO ESTÉREO Y CIRCUNDANTES EXISTENTES
Considérese el siguiente escenario de entrega de audio. Un consumidor obtiene una señal circundante estéreo
o multicanal de máxima calidad (por ejemplo, por medio de un CD, DVD de audio o tienda de música en Internet, etc.) El
objetivo es entregar opcionalmente al consumidor la flexibilidad de generar una mezcla personalizada del contenido de 35 audio obtenido, sin comprometer la calidad de reproducción estándar en estéreo/circundante.
Esto se realiza entregando al consumidor (por ejemplo, como una opción de compra en una tienda de música
en Internet) un flujo de bits de información secundaria que permite el cálculo de sˆi(n) como una función de la señal de
audio dada estéreo o multicanal. Entonces se aplica el algoritmo de mezcla del consumidor a sˆi (n) . Se describen en lo
siguiente dos posibilidades para calcular sˆi(n) dadas las señales de audio estéreo o multicanal.
A. Estimación de la suma de las señales fuente en el receptor
Se ilustra en la figura 13 la manera más directa de usar el esquema de codificación propuesto con una transmisión de audio estéreo o multicanal, donde yi (n) (1 : i : L) son los canales L de la señal de audio estéreo o multicanal. Se estima la señal suma de las fuentes mediante la mezcla descendente de los canales transmitidos a un único canal de audio. Se lleva a cabo la mezcla descendente por medio del cálculo de la suma de los canales yi (n)
(1 :i : L) o pueden aplicarse técnicas más sofisticadas.
Para el mejor rendimiento, se recomienda que el nivel de las señales fuentes se adapte antes de la estimación
E{~si(n)} (6) de modo que la relación de potencia entre las señales fuentes se aproxime a la relación de potencia con
la cual las fuentes están contenidas en la señal estéreo o multicanal dada. En este caso, la mezcla descendente de los canales transmitidos es una estimación relativamente buena de la suma de las fuentes (1) (o una versión escalada de la misma).
Puede utilizarse un proceso automatizado para ajustar el nivel de las señales fuente de entrada del codificador
si(n) antes de calcular la información secundaria. Este proceso estima de manera adaptada en el tiempo el nivel al
que cada señal fuente está contenida en la señal estéreo o multicanal dada. Antes de calcular la información secundaria, entonces se ajusta de manera adaptada en el tiempo el nivel de cada señal fuente de modo que sea igual al nivel en el que la fuente está contenida en la señal de audio estéreo o multicanal.
B. Uso de los canales transmitidos individualmente
La figura 14 muestra una implementación diferente del esquema propuesto con la transmisión de señal circundante estéreo o multicanal. Aquí, no se mezclan en forma descendente los canales transmitidos, pero se usan
individualmente para la generación de sˆi (n) . Más generalmente, se calculan las señales de subbanda sˆi(n) mediante
(22)
donde wl(n) son pesos que determinan las combinaciones lineales específicas de las subbandas de los canales
transmitidas. Se eligen las combinaciones lineales de modo que las sˆi(n) estén siempre descorrelacionadas en lo
posible. Así, es necesario aplicar ninguno o sólo una pequeña cantidad de procesamiento de descorrelación, lo cual es favorable, tal como se mencionó anteriormente.
VII. APLICACIONES
Anteriormente se ha mencionado un número de aplicaciones para los esquemas de codificación propuestos. Aquí, se resumen y se mencionan unas cuantas aplicaciones más.
A. Codificación de audio para la mezcla
Siempre que las señales fuente de audio necesiten ser almacenadas o transmitidas antes de mezclarlas a las señales de audio estéreo, multicanal o de síntesis de campo de onda, se puede aplicar el esquema propuesto. Con la técnica anterior, podría aplicarse un codificador de audio mono a cada señal fuente independientemente, que resulta en una velocidad de bits que escala con el número de fuentes. El esquema de codificación propuesto puede codificar un alto número de señales fuente de audio con un único codificador de audio mono más la información secundaria de velocidad de bits relativamente baja. Tal como se describe en la Sección V, puede mejorarse la calidad de audio puede usando más de un canal transmitido si se dispone de memoria/capacidad para hacerlo.
B. Remezcla con metadatos
Tal como se describió en la Sección VI, pueden remezclarse las señales de audio estero y multicanal existentes con la ayuda de información secundaria adicional (es decir “metadatos”). A diferencia de vender solamente el contenido de audio mezclado estéreo y multicanal optimizado, también pueden venderse los metadatos permitiendo a un usuario la remezcla de su música estéreo y multicanal. Esto puede, por ejemplo, también ser usado para atenuar los sonidos vocales en una canción para karaoke o para atenuar instrumentos específicos para tocar un instrumento junto con la música.
Aunque no fuera un problema el almacenamiento, el esquema descrito sería muy atractivo para habilitar la mezcla personalizada de música. Es decir, debido a que es probable que la industria de la música nunca esté dispuesta a regalar las grabaciones de múltiples pistas. Existe demasiado peligro para el abuso. El esquema propuesto habilita la capacidad de la remezcla sin regalar las grabaciones de múltiples pistas.
Además, tan pronto como se remezclan las señales estéreo o multicanal, ocurre cierto grado de reducción de calidad, haciendo que la distribución ilegal de la remezcla sea menos atractiva.
c. Conversión de estéreo/multicanal a síntesis de campo de ondas
Otra aplicación para el esquema descrito en la Sección VI se describe en lo siguiente. Puede extenderse el audio estéreo y multicanal (por ejemplo 5.1 circundante) que acompaña a imágenes en movimiento para obtener una síntesis de campo de ondas agregando la información secundaria. Por ejemplo, puede extenderse el Dolby ACC-3 (audio para DVD) para el audio de codificación de compatibilidad hacia atrás de 5.1 para los sistemas de síntesis de campo de ondas, es decir, DVDs se reproducen en sonido circundante 5.1 en reproductores heredados convencionales y el sonido de síntesis de campo de ondas en una nueva generación de reproductores que soportan el procesamiento de la información secundaria.
VIII. EVALUACIONES SUBJETIVAS
Se ha realizado un descodificador en tiempo real de los algoritmos propuestos en las Secciones IV-A y IV-B. Se utiliza un banco de filtros STFT basado en FFT. Se utilizan una FFT de 1024 puntos y un tamaño de ventana STFT de 768 (con rellenado con ceros). Se agrupan los coeficientes espectrales de modo que cada grupo represente la señal con un ancho de banda de dos veces el ancho de banda rectangular equivalente (ERB). El escucha informal mostró que la calidad de audio no mejora notablemente cuando escógela escoger la resolución de frecuencia más alta. Una resolución de frecuencia más baja es favorable puesto que resulta en menos parámetros a transmitir.
Para cada fuente, pueden ajustarse individualmente la panorámica y ganancia de amplitud/retardo. Se utilizó el algoritmo para codificar varias grabaciones de audio de múltiples pistas con 12 a 14 pistas.
El descodificador permite la mezcla circundante 5.1 utilizando un mezclador de panorámica de amplitud de base (VBPAP). Pueden ajustarse la dirección y ganancia de cada señal fuente. El software permite la interrupción al vuelo entre la mezcla de la señal fuente codificada y la mezcla de las señales fuente discretas originales.
Un escucha sencillo normalmente muestra ninguna o poca diferencia entre la mezcla de las señales fuente
originales o codificadas si para cada fuente se utiliza una ganancia Gi de cero dB. Cuanto más se varían las ganancias
fuente, más artefactos ocurren. La amplificación y atenuación leves de las fuentes (por ejemplo hasta ± 6 dB) darán aún buenos resultados. Un escenario crítico es cuando todas la fuentes se mezclan en un lado y solamente una única fuente en el otro lado opuesto. En este caso, puede reducirse la calidad de audio, dependiendo de la mezcla específica y las señales fuente
IX. CONCLUSIONES
Se ha propuesto un esquema de codificación para la codificación conjunta de las señales fuente de audio, por ejemplo, los canales de una grabación de múltiples pistas. El objetivo no es codificar las formas de onda de la señal fuente con alta calidad, en cuyo caso la codificación conjunta resultaría en una ganancia de codificación mínima, puesto que las fuentes de audio normalmente son independientes. El objetivo es que cuando se mezclan las señales fuente codificadas se obtenga una señal de audio de alta calidad. Considerando las propiedades estadísticas de las señales fuente, las propiedades de los esquemas de mezcla, y el sonido espacial, se ha mostrado que se logra una mejora en la ganancia de codificación significante mediante la codificación conjunta de las señales fuente.
La mejora en la ganancia de codificación se debe al hecho de que solamente se transmite una forma de onda de audio.
Adicionalmente, se transmite la información secundaria, que representa las propiedades estadísticas de las señales fuente que son factores relevantes que determinan la percepción espacial de la señal mezclada final.
La velocidad de información secundaria es de alrededor de 3 kbs por señal fuente. Puede aplicarse cualquier mezclador con las señales fuente codificas, por ejemplo, mezcladores estéreo, multicanal o de síntesis de campo de onda.
Una manera directa de escalar el esquema propuesto para la velocidad de bits y la calidad más altas es mediante la transmisión de más de un canal de audio. Además, se ha propuesto una variación del esquema, lo que permite la remezcla de la señal de audio estéreo o multicanal dada (y aún cambiando el formato de audio, por ejemplo, de estéreo a multicanal o a síntesis de campo de ondas).
Las aplicaciones del esquema propuesto son múltiples. Por ejemplo, podría extenderse MPEG-4 con el esquema propuesto para reducir la velocidad de bits cuando se necesita transmitir más de un “objeto de audio natural” (señal fuente). Igualmente, el esquema propuesto ofrece la representación compacta del contenido de los sistemas de síntesis de campo de ondas. Tal como se mencionó, las señales etéreo o multicanal existentes pueden ser complementadas con la información secundaria para permitir que el usuario remezcle las señales a su gusto.
REFERENCIAS
Claims (13)
- REIVINDICACIONES1. Método para sintetizar una pluralidad de canales de audio (xˆ1(n), xˆ2(n)) , que comprende las etapas de:
- -
- recuperar de un flujo de audio al menos una señal suma (s(n)) que representa una suma de señales
fuente (s (n), s (n),...,s (n)) ,12 M- -
- recuperar del flujo de audio la información estadística (<)(n,d) , (<)(n,e) , E{~ s (n) } que
irepresenta el envolvente espectral de una o más señales fuente (s (n),s (n),...,s (n)) ,12 M- -
- recibir del flujo de audio, o determinar de manera local, parámetros (S ) que describen un formato de
naudio de salida y unos parámetros de mezcla (a,b ) de las señales fuente, yii- -
- sintetizar la pluralidad de canales de audio (xˆ(n)xˆ(n)) a partir de la al menos una señal suma
basándose en unos parámetros de mezclador de salida (g,g ,D,D) calculados,121 2en el que se calculan los parámetros de mezclador de salida (g,g ,D,D) a partir de la121 2información estadística recibida, los parámetros que describen el formato de audio de salida, y dichosparámetros de mezcla (a,b ) de las señales fuente, de manera que la pluralidad de canales de audioiisintetizados tienen indicaciones (ICLD, ICTD, ICC) similares a las indicaciones (ICLD, ICTD, ICC) de loscanales de audio obtenibles mediante la mezcla de las señales fuente utilizando los parámetros (S )nque describen el formato de audio de salida y dichos parámetros de mezcla de las señales fuente. -
- 2.
- Método de la reivindicación 1, en el que los envolventes espectrales estadísticas de la una o más señales fuente de audio comprenden parámetros de filtro de red o parámetros espectrales de línea.
-
- 3.
- Método de la reivindicación 1, en el que la información estadística representa una potencia relativa como una función de la frecuencia y del tiempo de la una o más señales fuente.
-
- 4.
- Método de la reivindicación 1, en el que se sintetiza la pluralidad de canales de audio en un dominio de subbanda de un banco de filtros.
-
- 5.
- Método de la reivindicación 4, en el que se determinan el número y anchos de banda del dominio de subbanda según una resolución espectral y temporal de un sistema auditivo humano.
-
- 6.
- Método de la reivindicación 4, en el que el número de subbandas está comprendido entre 3 y 40.
-
- 7.
- Método de la reivindicación 4, en el que las subbandas tienen diferentes anchos de bandas, en donde las subbandas de frecuencias más bajas tienen anchos de banda menores que las subbandas de frecuencias más altas.
-
- 8.
- Método de la reivindicación 4, en el que se utiliza un banco de filtros basado en una transformada de Fourier de tiempo corto (STFT) y se combinan los coeficientes espectrales de modo que cada grupo de coeficientes espectrales forman una subbanda.
-
- 9.
- Método de la reivindicación 1, en el que la información estadística también comprende funciones de autocorrelación.
-
- 10.
- Método de la reivindicación 2, en el que se representan los envolventes espectrales como parámetros de codificación predictiva lineal (LPC).
-
- 11.
- Método de la reivindicación 1, en el que la etapa de calcular los parámetros de mezclador de salida comprende el cálculo de las indicaciones de la pluralidad de canales de audio y el cálculo de los parámetros de mezclador de salida utilizando las indicaciones calculadas de la pluralidad de canales de audio.
-
- 12.
- Método de la reivindicación 1, en el que la etapa de calcular los parámetros de mezclador de salida comprende el cálculo de un primer factor de ganancia (g1) y un segundo factor de ganancia (g2), un primer retardo (D1) y un segundo retardo (D2), y un valor de determinación de procesamiento de descorrelación c(n).
-
- 13.
- Aparato para sintetizar una pluralidad de canales de audio (xˆ1(n), xˆ2(n)) , en el que el aparato comprende medios operativos para:
- -
- recuperar de un flujo de audio al menos una señal suma (s(n)) que representa una suma de señales fuente (s (n), s (n),...,s (n)) ,
12 M5 -recuperar del flujo de audio la información estadística (<(n,d),<(n,e),<{~s(n) }) que representa el envolvente espectral de una o más señales fuente (s (n),s (n),...,s (n)) ,12 M- -
- recibir del flujo de audio, o determinar de manera local, parámetros (S ) que describen un formato de
naudio de salida y unos parámetros de mezcla (a,b ) de las señales fuente, yii- -
- sintetizar la pluralidad de canales de audio (xˆ(n)xˆ(n)) a partir de la al menos una señal suma
10 basándose en unos parámetros de mezclador de salida (g,g ,D,D) calculados,121 2en el que el aparato es adicionalmente operativo para calcular dichos parámetros de mezclador de salida (g,g ,D,D) a partir de la información estadística recibida, los parámetros que describen el121 2formato de audio de salida, y dichos parámetros de mezcla (a,b ) de las señales fuente, de maneraiique la pluralidad de canales de audio sintetizados tienen indicaciones (ICLD, ICTD, ICC) similares a las 15 indicaciones (ICLD, ICTD, ICC) de los canales de audio obtenibles mediante la mezcla de las señalesfuente utilizando los parámetros (S) que describen el formato de audio de salida y los parámetros denmezcla de las señales fuente.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP05101055 | 2005-02-14 | ||
EP05101055A EP1691348A1 (en) | 2005-02-14 | 2005-02-14 | Parametric joint-coding of audio sources |
PCT/EP2006/050904 WO2006084916A2 (en) | 2005-02-14 | 2006-02-13 | Parametric joint-coding of audio sources |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2374434T3 true ES2374434T3 (es) | 2012-02-16 |
Family
ID=34938725
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES06708241T Active ES2374434T3 (es) | 2005-02-14 | 2006-02-13 | Codificación paramétrica conjunta de fuentes de audio. |
ES10179108.5T Active ES2682073T3 (es) | 2005-02-14 | 2006-02-13 | Codificación conjunta paramétrica de fuentes de audio |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES10179108.5T Active ES2682073T3 (es) | 2005-02-14 | 2006-02-13 | Codificación conjunta paramétrica de fuentes de audio |
Country Status (18)
Country | Link |
---|---|
US (12) | US8355509B2 (es) |
EP (4) | EP1691348A1 (es) |
JP (2) | JP5179881B2 (es) |
KR (1) | KR100924577B1 (es) |
CN (2) | CN101133441B (es) |
AT (1) | ATE531035T1 (es) |
AU (3) | AU2006212191B2 (es) |
BR (5) | BR122018072508B1 (es) |
CA (2) | CA2597746C (es) |
ES (2) | ES2374434T3 (es) |
HK (2) | HK1107723A1 (es) |
IL (1) | IL185192A (es) |
MX (1) | MX2007009559A (es) |
NO (1) | NO338701B1 (es) |
PL (1) | PL1844465T3 (es) |
RU (1) | RU2376654C2 (es) |
TR (1) | TR201811059T4 (es) |
WO (1) | WO2006084916A2 (es) |
Families Citing this family (86)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1691348A1 (en) | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
DE602006002501D1 (de) * | 2005-03-30 | 2008-10-09 | Koninkl Philips Electronics Nv | Audiokodierung und audiodekodierung |
WO2007004831A1 (en) * | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
KR101218776B1 (ko) | 2006-01-11 | 2013-01-18 | 삼성전자주식회사 | 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체 |
JP4966981B2 (ja) | 2006-02-03 | 2012-07-04 | 韓國電子通信研究院 | 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置 |
KR20080093422A (ko) * | 2006-02-09 | 2008-10-21 | 엘지전자 주식회사 | 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치 |
EP1853092B1 (en) * | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
US8027479B2 (en) * | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
EP2337224B1 (en) * | 2006-07-04 | 2017-06-21 | Dolby International AB | Filter unit and method for generating subband filter impulse responses |
AU2007271532B2 (en) * | 2006-07-07 | 2011-03-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for combining multiple parametrically coded audio sources |
WO2008039041A1 (en) | 2006-09-29 | 2008-04-03 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
RU2009116279A (ru) * | 2006-09-29 | 2010-11-10 | ЭлДжи ЭЛЕКТРОНИКС ИНК. (KR) | Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов |
CN101652810B (zh) | 2006-09-29 | 2012-04-11 | Lg电子株式会社 | 用于处理混合信号的装置及其方法 |
EP2084901B1 (en) | 2006-10-12 | 2015-12-09 | LG Electronics Inc. | Apparatus for processing a mix signal and method thereof |
KR100891665B1 (ko) | 2006-10-13 | 2009-04-02 | 엘지전자 주식회사 | 믹스 신호의 처리 방법 및 장치 |
WO2008046530A2 (en) * | 2006-10-16 | 2008-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multi -channel parameter transformation |
DE602007013415D1 (de) * | 2006-10-16 | 2011-05-05 | Dolby Sweden Ab | Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung |
WO2008060111A1 (en) | 2006-11-15 | 2008-05-22 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
AU2007322488B2 (en) * | 2006-11-24 | 2010-04-29 | Lg Electronics Inc. | Method for encoding and decoding object-based audio signal and apparatus thereof |
JP5081250B2 (ja) | 2006-12-01 | 2012-11-28 | エルジー エレクトロニクス インコーポレイティド | 命令入力装置及び方法、メディア信号のユーザインタフェース表示方法及びその具現装置、並びにミックス信号処理装置及びその方法 |
JP5450085B2 (ja) | 2006-12-07 | 2014-03-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
KR101062353B1 (ko) | 2006-12-07 | 2011-09-05 | 엘지전자 주식회사 | 오디오 신호의 디코딩 방법 및 그 장치 |
WO2008082276A1 (en) * | 2007-01-05 | 2008-07-10 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
CA2645915C (en) * | 2007-02-14 | 2012-10-23 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
CN101542596B (zh) * | 2007-02-14 | 2016-05-18 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
CN101960866B (zh) * | 2007-03-01 | 2013-09-25 | 杰里·马哈布比 | 音频空间化及环境模拟 |
ATE526663T1 (de) | 2007-03-09 | 2011-10-15 | Lg Electronics Inc | Verfahren und vorrichtung zum verarbeiten eines audiosignals |
KR20080082916A (ko) | 2007-03-09 | 2008-09-12 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 이의 장치 |
KR101100213B1 (ko) | 2007-03-16 | 2011-12-28 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US8612237B2 (en) * | 2007-04-04 | 2013-12-17 | Apple Inc. | Method and apparatus for determining audio spatial quality |
ES2452348T3 (es) | 2007-04-26 | 2014-04-01 | Dolby International Ab | Aparato y procedimiento para sintetizar una señal de salida |
EP2278582B1 (en) * | 2007-06-08 | 2016-08-10 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
JP5282906B2 (ja) | 2007-06-27 | 2013-09-04 | 日本電気株式会社 | 多地点接続装置、信号分析及び装置と、その方法及びプログラム |
CN102436822B (zh) | 2007-06-27 | 2015-03-25 | 日本电气株式会社 | 信号控制装置及其方法 |
US8295494B2 (en) | 2007-08-13 | 2012-10-23 | Lg Electronics Inc. | Enhancing audio with remixing capability |
JP2010538571A (ja) | 2007-09-06 | 2010-12-09 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
GB2453117B (en) | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
KR101464977B1 (ko) * | 2007-10-01 | 2014-11-25 | 삼성전자주식회사 | 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치 |
WO2009050896A1 (ja) * | 2007-10-16 | 2009-04-23 | Panasonic Corporation | ストリーム合成装置、復号装置、方法 |
CN101868821B (zh) | 2007-11-21 | 2015-09-23 | Lg电子株式会社 | 用于处理信号的方法和装置 |
JP2009128559A (ja) * | 2007-11-22 | 2009-06-11 | Casio Comput Co Ltd | 残響効果付加装置 |
EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
EP2337328B1 (en) | 2008-10-20 | 2014-12-03 | Huawei Device Co., Ltd. | Method, system and apparatus for processing 3d audio signal |
CN101547265B (zh) * | 2008-10-20 | 2014-07-30 | 华为终端有限公司 | 一种3d音频会议的信号处理方法、设备以及系统 |
ES2963744T3 (es) | 2008-10-29 | 2024-04-01 | Dolby Int Ab | Protección de recorte de señal usando metadatos de ganancia de audio preexistentes |
KR101137361B1 (ko) * | 2009-01-28 | 2012-04-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
KR101433701B1 (ko) | 2009-03-17 | 2014-08-28 | 돌비 인터네셔널 에이비 | 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩 |
GB2470059A (en) * | 2009-05-08 | 2010-11-10 | Nokia Corp | Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter |
WO2011000409A1 (en) * | 2009-06-30 | 2011-01-06 | Nokia Corporation | Positional disambiguation in spatial audio |
CN102696070B (zh) * | 2010-01-06 | 2015-05-20 | Lg电子株式会社 | 处理音频信号的设备及其方法 |
EP2485213A1 (en) | 2011-02-03 | 2012-08-08 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Semantic audio track mixer |
EP2727383B1 (en) | 2011-07-01 | 2021-04-28 | Dolby Laboratories Licensing Corporation | System and method for adaptive audio signal generation, coding and rendering |
GB2522772B (en) * | 2011-09-18 | 2016-01-13 | Touchtunes Music Corp | Digital jukebox device with karaoke and/or photo booth features, and associated methods |
CN103050124B (zh) | 2011-10-13 | 2016-03-30 | 华为终端有限公司 | 混音方法、装置及系统 |
KR20130093783A (ko) * | 2011-12-30 | 2013-08-23 | 한국전자통신연구원 | 오디오 객체 전송 장치 및 방법 |
CN104303229B (zh) | 2012-05-18 | 2017-09-12 | 杜比实验室特许公司 | 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统 |
US10844689B1 (en) | 2019-12-19 | 2020-11-24 | Saudi Arabian Oil Company | Downhole ultrasonic actuator system for mitigating lost circulation |
CN102695116B (zh) * | 2012-05-30 | 2015-06-03 | 蒋憧 | 一种声音采集、处理和再现方法 |
BR122021021503B1 (pt) | 2012-09-12 | 2023-04-11 | Fraunhofer - Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d |
US9460729B2 (en) | 2012-09-21 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
CN104956689B (zh) * | 2012-11-30 | 2017-07-04 | Dts(英属维尔京群岛)有限公司 | 用于个性化音频虚拟化的方法和装置 |
TWI618050B (zh) * | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於音訊處理系統中之訊號去相關的方法及設備 |
KR102332632B1 (ko) * | 2013-03-28 | 2021-12-02 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링 |
EP2991383B1 (en) * | 2013-04-26 | 2021-01-27 | Sony Corporation | Audio processing device and audio processing system |
EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830052A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension |
EP2830049A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
KR102327504B1 (ko) | 2013-07-31 | 2021-11-17 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱 |
EP2879131A1 (en) | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
EP3127110B1 (en) | 2014-04-02 | 2018-01-31 | Dolby International AB | Exploiting metadata redundancy in immersive audio metadata |
RU2571921C2 (ru) * | 2014-04-08 | 2015-12-27 | Общество с ограниченной ответственностью "МедиаНадзор" | Способ фильтрации бинауральных воздействий в аудиопотоках |
CN104036788B (zh) * | 2014-05-29 | 2016-10-05 | 北京音之邦文化科技有限公司 | 音频文件的音质识别方法及装置 |
CN105336333B (zh) * | 2014-08-12 | 2019-07-05 | 北京天籁传音数字技术有限公司 | 多声道声音信号编码方法、解码方法及装置 |
WO2016066743A1 (en) * | 2014-10-31 | 2016-05-06 | Dolby International Ab | Parametric encoding and decoding of multichannel audio signals |
CN105895086B (zh) * | 2014-12-11 | 2021-01-12 | 杜比实验室特许公司 | 元数据保留的音频对象聚类 |
CN106033671B (zh) | 2015-03-09 | 2020-11-06 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
WO2016204581A1 (ko) | 2015-06-17 | 2016-12-22 | 삼성전자 주식회사 | 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치 |
ES2904275T3 (es) * | 2015-09-25 | 2022-04-04 | Voiceage Corp | Método y sistema de decodificación de los canales izquierdo y derecho de una señal sonora estéreo |
US11152014B2 (en) | 2016-04-08 | 2021-10-19 | Dolby Laboratories Licensing Corporation | Audio source parameterization |
US10224042B2 (en) | 2016-10-31 | 2019-03-05 | Qualcomm Incorporated | Encoding of multiple audio signals |
US10424307B2 (en) * | 2017-01-03 | 2019-09-24 | Nokia Technologies Oy | Adapting a distributed audio recording for end user free viewpoint monitoring |
JP6787183B2 (ja) * | 2017-02-28 | 2020-11-18 | ヤマハ株式会社 | 音制御装置及び方法 |
CN110800048B (zh) * | 2017-05-09 | 2023-07-28 | 杜比实验室特许公司 | 多通道空间音频格式输入信号的处理 |
WO2020205175A1 (en) | 2019-04-05 | 2020-10-08 | Tls Corp. | Distributed audio mixing |
GB2590906A (en) * | 2019-12-19 | 2021-07-14 | Nomono As | Wireless microphone with local storage |
CN113096672B (zh) * | 2021-03-24 | 2022-06-14 | 武汉大学 | 一种应用于低码率下的多音频对象编解码方法 |
Family Cites Families (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4544919A (en) * | 1982-01-03 | 1985-10-01 | Motorola, Inc. | Method and means of determining coefficients for linear predictive coding |
JPH0650439B2 (ja) * | 1986-07-17 | 1994-06-29 | 日本電気株式会社 | マルチパルス駆動形音声符号化器 |
JP2659605B2 (ja) * | 1990-04-23 | 1997-09-30 | 三菱電機株式会社 | 音声復号化装置及び音声符号化・復号化装置 |
US5764779A (en) * | 1993-08-25 | 1998-06-09 | Canon Kabushiki Kaisha | Method and apparatus for determining the direction of a sound source |
US5651090A (en) * | 1994-05-06 | 1997-07-22 | Nippon Telegraph And Telephone Corporation | Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor |
US5712437A (en) * | 1995-02-13 | 1998-01-27 | Yamaha Corporation | Audio signal processor selectively deriving harmony part from polyphonic parts |
JP2766466B2 (ja) * | 1995-08-02 | 1998-06-18 | 株式会社東芝 | オーディオ方式、その再生方法、並びにその記録媒体及びその記録媒体への記録方法 |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
DE19632734A1 (de) * | 1996-08-14 | 1998-02-19 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zum Generieren eines Mehrton-Signals aus einem Mono-Signal |
US5912976A (en) * | 1996-11-07 | 1999-06-15 | Srs Labs, Inc. | Multi-channel audio enhancement system for use in recording and playback and methods for providing same |
US5886276A (en) * | 1997-01-16 | 1999-03-23 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for multiresolution scalable audio signal encoding |
US6131084A (en) | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
US6005948A (en) * | 1997-03-21 | 1999-12-21 | Sony Corporation | Audio channel mixing |
JPH11109995A (ja) * | 1997-10-01 | 1999-04-23 | Victor Co Of Japan Ltd | 音響信号符号化器 |
SE519552C2 (sv) * | 1998-09-30 | 2003-03-11 | Ericsson Telefon Ab L M | Flerkanalig signalkodning och -avkodning |
US6188987B1 (en) * | 1998-11-17 | 2001-02-13 | Dolby Laboratories Licensing Corporation | Providing auxiliary information with frame-based encoded audio information |
EP1173925B1 (en) * | 1999-04-07 | 2003-12-03 | Dolby Laboratories Licensing Corporation | Matrixing for lossless encoding and decoding of multichannels audio signals |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
TW510143B (en) * | 1999-12-03 | 2002-11-11 | Dolby Lab Licensing Corp | Method for deriving at least three audio signals from two input audio signals |
US6351733B1 (en) | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US7212872B1 (en) * | 2000-05-10 | 2007-05-01 | Dts, Inc. | Discrete multichannel audio with a backward compatible mix |
SE0001926D0 (sv) * | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
SE519985C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US20100042406A1 (en) * | 2002-03-04 | 2010-02-18 | James David Johnston | Audio signal processing using improved perceptual model |
ES2280736T3 (es) * | 2002-04-22 | 2007-09-16 | Koninklijke Philips Electronics N.V. | Sintetizacion de señal. |
DE60326782D1 (de) * | 2002-04-22 | 2009-04-30 | Koninkl Philips Electronics Nv | Dekodiervorrichtung mit Dekorreliereinheit |
JP4013822B2 (ja) * | 2002-06-17 | 2007-11-28 | ヤマハ株式会社 | ミキサ装置およびミキサプログラム |
AU2003244932A1 (en) * | 2002-07-12 | 2004-02-02 | Koninklijke Philips Electronics N.V. | Audio coding |
EP1523863A1 (en) | 2002-07-16 | 2005-04-20 | Koninklijke Philips Electronics N.V. | Audio coding |
US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
ES2328922T3 (es) * | 2002-09-23 | 2009-11-19 | Koninklijke Philips Electronics N.V. | Generacion de una señal de sonido. |
WO2004036955A1 (en) * | 2002-10-15 | 2004-04-29 | Electronics And Telecommunications Research Institute | Method for generating and consuming 3d audio scene with extended spatiality of sound source |
US7243064B2 (en) * | 2002-11-14 | 2007-07-10 | Verizon Business Global Llc | Signal processing of multi-channel data |
US20040117186A1 (en) * | 2002-12-13 | 2004-06-17 | Bhiksha Ramakrishnan | Multi-channel transcription-based speaker separation |
US20040176950A1 (en) * | 2003-03-04 | 2004-09-09 | Docomo Communications Laboratories Usa, Inc. | Methods and apparatuses for variable dimension vector quantization |
ES2291939T3 (es) * | 2003-09-29 | 2008-03-01 | Koninklijke Philips Electronics N.V. | Codificacion de señales de audio. |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7725324B2 (en) * | 2003-12-19 | 2010-05-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Constrained filter encoding of polyphonic signals |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
SE0400997D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Efficient coding of multi-channel audio |
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
DE602005022235D1 (de) * | 2004-05-19 | 2010-08-19 | Panasonic Corp | Audiosignalkodierer und Audiosignaldekodierer |
US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
US20060009274A1 (en) * | 2004-07-08 | 2006-01-12 | Richard Finocchio | Method of playing a game of roulette |
TWI393121B (zh) * | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式 |
US7630396B2 (en) * | 2004-08-26 | 2009-12-08 | Panasonic Corporation | Multichannel signal coding equipment and multichannel signal decoding equipment |
US20060048226A1 (en) * | 2004-08-31 | 2006-03-02 | Rits Maarten E | Dynamic security policy enforcement |
DE102004043521A1 (de) * | 2004-09-08 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes |
DE102004049347A1 (de) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
SE0402652D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
SE0402650D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
US7787631B2 (en) * | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
WO2006091139A1 (en) * | 2005-02-23 | 2006-08-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
BRPI0609897A2 (pt) * | 2005-05-25 | 2011-10-11 | Koninkl Philips Electronics Nv | codificador, decodificador, método para codificação de um sinal de multicanal, sinal de multicanal codificado, produto programa de computador, transmissor, receptor, sistema de transmissão, métodos de transmissão e de recebimento de um sinal de multicanal, dispositivos de registro e de reprodução de áudio, e, meio de armazenamento |
WO2007004831A1 (en) * | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
JP5450085B2 (ja) * | 2006-12-07 | 2014-03-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
US9111525B1 (en) * | 2008-02-14 | 2015-08-18 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Apparatuses, methods and systems for audio processing and transmission |
US8332229B2 (en) * | 2008-12-30 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte. Ltd. | Low complexity MPEG encoding for surround sound recordings |
EP2875511B1 (en) * | 2012-07-19 | 2018-02-21 | Dolby International AB | Audio coding for improving the rendering of multi-channel audio signals |
-
2005
- 2005-02-14 EP EP05101055A patent/EP1691348A1/en not_active Withdrawn
-
2006
- 2006-02-13 ES ES06708241T patent/ES2374434T3/es active Active
- 2006-02-13 EP EP10179108.5A patent/EP2320414B1/en active Active
- 2006-02-13 BR BR122018072508-7A patent/BR122018072508B1/pt active IP Right Grant
- 2006-02-13 RU RU2007134215/09A patent/RU2376654C2/ru active
- 2006-02-13 BR BRPI0607166-0A patent/BRPI0607166B1/pt active IP Right Grant
- 2006-02-13 AU AU2006212191A patent/AU2006212191B2/en active Active
- 2006-02-13 CN CN2006800047285A patent/CN101133441B/zh active Active
- 2006-02-13 WO PCT/EP2006/050904 patent/WO2006084916A2/en active Application Filing
- 2006-02-13 KR KR1020077018381A patent/KR100924577B1/ko active IP Right Grant
- 2006-02-13 AT AT06708241T patent/ATE531035T1/de not_active IP Right Cessation
- 2006-02-13 ES ES10179108.5T patent/ES2682073T3/es active Active
- 2006-02-13 MX MX2007009559A patent/MX2007009559A/es active IP Right Grant
- 2006-02-13 BR BR122018072501-0A patent/BR122018072501B1/pt active IP Right Grant
- 2006-02-13 BR BR122018072505-2A patent/BR122018072505B1/pt active IP Right Grant
- 2006-02-13 CA CA2597746A patent/CA2597746C/en active Active
- 2006-02-13 CN CN2011100613628A patent/CN102123341B/zh active Active
- 2006-02-13 TR TR2018/11059T patent/TR201811059T4/tr unknown
- 2006-02-13 EP EP06708241A patent/EP1844465B1/en active Active
- 2006-02-13 JP JP2007554579A patent/JP5179881B2/ja active Active
- 2006-02-13 BR BR122018072504-4A patent/BR122018072504B1/pt active IP Right Grant
- 2006-02-13 EP EP08015073A patent/EP1995721A1/en not_active Withdrawn
- 2006-02-13 CA CA2707761A patent/CA2707761C/en active Active
- 2006-02-13 PL PL06708241T patent/PL1844465T3/pl unknown
-
2007
- 2007-07-24 NO NO20073892A patent/NO338701B1/no unknown
- 2007-08-10 US US11/837,123 patent/US8355509B2/en active Active
- 2007-08-12 IL IL185192A patent/IL185192A/en active IP Right Grant
- 2007-12-07 HK HK07113398.4A patent/HK1107723A1/xx unknown
-
2009
- 2009-02-04 AU AU2009200407A patent/AU2009200407B2/en active Active
-
2010
- 2010-10-27 AU AU2010236053A patent/AU2010236053B2/en active Active
-
2011
- 2011-12-14 HK HK11113485.2A patent/HK1159392A1/xx unknown
-
2012
- 2012-07-11 JP JP2012155121A patent/JP5638037B2/ja active Active
- 2012-08-22 US US13/591,255 patent/US9668078B2/en active Active
-
2016
- 2016-11-08 US US15/345,569 patent/US10339942B2/en active Active
-
2018
- 2018-10-29 US US16/172,935 patent/US10657975B2/en active Active
- 2018-10-29 US US16/172,939 patent/US10650835B2/en active Active
- 2018-10-29 US US16/172,938 patent/US10643628B2/en active Active
- 2018-10-29 US US16/172,941 patent/US10643629B2/en active Active
-
2020
- 2020-04-08 US US16/843,338 patent/US11495239B2/en active Active
-
2022
- 2022-08-11 US US17/886,177 patent/US11682407B2/en active Active
- 2022-08-11 US US17/886,173 patent/US11621007B2/en active Active
- 2022-08-11 US US17/886,162 patent/US11621005B2/en active Active
- 2022-08-11 US US17/886,170 patent/US11621006B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2374434T3 (es) | Codificación paramétrica conjunta de fuentes de audio. |