ES2790404T3 - Aparato y procedimiento para la codificación o decodificación de una señal de audio multi-canal mediante el uso de un parámetro de alineación de banda ancha y una pluralidad de parámetros de alineación de banda estrecha - Google Patents

Aparato y procedimiento para la codificación o decodificación de una señal de audio multi-canal mediante el uso de un parámetro de alineación de banda ancha y una pluralidad de parámetros de alineación de banda estrecha Download PDF

Info

Publication number
ES2790404T3
ES2790404T3 ES17700705T ES17700705T ES2790404T3 ES 2790404 T3 ES2790404 T3 ES 2790404T3 ES 17700705 T ES17700705 T ES 17700705T ES 17700705 T ES17700705 T ES 17700705T ES 2790404 T3 ES2790404 T3 ES 2790404T3
Authority
ES
Spain
Prior art keywords
signal
channels
channel
parameter
decoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17700705T
Other languages
English (en)
Inventor
Stefan Bayer
Eleni Fotopoulou
Markus Multrus
Guillaume Fuchs
Emmanuel Ravelli
Markus Schnell
Stefan Döhla
Wolfgang Jägers
Martin Dietz
Goran Markovic
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2790404T3 publication Critical patent/ES2790404T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Position Fixing By Use Of Radio Waves (AREA)
  • Control Of Eletrric Generators (AREA)
  • Emergency Protection Circuit Devices (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

Aparato para la codificación de una señal de audio multi-canal que tiene al menos dos canales, que comprende: un determinador de parámetros (100) para determinar un parámetro de alineación de banda ancha y una pluralidad de parámetros de alineación de banda estrecha a partir de la señal de audio multi-canal; un alineador de señal (200) para alinear los al menos dos canales usando el parámetro de alineación de banda ancha y la pluralidad de parámetros de alineación de banda estrecha para obtener canales alineados; un procesador de señal (300) para calcular una señal central y una señal lateral usando los canales alineados; un codificador de señal (400) para codificar la señal central para obtener una señal central codificada y para codificar la señal lateral para obtener una señal lateral codificada; y una interfaz de salida (500) para generar una señal de audio codificada multi-canal que comprende la señal central codificada, la señal lateral codificada, información sobre el parámetro de alineación de banda ancha e información sobre la pluralidad de parámetros de alineación de banda estrecha.

Description

DESCRIPCIÓN
Aparato y procedimiento para la codificación o decodificación de una señal de audio multi-canal mediante el uso de un parámetro de alineación de banda ancha y una pluralidad de parámetros de alineación de banda estrecha
[0001] La presente solicitud se refiere al procesamiento estéreo o, en general, al procesamiento multi-canal, donde una señal multi-canal tiene dos canales tales como un canal izquierdo y un canal derecho en el caso de una señal estéreo o más de dos canales, tales como tres, cuatro, cinco o cualquier otro número de canales.
[0002] La voz estéreo y, particularmente, la voz estéreo conversacional ha recibido mucha menos atención científica que el almacenamiento y la difusión de la música estereofónica. En efecto, la transmisión monofónica todavía se utiliza principalmente hoy en día en las comunicaciones de voz. No obstante, con el aumento del ancho de banda y la capacidad de las redes, se prevé que las comunicaciones basadas en tecnologías estereofónicas tendrán mayor difusión y proporcionarán una mejor experiencia auditiva.
[0003] La codificación eficaz de material de audio estereofónico ha sido estudiada durante mucho tiempo en la codificación de audio perceptual de la música para el almacenamiento y la difusión eficientes. Con altas tasas de bits, cuando es fundamental conservar la forma de onda, se ha empleado durante mucho tiempo el estéreo suma-resta, conocido como estéreo M/S (por sus siglas en inglés: mid/side / medio/lateral). Con bajas tasas de bits, se introdujo el estéreo en intensidad y, más recientemente, la codificación con estéreo paramétrico. Esta última técnica fue adoptada en diferentes estándares tales como HeAAC (por sus siglas en inglés: High-Efficiency Advanced Audio Coding / Codificador de Audio Avanzado de Alta Eficiencia)v2 y Mpeg (por sus siglas en inglés: Moving Picture Experts Group / Grupo de Expertos en Imágenes Móviles) USAC (por sus siglas en inglés: Unified Speech and Audio Coding / Codificación Unificada de Voz y Audio). Esta genera una mezcla de forma descendente de la señal de dos canales y asocia la información lateral espacial compacta.
[0004] La codificación de estéreo conjunto se construye usualmente sobre una resolución de alta frecuencia, es decir, baja resolución de tiempo, transformación tiempo-frecuencia de la señal y entonces no es compatible con el procesamiento con bajo retardo y en el dominio del tiempo que realiza la mayoría de los codificadores de voz. Además, la tasa de bits generada es usualmente alta.
[0005] Por otra parte, el estéreo paramétrico emplea un banco de filtros extra posicionado en el extremo delantero del codificador como pre-procesador y en el extremo trasero del decodificador como post-procesador. Por lo tanto, el estéreo paramétrico se puede usar con codificadores de voz convencionales como ACELP (por sus siglas en inglés: Algebraic Code Excited Linear Prediction / Predicción Lineal Excitada por Código Algebraico) ya que está realizado en MPEG USAC. Además, la parametrización del escenario auditivo se puede lograr con una cantidad mínima de información lateral, que es adecuada para bajas tasas de bits. No obstante, el estéreo paramétrico no está específicamente diseñado, por ejemplo, en MPEG USAC, para bajo retardo y no entrega una calidad homogénea en diferentes escenarios conversacionales. En la representación paramétrica convencional de la escena espacial, el ancho de la imagen estéreo se reproduce artificialmente mediante un decorrelacionador aplicado en los dos canales sintetizados y controlado por parámetros ICs (por sus siglas en inglés: Inter-channel Coherence / Coherencia entre Canales) computados y transmitidos por el codificador. Para la mayoría de la voz estéreo, esta forma de ensanchar la imagen estéreo no es adecuada para recrear el efecto ambiental natural de la voz que es un sonido bastante directo dado que está producido por una única fuente ubicada en una posición específica en el espacio (a veces, con alguna reverberación procedente de la habitación). Por el contrario, los instrumentos musicales tienen mucha más anchura natural que la voz, y se pueden imitar mejor mediante la decorrelación de los canales.
[0006] También se presentan inconvenientes cuando la voz se registra con micrófonos no coincidentes, como en la configuración A-B cuando los micrófonos están distantes o en el registro o la representación binaural. Tales escenarios se pueden prever en la captura de voz en teleconferencias o en la creación de un escenario auditivo virtual con oradores distantes en la MCU (por sus siglas en inglés: Multipoint Control Unit / Unidad de Control Multipunto). El momento de llegada de la señal es entonces diferente entre un canal y el otro a diferencia de los registros realizados en micrófonos coincidentes como X-Y (registro de intensidad) o M-S (registro medio-lateral). A continuación, la computación de la coherencia de esos dos canales no alineados en el tiempo se puede estimar de forma incorrecta lo cual hace fracasar la síntesis artificial del efecto ambiental.
[0007] Las referencias de la técnica anterior relacionadas con el procesamiento estéreo son la Patente de EE.UU. 5.434.948 o la Patente de EE.UU. 8.811.621. El documento US 2009/0313028 A1 describe un ejemplo adicional de un aparato para realizar el procesamiento de audio de una señal de audio de entrada multi-canal.
[0008] El documento WO 2006/089570 A1 describe un esquema de codificador/decodificador multi-canal transparente o casi transparente. Un esquema de codificador/decodificador multi-canal genera además una señal residual del tipo forma de onda. Esta señal residual se transmite junto con uno o más parámetros multi-canal a un decodificador. Contrariamente a un decodificador multi-canal puramente paramétrico, el decodificador mejorado genera una señal de salida multi-canal que tiene una calidad de salida mejorada debido a la señal residual adicional.
Del lado del codificador, tanto un canal izquierdo como un canal derecho son filtrados por un banco de filtros de análisis. A continuación, para cada señal sub-banda, se calculan un valor de alineación y un valor de ganancia para una sub-banda. Tal alineación se realiza entonces antes del procesamiento adicional. Del lado del decodificador, se realizan una desalineación y un procesamiento de ganancia y las señales correspondientes son sintetizadas a continuación por un banco de filtros de síntesis con el fin de generar una señal izquierda decodificada y una señal derecha decodificada.
[0009] Se ha encontrado que tales procedimientos de la técnica anterior no proporcionan un óptimo para las señales de audio y, específicamente, para las señales de voz donde hay más de un orador, es decir, en un escenario de conferencia o una escena de conversación.
[0010] Es un objeto de la presente invención proporcionar un concepto mejorado para codificar o decodificar una señal multi-canal.
[0011] Este objeto se consigue mediante un aparato para codificar una señal de audio multi-canal de la reivindicación 1, un procedimiento para codificar una señal de audio multi-canal de la reivindicación 19, una señal de audio multi-canal codificada de la reivindicación 20, un aparato para decodificar una señal de audio multi-canal codificada de la reivindicación 21 o un procedimiento de decodificación de una señal de audio multi-canal codificada de la reivindicación 33 o un programa informático de la reivindicación 34. Realizaciones específicas se definen en las reivindicaciones dependientes.
[0012] Un aparato para codificar una señal multi-canal que tiene al menos dos canales comprende un determinador de parámetros para determinar un parámetro de alineación de banda ancha por una parte y una pluralidad de parámetros de alineación de banda estrecha por la otra. Estos parámetros son utilizados por un alineador de señales para alinear los al menos dos canales usando estos parámetros para obtener canales alineados. A continuación, un procesador de señal calcula una señal central y una señal lateral utilizando los canales alineados y la señal central y la señal lateral a continuación son codificadas y enviadas en una señal de salida codificada que además tiene, como la información lateral paramétrica, el parámetro de alineación de banda ancha y la pluralidad de parámetros de alineación de banda estrecha.
[0013] Del lado del decodificador, un decodificador de señal decodifica la señal central codificada y la señal lateral codificada para obtener una señal central y una señal lateral decodificada. Estas señales se procesan a continuación mediante un procesador de señales para calcular un primer canal decodificado y un segundo canal decodificado. Estos canales decodificados se desalinean a continuación usando la información sobre el parámetro de alineación de banda ancha y la información sobre la pluralidad de parámetros de banda estrecha incluidos en una señal multi-canal codificada para obtener la señal multi-canal decodificada.
[0014] En una implementación específica, el parámetro de alineación de banda ancha es un parámetro de diferencia de tiempos entre canales y la pluralidad de parámetros de alineación de banda estrecha son diferencias de fases entre canales.
[0015] La presente invención se basa en el hallazgo de que específicamente para señales de voz donde hay más de un orador, pero también para otras señales de audio donde hay varias fuentes de audio, los diferentes lugares de las fuentes de audio que se mapean en dos canales de la señal multi-canal se pueden tener en cuenta para usar un parámetro de alineación de banda ancha tal como un parámetro de diferencia de tiempos entre canales que se aplica a la totalidad del espectro tanto de uno como de ambos canales. Además de este parámetro de alineación de banda ancha, se ha descubierto que varios parámetros de alineación de banda estrecha que difieren de sub-banda a sub-banda además resultan en una mejor alineación de la señal en ambos canales.
[0016] Por lo tanto, una alineación de banda ancha correspondiente al mismo retardo en cada sub-banda junto con una alineación de fase correspondiente a diferentes rotaciones de fase para diferentes sub-bandas resulta en una alineación óptima de ambos canales antes de que estos dos canales se conviertan a continuación en una representación central/lateral que se codifica además a continuación. Debido al hecho de que se ha obtenido una alineación óptima, la energía en la señal central es tan alta como es posible, por una parte, y, por otra parte, la energía en la señal lateral es tan pequeña cómo es posible, de modo que se puede obtener un resultado óptimo de codificación con una tasa de bits tan baja como es posible o una calidad de audio tan alta como es posible para una determinada tasa de bits.
[0017] Específicamente para un material de voz conversacional, parece que existen generalmente oradores activos en dos lugares diferentes. Además, la situación es tal que, normalmente, solo un orador está hablando desde el primer lugar y, a continuación, el segundo orador está hablando desde el segundo lugar o ubicación. La influencia de las diferentes ubicaciones en los dos canales tales como un primer canal o canal izquierdo y un segundo canal o canal derecho se refleja mediante diferentes tiempos de llegada y, por lo tanto, un cierto retardo entre ambos canales debido a las diferentes ubicaciones, y este retardo cambia periódicamente. Generalmente, esta influencia se refleja en las señales de los dos canales como una desalineación de banda ancha que se puede corregir mediante el parámetro de alineación de banda ancha.
[0018] Por otra parte, se pueden considerar otros efectos, particularmente procedentes de la reverberación o fuentes adicionales de ruido, mediante parámetros individuales de alineación de fase para bandas individuales que están superpuestas en los diferentes tiempos de llegada de banda ancha o la desalineación de banda ancha de ambos canales.
[0019] En vista de esto, el uso de ambos, un parámetro de alineación de banda ancha y una pluralidad de parámetros de alineación de banda estrecha además del parámetro de alineación de banda ancha resulta en una alineación de canales óptima en el lado del codificador para obtener una buena y muy compacta representación central/lateral mientras que, por otra parte, la desalineación correspondiente subsiguiente a una decodificación en el lado del decodificador resulta en una buena calidad de audio para una determinada tasa de bits o en una pequeña tasa de bits para una determinada calidad de audio requerida.
[0020] Una ventaja de la presente invención es que esta proporciona un nuevo esquema de codificación estéreo mucho más adecuado para una conversión de la voz estéreo que los esquemas de codificación estéreo existentes. De conformidad con la invención, las tecnologías de estéreo paramétrico y las tecnologías de codificación de estéreo conjunto se combinan de forma particular al explotar la diferencia de tiempos entre canales que se produce en los canales de una señal multi-canal específicamente en el caso de fuentes de voz, pero también en el caso de otras fuentes de audio.
[0021] Diversas realizaciones proporcionan ventajas útiles, tal como se expondrá más adelante.
[0022] El nuevo procedimiento es una estrategia híbrida que mezcla elementos de un estéreo M/S convencional y un estéreo paramétrico. En un M/S convencional, los canales se mezclan pasivamente de forma descendente para generar una señal central y una lateral. El proceso se puede extender adicionalmente al rotar el canal usando una transformada de Karhunen-Loeve (KLT), también conocida como PCA (por sus siglas en inglés: Principal Component Analysis / Análisis de Componentes Principales) antes de sumar y diferenciar los canales. La señal central está codificada en una codificación de código primario mientras que la lateral se transmite a un codificador secundario. El estéreo M/S desarrollado puede además usar la predicción de la señal lateral por el canal central codificado en la trama presente o en la anterior. El objetivo principal de la rotación y la predicción es maximizar la energía de la señal central al mismo tiempo que se minimiza la energía de la lateral. El estéreo M/S preserva la forma de onda y en este aspecto es muy sólido ante cualquier escenario estéreo, pero puede ser muy costoso en términos de consumo de bits.
[0023] Para una mayor eficacia con baja tasa de bits, el estéreo paramétrico computa y codifica parámetros, como ILDs (por sus siglas en inglés: Inter-channel Level Differences / Diferencias de Niveles entre Canales), IPDs (por sus siglas en inglés: Inter-channel Phase Differences / Diferencias de Fases entre Canales), ITDs (por sus siglas en inglés: Inter-channel Time Differences / Diferencias de Tiempos entre Canales) e IC. Estos representan de manera compacta la imagen estéreo y son pistas del escenario auditivo (localización de la fuente, paneo, ancho del estéreo, etc.). El objetivo es, a continuación, parametrizar el escenario estéreo y codificar solo una señal de mezcla descendente que puede estar en el decodificador y, con la ayuda de las pistas estéreo transmitidas, espacializarla de nuevo.
[0024] Nuestra estrategia mezcló los dos conceptos. En primer lugar, las pistas ITD e IPD se computan y aplican a los dos canales. El objetivo es representar la diferencia de tiempo en banda ancha y la diferencia de fases en bandas con diferente frecuencia. Los dos canales se alinean a continuación en tiempo y fase y, a continuación, se realiza la codificación M/S. Se ha encontrado que las ITD e IPD fueron útiles para modelar la voz estéreo y son un buen reemplazo de la rotación basada en KLT en M/S. A diferencia de una codificación puramente paramétrica, el efecto ambiental no es más modelado por las IC sino directamente por la señal lateral que se codifica y/o se predice. Se ha encontrado que esta estrategia es más sólida especialmente cuando se gestionan señales de voz.
[0025] La computación y el procesamiento de las ITD es una parte fundamental de la invención. Las ITD ya fueron explotadas en la técnica anterior de BCC (por sus siglas en inglés: Binaural Cue Coding / Codificación de Referencia Binaural), pero de una forma que resultaba ineficaz ya que las ITD cambian a lo largo del tiempo. Para evitar este inconveniente, se diseñó una formación de ventana específica para suavizar las transiciones entre dos ITD diferentes y poder cambiar fluidamente entre un orador y otro posicionados en lugares diferentes.
[0026] Realizaciones adicionales están relacionadas con el procedimiento en las que, del lado del codificador, la determinación de parámetros para determinar la pluralidad de parámetros de alineación de banda estrecha se realiza mediante el uso de canales que ya han sido alineados con el parámetro de alineación de banda ancha determinado anteriormente.
[0027] De manera correspondiente, la desalineación de banda estrecha en el lado del decodificador se realiza antes de realizar la desalineación de banda ancha mediante el uso del generalmente único parámetro de alineación de banda ancha.
[0028] En realizaciones adicionales, se prefiere que, ya sea del lado del codificador, pero incluso más importante, del lado del decodificador, se realice alguna clase de operación de formación de ventana y adición de superposición o alguna clase de desvanecimiento cruzado desde un bloque al siguiente a continuación de todas las alineaciones y, específicamente, a continuación de una alineación en el tiempo mediante el uso del parámetro de alineación de banda ancha. Esto evita cualquier defecto audible tal como clics cuando el parámetro de alineación en el tiempo o de banda ancha cambia de bloque en bloque.
[0029] En otras realizaciones se aplican diferentes resoluciones espectrales. En particular, las señales de los canales se someten a una conversión espectral en el tiempo con una resolución de alta frecuencia tal como un espectro DFT (por sus siglas en inglés: Discrete Fourier Transform / Transformada Discreta de Fourier) mientras que los parámetros tales como los parámetros de alineación de banda estrecha se determinan para bandas de parámetros que tienen una resolución espectral más baja. Generalmente, una banda de parámetros tiene más de una línea espectral que el espectro de la señal y generalmente tiene un conjunto de líneas espectrales del espectro DFT. Asimismo, las bandas de parámetros aumentan desde bajas frecuencias hasta altas frecuencias con el fin de considerar problemas psicoacústicos.
[0030] Realizaciones adicionales se refieren al uso adicional de un parámetro de nivel tal como una diferencia entre niveles u otros procedimientos para procesar la señal lateral tales como parámetros de relleno estéreo, etc. La señal codificada se puede representar mediante la señal lateral real misma, o mediante una señal residual de predicción que se realiza usando la señal central de la trama actual o cualquier otra trama, o mediante una señal lateral o una señal residual de predicción lateral solo en un subconjunto de bandas y parámetros de predicción solo para las bandas restantes, o inclusive mediante parámetros de predicción para todas las bandas sin ninguna información de señal lateral de resolución de alta frecuencia. Por lo tanto, en la última alternativa mencionada, la señal lateral codificada solo es representada por un parámetro de predicción para cada banda de parámetros o solo un subconjunto de bandas de parámetro de modo que para las bandas de parámetros restantes no existe ninguna información sobre la señal lateral original.
[0031] Asimismo, es preferible tener la pluralidad de parámetros de alineación de banda estrecha de modo que no todas las bandas de parámetros reflejen el ancho de banda completo de la señal de banda ancha sino solo un conjunto de bandas bajas tal como el 50 por ciento más bajo de las bandas de parámetros. Por otra parte, los parámetros de relleno estéreo no se usan para el par de bandas bajas, dado que, para estas bandas, se transmite la propia señal lateral o una señal residual de predicción a fin de asegurar que, al menos para las bandas bajas, esté disponible una representación correcta de forma de onda. Por otra parte, la señal lateral no se transmite en una representación exacta de forma de onda para las bandas altas a fin de disminuir todavía más la tasa de bits, pero la señal lateral se representa generalmente mediante parámetros de relleno estéreo.
[0032] Asimismo, es preferible realizar el análisis de parámetros y la alineación completos dentro de uno y el mismo dominio de la frecuencia sobre la base del mismo espectro DFT. Con este fin, es preferible usar además la tecnología GCC-PHAT con el fin de determinar la diferencia de tiempos entre canales. En una realización preferida de este procedimiento, el suavizado de un espectro de correlación sobre la base de una información sobre una forma espectral, siendo la información preferentemente una medición de aplanamiento espectral, se realiza de tal forma que un suavizado será débil en el caso de señales del tipo ruido y un suavizado será más marcado en el caso de señales del tipo tono.
[0033] Asimismo, es preferible realizar una rotación de fase especial, donde se tengan en cuenta las amplitudes de los canales. Particularmente, la rotación de fase se distribuye entre los dos canales con fines de alineación en el lado del codificador, y naturalmente, con fines de desalineación en el lado del decodificador, donde un canal que tiene una amplitud más alta se considera como un canal principal y se verá menos afectado por la rotación de fase, es decir, será menos rotado que un canal con una amplitud más baja.
[0034] Asimismo, el cálculo de suma-resta se realiza usando un escalamiento de la energía con un factor de escala que se deriva de las energías de ambos canales y además está limitado a un cierto intervalo a fin de asegurar que el cálculo centro/lateral no esté afectando demasiado a la energía. Por otra parte, no obstante, cabe destacar que, para el propósito de la presente invención, esta clase de conservación de la energía no es tan crucial como en los procedimientos de la técnica anterior, dado que el tiempo y la fase fueron alineados de antemano. Por lo tanto, las fluctuaciones de energía debido al cálculo de una señal central y una señal lateral de izquierda y derecha (del lado del codificador) o debido al cálculo de una señal izquierda y derecha desde la señal central y lateral (del lado del decodificador) no son tan importantes como en la técnica anterior.
[0035] A continuación, se exponen realizaciones preferidas de la presente invención con respecto a los dibujos adjuntos, en los cuales:
La Fig.1 es un diagrama de bloques de una implementación preferida de un aparato para codificar una señal multicanal;
La Fig. 2 es una realización preferida de un aparato para decodificar una señal multi-canal codificada;
La Fig. 3 es una ilustración de diferentes resoluciones de frecuencia y otros aspectos relacionados con la frecuencia para ciertas realizaciones;
La Fig.4a ilustra un diagrama de flujo de los procedimientos realizados en el aparato para codificar con el fin de alinear los canales;
La Fig. 4b ilustra una realización preferida de los procedimientos realizados en el dominio de la frecuencia;
La Fig. 4c ilustra una realización preferida de los procedimientos realizados en el aparato para codificar usando una ventana de análisis con porciones de atenuación cero e intervalos de superposición;
La Fig. 4d ilustra un diagrama de flujo para procedimientos adicionales realizados dentro del aparato para codificar; La Fig. 4e ilustra un diagrama de flujo para mostrar una implementación preferida de una estimación de diferencia de tiempos entre canales;
La Fig. 5 ilustra un diagrama de flujo que ilustra una realización adicional de procedimientos realizados en el aparato para codificación;
La Fig. 6a ilustra un cuadro de bloques de una realización de un codificador;
La Fig. 6b ilustra un diagrama de flujo de una realización correspondiente de un decodificador;
La Fig. 7 ilustra un escenario de ventana preferido con ventanas seno con baja superposición con atenuación cero para un análisis y síntesis tiempo-frecuencia en estéreo;
La Fig. 8 ilustra una tabla que muestra el consumo de bits de diferentes valores de parámetros;
La Fig. 9a ilustra los procedimientos realizados por un aparato para decodificar una señal multi-canal codificada en una realización preferida;
La Fig. 9b ilustra una implementación preferida del aparato para decodificar una señal multi-canal codificada; y La Fig. 9c ilustra un procedimiento realizado en el contexto de una desalineación de banda ancha en el contexto de la decodificación de una señal multi-canal codificada.
[0036] La Fig. 1 ilustra un aparato para la codificación de una señal multi-canal que tiene al menos dos canales. La señal multi-canal 10 es introducida en un determinador de parámetro 100 por una parte y un alineador de señales 200 por otra parte. El determinador de parámetro 100 determina, por una parte, un parámetro de alineación de banda ancha y, por otra parte, una pluralidad de parámetros de alineación de banda estrecha de la señal multi-canal. Estos parámetros se emiten a través de una línea de parámetros 12. Asimismo, estos parámetros también se emiten a través de una línea de parámetros adicional 14 a una interfaz de salida 500 tal como se ilustra. En la línea de parámetros 14, se envían parámetros adicionales tales como los parámetros de nivel desde el determinador de parámetros 100 hasta la interfaz de salida 500. El alineador de señales 200 está configurado para alinear los al menos dos canales de la señal multi-canal 10 usando el parámetro de alineación de banda ancha y la pluralidad de parámetros de alineación de banda estrecha recibidos a través de la línea de parámetros 10 para obtener canales alineados 20 en la salida del alineador de señales 200. Estos canales alineados 20 se envían a un procesador de señales 300 que está configurado para calcular una señal central 31 y una señal lateral 32 de los canales alineados recibidos a través de la línea 20. El aparato para codificación comprende además un codificador de señales 400 para codificar la señal central desde la línea 31 y la señal lateral desde la línea 32 para obtener una señal central codificada en la línea 41 y una señal lateral codificada en la línea 42. Ambas señales son enviadas a la interfaz de salida 500 para generar una señal multi-canal codificada en la línea de salida 50. La señal codificada en la línea de salida 50 comprende la señal central codificada de la línea 41, la señal lateral codificada de la línea 42, los parámetros de alineación de banda estrecha y los parámetros de alineación de banda ancha de la línea 14 y, opcionalmente, un parámetro de nivel de la línea 14 y, además opcionalmente, un parámetro de relleno estéreo generado por el codificador de señales 400 y enviado a la interfaz de salida 500 a través de la línea de parámetros 43.
[0037] Preferentemente, el alineador de señales está configurado para alinear los canales de la señal multicanal usando el parámetro de alineación de banda ancha, antes de que el determinador de parámetros 100 realmente calcule los parámetros de banda estrecha. Por lo tanto, en esta realización, el alineador de señales 200 envía los canales alineados de banda ancha de vuelta al determinador de parámetros 100 a través de la línea de conexión 15. A continuación, el determinador de parámetros 100 determina la pluralidad de parámetros de alineación de banda estrecha con respecto a la señal multi-canal alineada con características de banda ancha. En otras realizaciones, no obstante, los parámetros se determinan sin esta secuencia específica de procedimientos.
[0038] La Fig. 4a ilustra una implementación preferida, donde se realiza la secuencia específica de etapas que incurren en la línea de conexión 15. En la etapa 16, el parámetro de alineación de banda ancha se determina mediante el uso de los dos canales y se obtiene el parámetro de alineación de banda ancha tal como un parámetro de diferencia de tiempos entre canales o ITD. A continuación, en la etapa 21, los dos canales se alinean mediante el alineador de señales 200 de la Fig. 1 mediante el uso del parámetro de alineación de banda ancha. A continuación, en la etapa 17, se determinan los parámetros de banda estrecha mediante el uso de los canales alineados dentro del determinador de parámetros 100 para determinar una pluralidad de parámetros de alineación de banda estrecha tales como una pluralidad de parámetros de diferencia de fases entre canales para bandas diferentes de la señal multi-canal. A continuación, en la etapa 22, se alinean los valores espectrales en cada banda de parámetros mediante el uso del correspondiente parámetro de alineación de banda estrecha para esta banda específica. Cuando este procedimiento en la etapa 22 se realiza para cada banda, para la cual está disponible un parámetro de alineación de banda estrecha, entonces los canales alineados primeros y segundos o izquierdos/derechos están disponibles para el procesamiento adicional de señales por el procesador de señales 300 de la Fig. 1.
[0039] La Fig. 4b ilustra una implementación adicional del codificador multi-canal de la Fig. 1 donde se realizan diversos procedimientos en el dominio de la frecuencia.
[0040] Específicamente, el codificador multi-canal comprende además un convertidor tiempo-espectro 150 para convertir una señal multi-canal en el dominio del tiempo en una representación espectral de los al menos dos canales dentro del dominio de la frecuencia.
[0041] Asimismo, como se ilustra en 152, el determinador de parámetros, el alineador de señales y el procesador de señales ilustrados en 100, 200 y 300 en la Fig. 1, operan todos en el dominio de la frecuencia.
[0042] Asimismo, el codificador multi-canal y, específicamente, el procesador de señales comprende además un convertidor espectro-tiempo 154 para generar una representación en el dominio del tiempo de la señal central al menos.
[0043] Preferentemente, el convertidor espectro-tiempo convierte además una representación espectral de la señal lateral también determinada por los procedimientos representados en el bloque 152 en una representación en el dominio del tiempo, y el codificador de señales 400 de la Fig. 1 está configurado a continuación para codificar adicionalmente la señal central y/o la señal lateral como señales en el dominio del tiempo según la implementación específica del codificador de señales 400 de la Fig. 1.
[0044] Preferentemente, el convertidor tiempo-espectro 150 de la Fig. 4b está configurado para implementar las etapas 155, 156 y 157 de la Fig.4c. Específicamente, la etapa 155 comprende proporcionar una ventana de análisis con al menos una porción con atenuación cero en uno de sus extremos y, específicamente, una porción con atenuación cero en la porción de ventana inicial y una porción con atenuación cero en la porción de ventana terminal como se ilustra, por ejemplo, en la Fig. 7 más adelante. Además, la ventana de análisis adicionalmente tiene intervalos de superposición o porciones superpuestas en una primera mitad de la ventana y en una segunda mitad de la ventana y, además, preferentemente, una parte central que es un intervalo sin superposición, según sea el caso.
[0045] En la etapa 156, cada canal se forma en ventana mediante el uso de la ventana de análisis con intervalos de superposición. Específicamente, cada canal se forma en ventana mediante el uso de la ventana de análisis de tal forma que se obtiene un primer bloque del canal. A continuación, se obtiene un segundo bloque del mismo canal que tiene un cierto intervalo de superposición con el primer bloque y así sucesivamente, de tal forma que después de, por ejemplo, cinco operaciones de formación de ventana, cinco bloques de muestras formadas en ventana de cada canal están disponibles que son transformados a continuación individualmente en una representación espectral tal como se ilustra en 157 en la Fig. 4c. El mismo procedimiento se realiza para los otros canales también de modo que, al final de la etapa 157, está disponible una secuencia de bloques de valores espectrales y, específicamente, valores espectrales complejos tales como valores espectrales DFT o muestras de sub-bandas complejas.
[0046] En la etapa 158, que es realizada por el determinador de parámetros 100 de la Fig. 1, se determina un parámetro de alineación de banda ancha y en la etapa 159, que se realiza mediante el alineador de señales 200 de la Fig. 1, se realiza un desplazamiento circular usando el parámetro de alineación de banda ancha. En la etapa 160, de nuevo realizada por el determinador de parámetros 100 de la Fig. 1, se determinan los parámetros de alineación de banda estrecha para bandas individuales/sub-bandas y en la etapa 161, los valores espectrales alineados son rotados para cada banda usando los correspondientes parámetros de alineación de banda estrecha para las bandas específicas.
[0047] La Fig. 4d ilustra adicionalmente los procedimientos realizados mediante el procesador de señales 300. Específicamente, el procesador de señales 300 está configurado para calcular una señal central y una señal lateral como se ilustra en la etapa 301. En la etapa 302, se puede realizar algún procesamiento adicional de la señal lateral y, a continuación, en la etapa 303, cada bloque de la señal central y la señal lateral se transforma de nuevo al dominio del tiempo y, en la etapa 304, se aplica una ventana de síntesis a cada bloque obtenido en la etapa 303 y, en la etapa 305, se realizan una operación de agregado de superposición para la señal central por un lado y una operación de agregado de superposición para la señal lateral por otro lado para obtener finalmente las señales centrales/laterales en el dominio del tiempo.
[0048] Específicamente, las operaciones de las etapas 304 y 305 resultan en una especie de desvanecimiento cruzado desde un bloque de la señal central o la señal lateral en el bloque siguiente de la señal central y la señal lateral se realiza de modo que, incluso cuando ocurre cualquier cambio de parámetros tal como del parámetro de diferencia de tiempos entre canales o del parámetro de diferencia de fases entre canales, esto sin embargo no será audible en las señales central/lateral en el dominio del tiempo obtenidas mediante la etapa 305 en la Fig. 4d.
[0049] La nueva codificación estéreo con bajo retardo es una codificación conjunta estéreo central/lateral (M/S) que explota algunas pistas espaciales, donde el canal central está codificado por un codificador principal mononúcleo, y el canal lateral está codificado en un codificador de núcleo secundario. Los principios del codificador y del decodificador se ilustran en las Figs. 6a, 6b.
[0050] El procesamiento estéreo se realiza principalmente en el FD (por sus siglas en inglés: Frequency Domain / Dominio de Frecuencia). Opcionalmente, algo del procesamiento estéreo se puede realizar en el TD (por sus siglas en inglés: Time Domain / Dominio del Tiempo) antes del análisis de frecuencia. Este es el caso para el cómputo ITD, que se puede computar y aplicar antes del análisis de frecuencia para alinear los canales en el tiempo antes de proseguir con el análisis y el procesamiento estéreo. Por otra parte, el procesamiento ITD se puede realizar directamente en el dominio de la frecuencia. Dado que los codificadores de la voz usuales como ACELP no contienen ninguna descomposición interna tiempo-frecuencia, la codificación estéreo agrega un banco de filtros complejo modulado extra por medio de un banco de filtros de síntesis y análisis antes del codificador núcleo y otra etapa de banco de filtros de síntesis y análisis después del decodificador núcleo. En la realización preferida, se emplea una DFT sobremuestreada con una región con baja superposición. No obstante, en otras realizaciones, se puede usar cualquier descomposición valiosa compleja de tiempo-frecuencia con resolución temporal similar.
[0051] El procesamiento estéreo consiste en computar las pistas espaciales: diferencia de tiempos entre canales (ITD), las diferencias de fases entre canales (IPD) y las diferencias de niveles entre canales (ILD). La ITD y las IPD se usan en la señal de entrada estéreo para alinear los dos canales L (izquierdo) y R (derecho) en tiempo y en fase. La ITD se computa en banda ancha o en el dominio del tiempo mientras que las IPD y las ILD se computan para cada una o parte de las bandas de parámetros, correspondientes a una descomposición no uniforme del espacio de la frecuencia. Una vez que los dos canales están alineados se aplica un estéreo conjunto M/S, donde la señal lateral se predice a continuación además desde la señal central. La ganancia de predicción se deriva de las ILD.
[0052] La señal central se codifica además mediante un codificador de núcleo primario. En la realización preferida, el codificador de núcleo primario es el 3GPP EVS estándar, o una codificación derivada de este que puede conmutar entre un modo de codificación de voz, ACELP, y un modo de música sobre la base de una transformación MDCT (por sus siglas en inglés: Modified Discrete Cosine Transform - Transformada de Coseno Discreta Modificada). Preferentemente, ACELP y el codificador basado en MDCT están sustentados respectivamente por módulos TD-BWE (por sus siglas en inglés: Time Domain BandWidth Extension - Extensión de Ancho de Banda en el Dominio del Tiempo) y/o IGF (por sus siglas en inglés: Intelligent Gap Filling / Cobertura Inteligente de Intervalos).
[0053] La predicción de la señal lateral es realizada primero por el canal central mediante el uso de ganancias de predicción derivadas de las ILD. El residuo se puede predecir además mediante una versión con retardo de la señal central o ser directamente codificado por un codificador de núcleo secundario, realizado en la realización preferida en el dominio MDCT. El procesamiento estéreo en el codificador se puede sintetizar mediante la Fig. 5 tal como se explicará más adelante.
[0054] La Fig.2 ilustra un diagrama de bloques de la realización de un aparato para decodificar una señal multicanal codificada recibida en la línea de entrada 50.
[0055] En particular, la señal es recibida por una interfaz de entrada 600. Están conectados con la interfaz de entrada 600 un decodificador de señales 700 y un desalineador de señales 900. Asimismo, un procesador de señales 800 está conectado con un decodificador de señales 700 por una parte y está conectado con un desalineador de señales por otra parte.
[0056] En particular, la señal multi-canal codificada comprende una señal central codificada, una señal lateral codificada, información sobre el parámetro de alineación de banda ancha e información sobre la pluralidad de parámetros de banda estrecha. Por lo tanto, la señal multi-canal codificada en la línea 50 puede ser exactamente la misma señal que la salida de la interfaz de salida de 500 en la Fig. 1.
[0057] No obstante, es importante destacar aquí que, contrariamente a lo que se ilustra en la Fig. 1, el parámetro de alineación de banda ancha y la pluralidad de parámetros de alineación de banda estrecha incluidos en la señal codificada en cierta forma pueden ser exactamente los parámetros de alineación usados por el alineador de señales 200 en la Fig. 1 pero, por otra parte, también pueden ser sus valores inversos, es decir, parámetros que pueden ser usados por exactamente las mismas operaciones realizadas por el alineador de señales 200 pero con valores inversos de modo que se obtiene la desalineación.
[0058] De este modo, la información sobre los parámetros de alineación puede ser los parámetros de alineación usados por el alineador de señales 200 en la Fig. 1 o puede ser valores inversos, es decir, verdaderos "parámetros de desalineación". Adicionalmente, estos parámetros generalmente serán cuantificados de una forma determinada tal como se expondrá más adelante con respecto a la Fig. 8.
[0059] La interfaz de entrada 600 de la Fig. 2 separa la información sobre el parámetro de alineación de banda ancha y la pluralidad de parámetros de alineación de banda estrecha de las señales centrales/laterales codificadas y envía esta información a través de la línea de parámetros 610 al desalineador de señales 900. Por otra parte, la señal central codificada se envía al decodificador de señales 700 mediante la línea 601 y la señal lateral codificada se envía al decodificador de señales 700 mediante la línea de señal 602.
[0060] El decodificador de señales está configurado para decodificar la señal central codificada y para decodificar la señal lateral codificada para obtener una señal central decodificada en la línea 701 y una señal lateral decodificada en la línea 702. Estas señales son utilizadas por el procesador de señales 800 para calcular una señal decodificada del primer canal o una señal izquierda decodificada y para calcular una señal decodificada del segundo canal o una señal decodificada del canal derecho a partir de la señal central decodificada y la señal lateral decodificada, y el primer canal decodificado y el segundo canal decodificado son salidas en las líneas 801, 802, respectivamente. El desalineador de señales 900 está configurado para desalinear el primer canal decodificado en la línea 801 y el canal derecho decodificado 802 usando la información sobre el parámetro de alineación de banda ancha y adicionalmente usando la información sobre la pluralidad de parámetros de alineación de banda estrecha para obtener una señal multi-canal decodificada, es decir, una señal decodificada que tiene al menos dos canales decodificados y desalineados en las líneas 901 y 902.
[0061] La Fig. 9a ilustra una secuencia preferida de etapas realizadas por el desalineador de señales 900 de la Fig. 2. Específicamente, la etapa 910 recibe los canales izquierdo y derecho alineados tal como están disponibles en las líneas 801, 802 de la Fig. 2. En la etapa 910, el desalineador de señales 900 desalinea sub-bandas individuales usando la información sobre los parámetros de alineación de banda estrecha a fin de obtener canales primero y segundo o izquierdo y derecho con desalineación de fase decodificados en 911a y 911b. En la etapa 912, los canales son desalineados mediante el uso del parámetro de alineación de banda ancha de modo que, en 913a y 913b, se obtienen canales desalineados en fase y tiempo.
[0062] En la etapa 914, se realiza cualquier procesamiento adicional que comprende el uso de una operación de formación de ventana o cualquier agregado de superposición o, generalmente, cualquier operación de desvanecimiento cruzado a fin de obtener, en 915a o 915b, una señal decodificada con reducción de fallos o libre de fallos, es decir, obtener canales decodificados que no tienen ningún fallo aunque haya habido, generalmente, parámetros de desalineación variables en el tiempo para la banda ancha, por una parte, y para la pluralidad de bandas estrechas, por otra parte.
[0063] La Fig. 9b ilustra una implementación preferida del decodificador multi-canal ilustrado en la Fig. 2.
[0064] En particular, el procesador de señales 800 de la Fig. 2 comprende un convertidor tiempo-espectro 810.
[0065] El procesador de señales comprende además un convertidor central/lateral a izquierda/derecha 820 a fin de calcular a partir de una señal central M y una señal lateral S una señal izquierda L y una señal derecha R.
[0066] No obstante, es importante señalar que, a fin de calcular L y R mediante la conversión central/lateralizquierda/derecha en el bloque 820, no hay que utilizar necesariamente la señal lateral S. En cambio, como se expondrá más adelante, las señales izquierda/derecha se calculan inicialmente usando solo un parámetro de ganancia derivado de un parámetro de diferencia de niveles entre canales ILD. Generalmente, también se puede considerar que la ganancia de predicción es una forma de ILD. La ganancia se puede derivar de ILD pero también se puede computar directamente. Es preferible no computar más ILD, sino computar la ganancia de predicción directamente y transmitir y usar la ganancia de predicción en el decodificador en vez del parámetro ILD.
[0067] Por lo tanto, en esta implementación, la señal lateral S solo se usa en el actualizador de canales 830 que opera a fin de proporcionar una mejor señal izquierda/derecha usando la señal lateral transmitida S como se ilustra mediante la línea de desvío 821.
[0068] Por lo tanto, el convertidor 820 opera usando un parámetro de nivel obtenido mediante una entrada de parámetro de nivel 822 y sin realmente usar la señal lateral S, pero el actualizador de canales 830 opera a continuación mediante el uso de la lateral 821 y, según la implementación específica, mediante el uso de un parámetro de relleno estéreo recibido por la línea 831. El alineador de señales 900 comprende a continuación un desalineador de fase y escalador de energía 910. El escalador de energía se controla mediante un factor de escalamiento derivado mediante un calculador de factor de escalamiento 940. El calculador de factor de escalamiento 940 es alimentado por la salida del actualizador de canales 830. Sobre la base de los parámetros de alineación de banda estrecha recibidos mediante la entrada 911, se realiza la desalineación de fase y, en el bloque 920, sobre la base del parámetro de alineación de banda ancha recibido mediante la línea 921, se realiza la desalineación en el tiempo. Finalmente, se realiza la conversión espectro-tiempo 930 a fin de obtener finalmente la señal decodificada.
[0069] La Fig. 9c ilustra una secuencia adicional de etapas generalmente realizadas dentro de los bloques 920 y 930 de la Fig. 9b en una realización preferida.
[0070] Específicamente, los canales desalineados de banda estrecha son introducidos en la funcionalidad de desalineación de banda ancha correspondiente al bloque 920 de la Fig. 9b. En el bloque 931 se realiza una DFT o cualquier otra transformada. A continuación del cálculo real de las muestras en el dominio del tiempo, se realiza una formación de ventana de síntesis opcional usando una ventana de síntesis. La ventana de síntesis preferentemente es exactamente igual a la ventana de análisis, o deriva de la ventana de análisis, por ejemplo, mediante interpolación o diezmado, pero depende en cierto modo de la ventana de análisis. Preferentemente, esta dependencia es tal que los factores de multiplicación definidos por dos ventanas de superposición agregan hasta uno por cada punto en el intervalo de superposición. Por lo tanto, después de la ventana de síntesis en el bloque 932, se realiza una operación de superposición y una subsiguiente operación de adición. Alternativamente, en lugar de la formación de ventana de síntesis y la operación de superposición/adición, se realiza cualquier desvanecimiento cruzado entre los bloques subsiguientes para cada canal, a fin de obtener, como ya se expuso en el contexto de la Fig. 9a, una señal decodificada con fallos reducidos.
[0071] Cuando se considera la Fig. 6b, queda claro que las operaciones reales de decodificación para la señal central, es decir, el "decodificador EVS" por una parte, y para la señal lateral, la cuantificación vectorial inversa VQ-1 y la operación MDCT inversa (IMDCT) corresponden al decodificador de señales 700 de la Fig. 2.
[0072] Asimismo, las operaciones DFT en el bloque 810 corresponden al elemento 810 en la Fig. 9b y las funcionalidades del procesamiento estéreo inverso y el desplazamiento inverso en el tiempo corresponden a los bloques 800, 900 de la Fig. 2 y las operaciones de la DFT inversa 930 en la Fig. 6b corresponden a la operación correspondiente en el bloque 930 de la Fig. 9b.
[0073] A continuación, se expone con mayor detalle la Fig. 3. En particular, la Fig. 3 ilustra un espectro DFT que tiene líneas espectrales individuales. Preferentemente, el espectro DFT o cualquier otro espectro ilustrado en la Fig. 3 es un espectro complejo y cada línea es una línea espectral compleja que tiene magnitud y fase o que tiene una parte real y una parte imaginaria.
[0074] Además, el espectro también está dividido en bandas de parámetros diferentes. Cada banda de parámetros tiene al menos una y preferentemente más de una línea espectral. Además, las bandas de parámetros aumentan desde frecuencias bajas a altas. Generalmente, el parámetro de alineación de banda ancha es un solo parámetro de alineación de banda ancha para todo el espectro, es decir, para un espectro que comprende todas las bandas 1 a 6 en la realización ejemplar en la Fig. 3.
[0075] Asimismo, la pluralidad de parámetros de alineación de banda estrecha se proporciona de tal forma que existe un solo parámetro de alineación para cada banda de parámetros. Esto significa que el parámetro de alineación para una banda siempre se aplica a todos los valores espectrales dentro de la banda correspondiente.
[0076] Asimismo, además de los parámetros de alineación de banda estrecha, también se proporcionan parámetros de nivel para cada banda de parámetros.
[0077] Contrariamente a los parámetros de nivel que se proporcionan para cada una de las bandas de parámetros desde la banda 1 hasta la banda 6, es preferible proporcionar la pluralidad de parámetros de alineación de banda estrecha solo para un número limitado de bandas bajas tales como las bandas 1, 2, 3 y 4.
[0078] Además, se proporcionan parámetros de relleno estéreo para un cierto número de bandas excluyendo las bandas bajas tales como, en la realización ejemplar, las bandas 4, 5 y 6, mientras que existen valores espectrales de señal lateral para las bandas bajas de parámetros 1, 2 y 3, y en consecuencia, no existen parámetros de relleno estéreo para estas bandas bajas donde la adaptación de forma de onda se obtiene usando tanto la señal lateral en sí misma como una señal residual de predicción que representa la señal lateral.
[0079] Como ya se señaló, existen más líneas espectrales en las bandas altas, tales como, en la realización de la Fig. 3, siete líneas espectrales en la banda de parámetros 6 frente a solo tres líneas espectrales en la banda de parámetros 2. Naturalmente, sin embargo, el número de bandas de parámetros, el número de líneas espectrales y el número de líneas espectrales dentro de una banda de parámetros y también los diferentes límites para ciertos parámetros serán diferentes.
[0080] No obstante, la Fig. 8 ilustra una distribución de los parámetros y el número de bandas para las cuales se proporcionan parámetros en una determinada realización donde existen, en contraste con la Fig. 3, realmente 12 bandas.
[0081] Como se ilustra, el parámetro de nivel ILD se proporciona para cada una de las 12 bandas y es cuantificado hasta una exactitud de cuantificación representada por cinco bits por banda.
[0082] Asimismo, los parámetros de alineación de banda estrecha IPD solo se proporcionan para las bandas bajas hasta una frecuencia de borde de 2,5 kHz. Además, la diferencia de tiempos entre canales o el parámetro de alineación de banda ancha solo se proporciona como un único parámetro para todo el espectro, pero con una exactitud de cuantificación muy elevada representada por ocho bits para toda la banda.
[0083] Asimismo, se proporcionan parámetros de relleno estéreo cuantificados de manera bastante aproximada representados por tres bits por banda y no para las bandas bajas debajo de 1 kHz dado que, para las bandas bajas, se incluyen valores realmente codificados de señal lateral o valores espectrales residuales de señal lateral.
[0084] A continuación, se sintetiza con respecto a la Fig. 5 un procesamiento preferido en el lado del codificador. En una primera etapa, se realiza un análisis DFT del canal izquierdo y del canal derecho. Este procedimiento corresponde a las etapas 155 a 157 de la Fig.4c. En la etapa 158, se calcula el parámetro de alineación de banda ancha y, particularmente, la diferencia de tiempos entre canales (ITD) del parámetro de alineación de banda ancha. Como se ilustra en 170, se realiza un desplazamiento en el tiempo de L y R en el dominio de la frecuencia. Alternativamente, este desplazamiento en el tiempo se puede realizar en el dominio del tiempo. A continuación, se realiza una DFT inversa, el desplazamiento en el tiempo se realiza en el dominio del tiempo y se realiza una DFT directa adicional a fin de tener una vez más representaciones espectrales después de la alineación usando el parámetro de alineación de banda ancha.
[0085] Los parámetros ILD, es decir, parámetros de nivel y parámetros de fase (parámetros IPD), se calculan para cada banda de parámetros en las representaciones desplazadas L y R como se ilustra en la etapa 171. Esta etapa corresponde a la etapa 160 de la Fig. 4c, por ejemplo. Las representaciones L y R desplazadas en el tiempo se rotan como una función de los parámetros de diferencia de fases entre canales como se ilustra en la etapa 161 de la Fig. 4c o la Fig. 5. A continuación, la señal central y la señal lateral se computan como se ilustra en la etapa 301 y, preferentemente, además con una operación de conservación de energía como se expone más adelante. En una etapa siguiente 174, se realiza una predicción de S con M como una función de ILD y opcionalmente con una señal M pasada, es decir, una señal central de una trama anterior. Posteriormente, se realiza la DFT inversa de la señal central y la señal lateral que corresponde a las etapas 303, 304, 305 de la Fig. 4d en la realización preferida.
[0086] En la etapa final 175, la señal central en el dominio del tiempo M y, opcionalmente, la señal residual se codifica como se ilustra en la etapa 175. Este procedimiento corresponde a lo que es realizado por el codificador de señales 400 en la Fig. 1.
[0087] En el decodificador en el procesamiento de estéreo inverso, la señal lateral se genera en el dominio DFT y se predice en primer lugar a partir de la señal Central como:
Side — g ■ Miel
donde g es una ganancia computada para cada banda de parámetros y va en función de la diferencia de nivel entre canales (ILD) transmitida.
[0088] El residual de la predicción
Figure imgf000011_0001
se pUec|e retinar a continuación en dos formas diferentes: - Mediante una codificación secundaria de la señal residual:
sfde = g ■ Mid + gcod ■ (Side - g ■ Mid )
donde ®cod es una ganancia global transmitida para todo el espectro
- Mediante una predicción residual, conocida como relleno estéreo, que predice el espectro lateral residual con el espectro de la señal central anterior decodificada de la trama DFT anterior:
Side — g ■ Mid + gvred ■ Mid ■ z~1
donde Spred es una ganancia de predicción transmitida por banda de parámetros.
[0089] Los dos tipos de refinamiento de codificación se pueden mezclar dentro del mismo espectro DFT. En la realización preferida, la codificación residual se aplica sobre las bandas bajas de parámetros, mientras que la predicción residual se aplica sobre las bandas restantes. La codificación residual es en la realización preferida como se ilustra en la Fig. 1 se realiza en el dominio MDCT después de sintetizar la señal lateral residual en el dominio del tiempo y transformándola mediante MDCT. Contrariamente a DFT, en MDCT se hace muestreo crítico y es más adecuada para la codificación de audio. Los coeficientes de MDCT se someten directamente a cuantificación vectorial mediante una Cuantificación Vectorial Reticular, pero, alternativamente, se pueden codificar mediante Cuantificación Escalar seguida de codificación entrópica. Por otra parte, la señal lateral residual también se puede codificar en el Dominio del Tiempo mediante una técnica de codificación de la voz o directamente en el dominio DFT.
1. Análisis de tiempo-frecuencia: DFT
[0090] Es importante que la descomposición de tiempo-frecuencia extra del procesamiento estéreo realizado mediante DFT permita un buen análisis del escenario auditivo mientras que no aumenta significativamente el retardo general del sistema de codificación. De manera predeterminada, se utiliza una resolución temporal de 10 ms (dos veces los 20 ms de entramado del codificador núcleo). Las ventanas de análisis y síntesis son iguales y son simétricas. En la Fig. 7 la ventana se representa con una tasa de muestreo de 16 kHz. Se puede observar que la región de superposición está limitada para reducir el retardo generado y que también se agrega atenuación cero para contrarrestar el desplazamiento circular cuando se aplica ITD en el dominio de la frecuencia tal como se explicará más adelante.
2. Parámetros estéreo
[0091] Los parámetros estéreo se pueden transmitir como máximo a la resolución temporal de la DFT estéreo. Como mínimo estos se pueden reducir a la resolución de entramado del codificador núcleo, es decir, 20ms. De forma predeterminada, cuando no se detectan transitorios, los parámetros se computan cada 20ms sobre 2 ventanas DFT. Las bandas de parámetros constituyen una descomposición no uniforme y no superpuesta del espectro a continuación aproximadamente de 2 veces o 4 veces el ERB (por sus siglas en inglés: Equivalent Rectangular Bandwidths / Anchos de Banda Rectangulares Equivalentes). De manera predeterminada, se usa una escala ERB de 4 veces para un total de 12 bandas para un ancho de banda de frecuencia de 16kHz (tasa de muestreo 32kbps, estéreo de súper banda ancha). La Fig. 8 sintetiza un ejemplo de configuración, en el cual la información lateral estéreo se transmite con aproximadamente 5 kbps.
3. Computación de ITD y alineación de tiempo de canales
[0092] Las ITD se computan por la estimación del TDOA (por sus siglas en inglés: Time Delay of Arrival / Tiempo de Retardo de Llegada) usando la Correlación Cruzada Generalizada con Transformada de Fase (GCC-PHAT):
Figure imgf000012_0001
donde L y R son los espectros de frecuencia de los canales izquierdo y derecho respectivamente. El análisis de frecuencia se puede realizar independientemente de la DFT usada para el procesamiento estéreo subsiguiente o se puede compartir. El pseudo-código para computar la ITD es el siguiente:
L =fft(ventana(l));
R =fft(ventana(r));
tmp = L .* conj( R );
sfm_L = prod(abs(L).k(1/longitud(L)))/(media(abs(L))+eps);
sfm_R = prod(abs(R).k(1/longitud(R)))/(media(abs(R))+eps);
sfm = max(sfm_L,sfm_R);
h.cross_corr_smooth = (1-sfm)*h.cross_corr_smooth+sfm*tmp;
tmp = h.cross_corr_smooth ./ abs( h.cross_corr_smooth+eps);
tmp = ifft( tmp);
tmp = tmp([longitud(tmp)/2+1:longitud(tmp) 1:longitud(tmp)/2+1]);
tmp_sort = sort( abs(tmp));
umbral = 3 * tmp_sort( vuelta(0.95*longitud(tmp_sort)));
xcorr_time=abs(tmp(- ( h.stereo_itd_q_max - (length(tmp)-1)/2 -1 ):- (
h.stereo_itd_q_min - (length(tmp)-1)/2 -1 )));
% suavizado de salida para mejor detección
xcorr_time=[xcorr_time 0];
xcorr_time2=filtro([0,250,50,25], 1,xcorr_time);
[m,i] = max(xcorr_time2(2:fin));
si m > umbral
itd = h.stereo_itd_q_max - i 1;
si no
itd = 0;
fin
[0093] La Fig. 4e ilustra un diagrama de flujo para implementar el pseudo-código ilustrado anteriormente a fin de obtener un cálculo robusto y eficiente de una diferencia entre canales como un ejemplo de parámetro de alineación de banda ancha.
[0094] En el bloque 451, se realiza un análisis DFT de las señales en el dominio del tiempo para un primer canal (I) y un segundo canal (r). Este análisis DFT generalmente será el mismo análisis DFT que se ha expuesto en el contexto de las etapas 155 a 157 en la Fig. 5 o la Fig. 4c, por ejemplo.
[0095] A continuación, se realiza una correlación cruzada para cada frecuencia bin como se ilustra en el bloque 452.
[0096] Por lo tanto, se obtiene un espectro de correlación cruzada para el intervalo espectral completo de los canales izquierdo y derecho.
[0097] En la etapa 453, se calcula a continuación una medición de aplanamiento espectral a partir de la magnitud de los espectros de L y R y, en la etapa 454, se selecciona la mayor medición de aplanamiento espectral. No obstante, la selección en la etapa 454 no necesariamente tiene que ser la selección de la mayor, sino que esta determinación de una sola SFM (por sus siglas en inglés: Spectral Flatness Measure / Medición de Aplanamiento Espectral) de ambos canales también puede ser la selección y el cálculo del canal izquierdo solamente o del canal derecho solamente o puede ser el cálculo del promedio ponderado de ambos valores de SFM.
[0098] En la etapa 455, el espectro de correlación cruzada es suavizado a continuación a lo largo del tiempo según las mediciones de aplanamiento espectral.
[0099] Preferentemente, la medición de aplanamiento espectral se calcula dividiendo la media geométrica del espectro de magnitud por la media aritmética del espectro de magnitud. Por lo tanto, los valores de SFM están limitados entre cero y uno.
[0100] En la etapa 456, el espectro de correlación cruzada suavizado a continuación se normaliza por su magnitud y en la etapa 457 se calcula una DFT inversa del espectro de correlación cruzada normalizado y suavizado.
En la etapa 458, se realiza preferentemente un determinado filtro en el dominio del tiempo, pero este filtrado en el dominio del tiempo también se puede dejar de lado según la implementación, pero se prefiere, tal como se describirá más adelante.
[0101] En la etapa 459, se realiza una estimación de la ITD mediante selección de valores máximos (peakpicking) de la función de filtro generalizada de correlación cruzada y mediante la realización de ciertas operaciones de umbralización.
[0102] Si no se obtiene un cierto umbral, entonces la ITD se establece en cero y no se realiza alineación en el tiempo para este bloque correspondiente.
[0103] La computación de la ITD se puede sintetizar también como sigue a continuación. La correlación cruzada se computa en el dominio de la frecuencia antes de ser suavizada según la Medición de Aplanamiento Espectral. La SFM está limitada entre 0 y 1. En el caso de señales del tipo ruido, la SFM será alta (es decir, alrededor de 1) y el suavizado será débil. En el caso de una señal del tipo tono, la SFM será baja y el suavizado se volverá más fuerte. La correlación cruzada suavizada se normaliza a continuación mediante su amplitud antes de ser transformada de nuevo al dominio del tiempo. La normalización corresponde a la transformada de fase de la correlación cruzada, y se sabe que exhibe un mejor desempeño que la correlación cruzada normal en ambientes con ruido bajo y reverberación relativamente alta. La función en el dominio de la frecuencia así obtenida, se filtra primeramente para obtener una selección más sólida de picos máximos. El índice correspondiente a la amplitud máxima corresponde a un estimado de la diferencia de tiempo entre el canal izquierdo y el derecho (ITD). Si la amplitud del máximo es más baja que un umbral dado, entonces la estimación de la ITD no se considera fiable y se establece en cero.
[0104] Si la alineación en el tiempo se aplica en el dominio del tiempo, la ITD se computa en un análisis DFT separado. El desplazamiento se realiza como sigue a continuación:
f r (n ) = r (n ITD) si ITD > 0
l í ( n ) = Í(íí - ITD) Si ITD < 0
[0105] Este requiere un retardo extra en el codificador, que es igual en el máximo que la ITD máxima absoluta que se puede gestionar. La variación de la ITD a lo largo del tiempo se suaviza mediante la formación de ventana de análisis de DFT.
[0106] Alternativamente, la alineación en el tiempo se puede realizar en el dominio de la frecuencia. En este caso, la computación de ITD y el desplazamiento circular están en el mismo dominio de DFT, dominio compartido con este otro procesamiento estéreo. El desplazamiento circular está dado por:
fI L(f) = L{f)e-’ i2TI , f^ ,TD r
1 , .0 eIT D
(« ( / ) = R ( f ) e l2nr 2
[0107] La atenuación cero de las ventanas DFT es necesaria para simular un desplazamiento en el tiempo con un desplazamiento circular. El tamaño de la atenuación cero corresponde a la ITD máxima absoluta que se puede gestionar. En la realización preferida, la atenuación cero está dividida de manera uniforme en ambos lados de las ventanas de análisis, mediante el agregado de 3,125ms de ceros en ambos extremos. La ITD máxima absoluta posible es entonces 6,25ms. En la configuración de micrófonos A-B, esta corresponde en el peor de los casos a una distancia máxima de aproximadamente 2,15 metros entre los dos micrófonos. La variación de ITD a lo largo del tiempo se suaviza mediante la formación de ventana de síntesis y el agregado de superposición de la DFT.
[0108] Es importante que el desplazamiento en el tiempo esté seguido por una formación de ventana de la señal desplazada. Esta es la principal diferencia con la técnica conocida de BCC (por sus siglas en inglés: Binaural Cue Coding / Codificación de Referencia Binaural), donde el desplazamiento en el tiempo se aplica en una señal formada en ventana pero que no se forma en ventana adicionalmente en la etapa de síntesis. En consecuencia, cualquier cambio en ITD a lo largo del tiempo produce un transitorio/clic artificial en la señal decodificada.
4. Computación de IPD y rotación de canales
[0109] Las IPD se computan después de la alineación de los dos canales y esto para cada banda de parámetros o al menos hasta una ‘pd-'ncix _band según la configuración estéreo.
Figure imgf000014_0001
[0110] A continuación, se aplican las IPD a los dos canales para alinear sus fases:
í L \k ) = L ( k )e -^
ifl'(fc ) = R(.k)ei<'PDm -í¡ '‘
[0111] Donde P = ataii2(sm(lPDi[b]),cos(lPD¡[b]) c), c = lt)ílCi b /20y b es el índice de banda de parámetros al cual pertenece el índice de frecuencia k. El parámetro p es responsable de distribuir la cantidad de rotaciones de fase entre los dos canales mientras hace que sus fases estén alineadas. p depende de IPD pero también del nivel de amplitud relativa de los canales, ILD. Si un canal tiene amplitud más elevada, será considerado como canal principal y se verá menos afectado por las rotaciones de fase que el canal con amplitud más baja.
5. Codificación suma-resta y señal lateral
[0112] La transformación suma resta se realiza en los espectros alineados de tiempo y fase de los dos canales de tal forma que la energía se conserve en la señal central.
Figure imgf000015_0001
donde v L’+R)2 está limitado entre 1/1,2 y 1,2, es decir -1,58 y 1,58 dB. Esta limitación evita fallos cuando se ajusta la energía de M y S. Cabe destacar que esta conservación de energía es menos importante cuando el tiempo y la fase se alinean de antemano. Alternativamente, los límites se pueden disminuir o aumentar.
[0113] Se predice adicionalmente la señal lateral con M:
S'{f)=S(f)-g{lLD)M (j)
donde g(|LD) = -^7. . _ 1n/LD([í>]/20
donde c ^ ‘ J' . Alternativamente, la ganancia de predicción óptima g se puede encontrar al minimizar el MSE (por sus siglas en inglés: Mean Square Error / Error Cuadrático Medio) del residual y las ILD deducidos mediante la ecuación anterior.
[0114] La señal residual se puede modelar de dos maneras: prediciéndola con el espectro de retardo de M o codificándola directamente en el dominio MDCT en el dominio MDCT.
6. Decodificación estéreo
[0115] La señal central X y la señal lateral S se convierten primero a los canales izquierdo y derecho L y R como sigue a continuación:
Li[k] = Mt[k] gMi[k\, para band_limits[b] < k < band_limits[b 1],
Rd k] = M¡[k] - gM¡[k], parabandjtmits[b] < k < bandjimits[b 1],
donde la ganancia g por banda de parámetros se deriva del parámetro ILD:
Figure imgf000015_0002
donde c: , ^QlLD,\b]/20
[0116] Para bandas de parámetros por debajo de cod_max_band, los dos canales se actualizan con la señal lateral decodificada:
Lf[k] = L¡[/c] cod_gairii ■ 5¿[fc],para 0 < k < band_limits[cod_max _band],
Ri[k] = — cod_gaini - para 0 < k < band_limits[cod_max _band],
[0117] Para bandas de parámetros más elevadas, se predice la señal lateral y los canales se actualizan como: para band_lim its[b ] < k < band_lim its[b 1],
Figure imgf000016_0001
para band_lim.its[b] < k < band_lim its[£> 1],
[0118] Finalmente, los canales se multiplican por un valor complejo con el objetivo de restaurar la energía original y la fase entre canales de la señal estéreo:
L¡[k] = a ■ i‘ ■ Ldk]
ií ( [k] = a - eJ^/5-lpD¡M ■ ñ £[Jt]
donde
Figure imgf000016_0002
donde a está definida y limitada como se definió anteriormente, y donde ^ atan2(sin(IPDl[b]),cos(IPDl[b]) c) y ¿onde atan2(x,y) es la tangente inversa en el cuarto cuadrante de x sobre y.
[0119] Finalmente, los canales son desplazados en el tiempo ya sea en el dominio del tiempo o de la frecuencia, según las ITD transmitidas. Los canales en el dominio del tiempo se sintetizan mediante DFT inversas y adición de superposición.
[0120] Las características específicas de la invención se relacionan con la combinación de pistas espaciales y codificación estéreo conjunta suma-resta. Específicamente, se computan y aplican en los canales estéreo (izquierdo y derecho) las pistas espaciales IDT e IPD. Asimismo, se calcula la suma-resta (señales M/S) y, preferentemente, se aplica una predicción de S con M.
[0121] Del lado del decodificador, las pistas espaciales de banda ancha y de banda estrecha se combinan entre sí con codificación estéreo conjunta suma-resta. En particular, la señal lateral se predice con la señal central usando al menos una pista espacial tal como ILD y se calcula una suma-resta inversa para obtener los canales izquierdo y derecho, y, además, se aplican en los canales izquierdo y derecho las pistas espaciales de banda ancha y banda estrecha.
[0122] Preferentemente, el codificador tiene una ventana y agregado de superposición con respecto a los canales alineados en el tiempo después del procesamiento con el uso de la ITD. Además, el decodificador tiene adicionalmente una operación de formación de ventana y agregado de superposición de las versiones desplazadas o desalineadas de los canales después de aplicar la diferencia de tiempos entre canales.
[0123] La computación de la diferencia de tiempos entre canales con el procedimiento GCC-Phat es un procedimiento específicamente sólido.
[0124] El nuevo procedimiento es ventajoso con respecto a la técnica anterior ya que logra la codificación de tasa de bits de audio estéreo o audio multi-canal con bajo retardo. Está específicamente diseñado para ser sólido ante señales de entrada de distinta naturaleza y diferentes configuraciones del registro estéreo o multi-canal. En particular, la presente invención proporciona una buena calidad para codificación de tasa de bits de voz estéreo.
[0125] Los procedimientos preferidos encuentran uso en la distribución de transmisiones de todo tipo de contenido de audio estéreo o multi-canal tal como voz y música igualmente con una baja tasa de bits dada. Tales áreas de aplicación son radio digital, transmisión de Internet o aplicaciones en comunicación de audio.
[0126] Una señal de audio codificada de la invención se puede almacenar en un medio de almacenamiento digital o un medio de almacenamiento no transitorio o se puede transmitir en un medio de transmisión tal como un medio de transmisión inalámbrica o un medio de transmisión por cable tal como Internet.
[0127] Aunque algunos aspectos se han descrito en el contexto de un aparato, resulta claro que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa de un procedimiento o una característica de una etapa de un procedimiento. De forma análoga, los aspectos descritos en el contexto de una etapa de un procedimiento también representan una descripción de un bloque o elemento o característica de un aparato correspondiente.
[0128] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en un equipo físico o un soporte lógico. La implementación se puede realizar usando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un CD, una memoria ROM, una memoria PROM, una memoria EPROM, una memoria Ee PROM o una memoria FLASH, que tenga almacenadas en ella señales de control legibles electrónicamente, que cooperan (o son capaces de cooperar) con un sistema informático programable de tal forma que se realice el procedimiento respectivo.
[0129] Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema informático programable, de tal forma que se lleva a cabo uno de los procedimientos descritos en esta invención.
[0130] Generalmente, las realizaciones de la presente invención se pueden implementar como un producto que es un programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los procedimientos cuando el programa informático se ejecuta en un ordenador. El código de programa, por ejemplo, se puede almacenar en un soporte legible por una máquina.
[0131] Otras realizaciones comprenden el programa informático para realizar uno de los procedimientos descritos en esta invención, almacenados en un soporte legible por una máquina o un medio de almacenamiento no transitorio.
[0132] En otras palabras, una realización del procedimiento de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los procedimientos descritos en esta invención, cuando el programa se ejecuta en un ordenador.
[0133] Una realización adicional de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en él, el programa informático para realizar uno de los procedimientos descritos en esta invención.
[0134] Una realización adicional del procedimiento de la invención es, por lo tanto, una corriente de datos o una secuencia de señales que representan el programa informático para realizar uno de los procedimientos descritos en esta invención. La corriente de datos o la secuencia de señales pueden, por ejemplo, estar configuradas para ser transferidas a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
[0135] Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo lógico programable, configurado o adaptado para realizar uno de los procedimientos descritos en esta invención.
[0136] Una realización adicional comprende un ordenador que tiene instalado el programa informático para realizar uno de los procedimientos descritos en esta invención.
[0137] En algunas realizaciones, se puede usar un dispositivo lógico programable (por ejemplo, una matriz de puertas programables por campo) para realizar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puertas programables por campo puede cooperar con un microprocesador a fin de realizar uno de los procedimientos descritos en esta invención. Generalmente, los procedimientos se realizan preferentemente mediante cualquier aparato de hardware.
[0138] Las realizaciones anteriormente descritas son meramente ilustrativas de los principios de la presente invención. Se entiende que modificaciones y variaciones de las disposiciones y los detalles descritos en esta invención serán evidentes para otros expertos en la materia. Es la intención, por lo tanto, estar limitados únicamente por el alcance de las reivindicaciones de patente que siguen a continuación y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en esta invención.

Claims (34)

REIVINDICACIONES
1. Aparato para la codificación de una señal de audio multi-canal que tiene al menos dos canales, que comprende:
un determinador de parámetros (100) para determinar un parámetro de alineación de banda ancha y una pluralidad de parámetros de alineación de banda estrecha a partir de la señal de audio multi-canal;
un alineador de señal (200) para alinear los al menos dos canales usando el parámetro de alineación de banda ancha y la pluralidad de parámetros de alineación de banda estrecha para obtener canales alineados;
un procesador de señal (300) para calcular una señal central y una señal lateral usando los canales alineados; un codificador de señal (400) para codificar la señal central para obtener una señal central codificada y para codificar la señal lateral para obtener una señal lateral codificada; y
una interfaz de salida (500) para generar una señal de audio codificada multi-canal que comprende la señal central codificada, la señal lateral codificada, información sobre el parámetro de alineación de banda ancha e información sobre la pluralidad de parámetros de alineación de banda estrecha.
2. Aparato de la reivindicación 1,
en el que el determinador de parámetros (100) está configurado para determinar el parámetro de alineación de banda ancha usando una representación de banda ancha de al menos dos canales, comprendiendo la representación de banda ancha al menos dos sub-bandas de cada uno de los al menos dos canales, y
en el que el alineador de señal (200) está configurado para realizar una alineación de banda ancha de la representación de banda ancha de los al menos dos canales para obtener una representación de banda ancha alineada de los al menos dos canales.
3. Aparato de la reivindicación 1 o la reivindicación 2,
en el que el determinador de parámetros (100) está configurado para determinar un parámetro de alineación de banda estrecha separado para al menos una sub-banda de una representación de banda ancha alineada de los al menos dos canales, y
en el que el alineador de señal (200) está configurado para alinear individualmente cada sub-banda de la representación de banda ancha alineada usando el parámetro de banda estrecha para una sub-banda correspondiente para obtener una representación de banda estrecha alineada que comprende una pluralidad de sub-bandas alineadas para cada uno de los al menos dos canales.
4. Aparato de una de las reivindicaciones anteriores,
en el que el procesador de señal (300) está configurado para calcular la pluralidad de sub-bandas para la señal central y una pluralidad de sub-bandas para la señal lateral usando una pluralidad de sub-bandas alineadas para cada uno de los al menos dos canales.
5. Aparato de una de las reivindicaciones anteriores,
en el que el determinador de parámetros (100) está configurado para calcular, como el parámetro de alineación de banda ancha, un parámetro de diferencia de tiempo entre canales o, como la pluralidad de parámetros de alineación de banda estrecha, una diferencia de fase entre canales para cada una de una pluralidad de sub-bandas de la señal de audio multi-canal.
6. Aparato de una de las reivindicaciones anteriores,
en el que el determinador de parámetros (100) está configurado para calcular una ganancia de predicción o una diferencia de nivel entre canales para cada una de una pluralidad de sub-bandas de la señal de audio multi-canal, y en el que el codificador de señal (400) está configurado para realizar una predicción de señal lateral en una sub-banda usando la señal central en la sub-banda y usando la diferencia de nivel entre canales o la ganancia de predicción de la sub-banda.
7. Aparato de una de las reivindicaciones anteriores,
en el que el codificador de señal (400) está configurado para calcular y codificar una señal residual de predicción derivada de la señal lateral, una ganancia de predicción o una diferencia de nivel entre canales entre los al menos dos canales, la señal central y una señal central retardada, o en el que la ganancia de predicción en una sub-banda se calcula usando la diferencia de nivel entre canales entre los al menos dos canales en la sub-banda, o en el que el codificador de señal está configurado para codificar la señal central usando un codificador de voz o un codificador de música/voz conmutado o un codificador de extensión de ancho de banda de dominio de tiempo o un codificador de relleno de intervalo de dominio de frecuencia.
8. Aparato según una de las reivindicaciones anteriores, que comprende, además:
un convertidor de espectro de tiempo (150) para generar una representación espectral de los al menos dos canales en un dominio espectral,
en el que el determinador de parámetros (100) y el alineador de señal (200) y el procesador de señal (300) están configurados para operar en el dominio espectral, y
en el que el procesador de señal (300) comprende además un convertidor de espectro-tiempo (154) para generar una representación en el dominio del tiempo de la señal central, y
en el que el codificador de señal (400) está configurado para codificar la representación en el dominio del tiempo de la señal central.
9. Aparato de una de las reivindicaciones anteriores,
en el que el determinador de parámetros (100) está configurado para calcular el parámetro de alineación de banda ancha usando una representación espectral,
en el que el alineador de señal (200) está configurado para aplicar un desplazamiento circular (159) a la representación espectral de los al menos dos canales usando el parámetro de alineación de banda ancha para obtener valores espectrales alineados de banda ancha para los al menos dos canales, o
en el que el determinador de parámetros (100) está configurado para calcular la pluralidad de parámetros de alineación de banda estrecha a partir de los valores espectrales alineados de banda ancha, y
en el que el alineador de señal (200) está configurado para rotar (161) los valores espectrales alineados de banda ancha usando la pluralidad de parámetros de alineación de banda estrecha.
10. Aparato de la reivindicación 8 ó 9,
en el que el convertidor de espectro de tiempo (150) está configurado para aplicar una ventana de análisis a cada uno de los al menos dos canales, en el que la ventana de análisis tiene una porción con atenuación cero en un lado izquierdo o un lado derecho del mismo, en el que la porción con atenuación cero determina un valor máximo del parámetro de alineación de banda ancha o
en el que la ventana de análisis tiene una región superpuesta inicial, una región central no superpuesta y una región superpuesta posterior o
en el que el convertidor de espectro de tiempo (150) está configurado para aplicar una secuencia de ventanas superpuestas, en el que una longitud de una parte superpuesta de una ventana y una longitud de una parte no superpuesta de la ventana juntas son iguales a una fracción de un marco del codificador de señal (400).
11. Aparato de una de las reivindicaciones 8 a 10,
en el que el convertidor de espectro-tiempo (154) está configurado para usar una ventana de síntesis, siendo la ventana de síntesis idéntica a la ventana de análisis utilizada por el convertidor de espectro de tiempo (150) o se deriva de la ventana de análisis.
12. Aparato de una de las reivindicaciones anteriores,
en el que el procesador de señal (300) está configurado para calcular una representación en el dominio del tiempo de la señal central o la señal lateral, en el que el cálculo de la representación en el dominio del tiempo comprende: la formación de ventana (304) de un bloque actual de muestras de la señal central o la señal lateral para obtener un bloque actual formado en ventana,
la formación de ventana (304) de un bloque posterior de muestras de la señal central o la señal lateral para obtener un bloque posterior formado en ventana, y
la adición (305) de muestras del bloque actual formado en ventana y muestras del bloque posterior formado en ventana en un intervalo de superposición para obtener la representación del dominio de tiempo para el intervalo de superposición.
13. Aparato de una de las reivindicaciones anteriores,
en el que el codificador de señal (400) está configurado para codificar la señal lateral o una señal residual de predicción derivada de la señal lateral y la señal central en un primer conjunto de sub-bandas, y
para codificar, en un segundo conjunto de sub-bandas, diferente del primer conjunto de sub-bandas, una señal lateral derivada del parámetro de ganancia y una señal central antes,
en el que la señal lateral o una señal residual de predicción no está codificada para el segundo conjunto de sub­ bandas.
14. Aparato de la reivindicación 13,
en el que el primer conjunto de sub-bandas tiene sub-bandas que son más bajas en frecuencia que las frecuencias en el segundo conjunto de sub-bandas.
15. Aparato de una de las reivindicaciones anteriores,
en el que el codificador de señal (400) está configurado para codificar la señal lateral usando una transformada MDCT y una cuantificación tal como un vector o un escalar o cualquier otra cuantificación de coeficientes MDCT de la señal lateral.
16. Aparato de una de las reivindicaciones anteriores,
en el que el determinador de parámetros (100) está configurado para determinar la pluralidad de parámetros de alineación de banda estrecha para bandas individuales que tienen ancho de banda, en el que un primer ancho de banda de una primera banda que tiene una primera frecuencia central es menor que un segundo ancho de banda de una segunda banda que tiene una segunda frecuencia central, en el que la segunda frecuencia central es mayor que la primera frecuencia central o en el que el determinador de parámetros (100) está configurado para determinar los parámetros de alineación de banda estrecha solo para bandas hasta una frecuencia límite, siendo la frecuencia límite inferior a una frecuencia máxima de señal central o señal lateral, y
en el que el alineador (200) está configurado para alinear solo los al menos dos canales en sub-bandas que tienen frecuencias por encima de la frecuencia límite usando el parámetro de alineación de banda ancha y para alinear los al menos dos canales en sub-bandas que tienen frecuencias por debajo de la frecuencia límite usando el parámetro de alineación de banda ancha y los parámetros de alineación de banda estrecha.
17. Aparato de una de las reivindicaciones anteriores,
en el que el determinador de parámetros (100) está configurado para calcular el parámetro de alineación de banda ancha usando la estimación de un retraso de tiempo de llegada usando una correlación cruzada generalizada, y en el que el alineador de señal (200) está configurado para aplicar el parámetro de alineación de banda ancha en un dominio de tiempo usando un cambio de tiempo o en un dominio de frecuencia usando un cambio circular, o
en el que el determinador de parámetros (100) está configurado para calcular el parámetro de banda ancha usando: el cálculo (452) de un espectro de correlación cruzada entre el primer canal y el segundo canal;
el cálculo (453, 454) de una información sobre una forma espectral para el primer canal o el segundo canal o ambos canales;
el suavizado (455) del espectro de correlación cruzada dependiendo de la información sobre la forma espectral; opcionalmente, normalizando (456) el espectro de correlación cruzada suavizado;
la determinación (457, 458) de una representación en el dominio del tiempo del espectro de correlación cruzada suavizado y opcionalmente normalizado; y
el análisis (459) de la representación en el dominio del tiempo para obtener la diferencia de tiempo entre canales como el parámetro de alineación de banda ancha.
18. Aparato de una de las reivindicaciones anteriores,
en el que el procesador de señal (300) está configurado para calcular la señal central y la señal lateral utilizando un factor de escala de energía y en el que el factor de escala de energía está limitado como máximo entre 2 y al menos 0,5, o
en el que el determinador de parámetros (100) está configurado para calcular un parámetro de alineación normalizado para una banda determinando un ángulo de una suma compleja de productos de valores espectrales del primer y segundo canal dentro de la banda, o en el que el alineador de señal (200) está configurado para realizar la alineación de banda estrecha de una manera tal que tanto el primer canal como el segundo están sujetos a una rotación de canal, en el que una rotación de canal de un canal que tiene una amplitud más alta se gira en un grado menor en comparación con un canal que tiene una amplitud menor.
19. Procedimiento para la codificación de una señal de audio multi-canal que tiene al menos dos canales, que comprende:
la determinación (100) de un parámetro de alineación de banda ancha y una pluralidad de parámetros de alineación de banda estrecha a partir de la señal de audio multi-canal;
la alineación (200) de los al menos dos canales mediante el uso del parámetro de alineación de banda ancha y la pluralidad de parámetros de alineación de banda estrecha para obtener canales alineados;
el cálculo (300) de una señal central y una señal lateral mediante el uso de los canales alineados;
la codificación (400) de la señal central para obtener una señal central codificada y la codificación de la señal lateral para obtener una señal lateral codificada; y
la generación (500) de una señal de audio codificada multi-canal que comprende la señal central codificada, la señal lateral codificada, información sobre el parámetro de alineación de banda ancha e información sobre la pluralidad de parámetros de alineación de banda estrecha.
20. Señal de audio codificada multi-canal que comprende una señal central codificada, una señal lateral codificada, información sobre un parámetro de alineación de banda ancha e información sobre una pluralidad de parámetros de alineación de banda estrecha.
21. Aparato para la decodificación de una señal de audio multi-canal codificada que comprende una señal central codificada, una señal lateral codificada, información sobre un parámetro de alineación de banda ancha e información sobre una pluralidad de parámetros de alineación de banda estrecha, que comprende:
un decodificador de señal (700) para la decodificación de la señal central codificada para obtener una señal central decodificada y para la decodificación de la señal lateral codificada para obtener una señal lateral decodificada; un procesador de señal (800) para el cálculo de un primer canal decodificado y un segundo canal decodificado a partir de la señal central decodificada y la señal lateral decodificada; y
un desalineador de señal (900) para la desalineación del primer canal decodificado y el segundo canal decodificado mediante el uso de la información sobre el parámetro de alineación de banda ancha y la información sobre la pluralidad de parámetros de alineación de banda estrecha para obtener una señal de audio multi-canal decodificada.
22. Aparato de la reivindicación 21,
en el que el desalineador de señal (900) está configurado para desalinear cada una de una pluralidad de sub-bandas de los canales decodificados primero y segundo mediante el uso de un parámetro de alineación de banda estrecha asociado con la sub-banda correspondiente para obtener una sub-banda desalineada para el primero y el segundo canal, y
en el que el desalineador de señal está configurado para desalinear una representación de las sub-bandas desalineadas de los canales decodificados primero y segundo mediante el uso de la información sobre el parámetro de alineación de banda ancha.
23. Aparato de la reivindicación 21 ó 22,
en el que el desalineador de señal (900) está configurado para calcular una representación en el dominio del tiempo del primer canal decodificado o del segundo canal decodificado mediante el uso de la formación de ventana de un bloque actual de muestras del canal izquierdo o el canal derecho para obtener un bloque actual formado en ventana; la formación de ventana de un bloque posterior de muestras del primer canal y el segundo canal para obtener un bloque posterior formado en ventana; y
la adición de muestras del bloque actual formado en ventana y muestras del bloque posterior formado en ventana en un intervalo de superposición para obtener la representación del dominio de tiempo para el intervalo de superposición.
24. Aparato de una de las reivindicaciones 21 a 23,
en el que el desalineador de señal (900) está configurado para aplicar la información sobre la pluralidad de parámetros de alineación de banda estrecha individuales para sub-bandas individuales que tienen anchos de banda, en el que un primer ancho de banda de una primera banda que tiene una primera frecuencia central es menor que un segundo ancho de banda de una segunda banda que tiene una segunda frecuencia central,
en el que la segunda frecuencia central es mayor que la primera frecuencia central, o
en el que el desalineador de señal está configurado para aplicar la información sobre la pluralidad de parámetros de alineación de banda estrecha individuales para bandas individuales solo para bandas hasta una frecuencia límite, siendo la frecuencia límite inferior a una frecuencia máxima del primer canal decodificado o el segundo canal decodificado y
en el que el desalineador (900) está configurado para desalinear solo los al menos dos canales en sub-bandas que tienen frecuencias superiores a la frecuencia límite mediante el uso de la información sobre el parámetro de alineación de banda ancha y desalinear los al menos dos canales en sub-bandas que tienen frecuencias por debajo de la frecuencia límite mediante el uso de la información sobre el parámetro de alineación de banda ancha y mediante el uso de la información sobre los parámetros de alineación de banda estrecha.
25. Aparato de una de las reivindicaciones 21 a 24,
en el que el procesador de señal (800) comprende:
un convertidor de espectro de tiempo (810) para calcular una representación en el dominio de la frecuencia de la señal central decodificada y la señal lateral decodificada,
en el que el procesador de señal (800) está configurado para calcular el primer canal decodificado y el segundo canal decodificado en el dominio de frecuencia, y
en el que el desalineador de señal comprende un convertidor de espectro-tiempo (930) para convertir señales alineadas mediante el uso de la información sobre la pluralidad de parámetros de alineación de banda estrecha solamente o mediante el uso de la pluralidad de parámetros de alineación de banda estrecha y mediante el uso de la información sobre el parámetro de alineación de banda ancha en un dominio de tiempo.
26. Aparato de una de las reivindicaciones 21 a 25,
en el que el desalineador de señal (900) está configurado para realizar una desalineación en un dominio de tiempo mediante el uso de la información sobre el parámetro de alineación de banda ancha y para realizar una operación de formación de ventana (932) o una operación de superposición y adición (933) mediante el uso de bloques posteriores de tiempo de los canales alineados en el tiempo, o
en el que el desalineador de señal (900) está configurado para realizar una desalineación en un dominio espectral mediante el uso de la información sobre el parámetro de alineación de banda ancha y para realizar una conversión de espectro-tiempo (931) mediante el uso de los canales desalineados y realizar una formación de ventana de síntesis (932) y una operación de superposición y suma (933) mediante el uso de bloques posteriores al tiempo de canales desalineados.
27. Aparato de una de las reivindicaciones anteriores,
en el que el decodificador de señal está configurado para generar una señal central del dominio del tiempo y una señal lateral del dominio del tiempo,
en el que el procesador de señal (800) está configurado para realizar una formación de ventana mediante el uso de una ventana de análisis para generar bloques posteriores de muestras formadas en ventana para la señal central o la señal lateral,
en el que el procesador de señal comprende un convertidor de espectro de tiempo (810) para convertir los bloques posteriores de tiempo para obtener bloques posteriores de valores espectrales; y
en el que el desalineador de señal (900) está configurado para realizar la desalineación mediante el uso de la información sobre los parámetros de alineación de banda estrecha y la información sobre los parámetros de alineación de banda ancha en los bloques de valores espectrales.
28. Aparato de una de las reivindicaciones 21 a 27,
en el que la señal codificada comprende una pluralidad de ganancias de predicción o parámetros de nivel, en el que el procesador de señal (800) está configurado para calcular valores espectrales del canal izquierdo y el canal derecho mediante el uso de valores espectrales del canal central y un parámetro de nivel o ganancia de predicción para una banda a la que están asociados los valores espectrales (820), y
mediante el uso de valores espectrales de la señal lateral decodificada (830).
29. Aparato de una de las reivindicaciones 21 a 28,
en el que el procesador de señal (800) está configurado para calcular valores espectrales de los canales izquierdo y derecho mediante el uso de un parámetro de relleno estéreo para una banda a la cual están asociados los valores espectrales (830).
30. Aparato de una de las reivindicaciones 21 a 29,
en el que el desalineador de señal (900) o el procesador de señal (800) está configurado para realizar un escalado de energía (910) para una banda usando un factor de escala, en el que el factor de escala depende (920) de las energías de la señal central decodificada y la señal lateral decodificada, y
en el que el factor de escala se limita entre como máximo 2,0 y como mínimo 0,5.
31. Aparato de una de las reivindicaciones 28 a 30,
en el que el procesador de señal (800) está configurado para calcular los valores espectrales del canal izquierdo y el canal derecho mediante el uso de un factor de ganancia derivado del parámetro de nivel, en el que el factor de ganancia se deriva del parámetro de nivel mediante el uso de una función no lineal.
32. Aparato de una de las reivindicaciones 21 a 31,
en el que el desalineador de señal (900) está configurado para desalinear una banda del primer y segundo canales decodificados mediante el uso de la información sobre el parámetro de alineación de banda estrecha para los canales mediante el uso de una rotación de los valores espectrales del primer y el segundo canal, en el que los valores espectrales de un canal que tiene una amplitud más alta se giran menos en comparación con los valores espectrales de la banda del otro canal que tiene una amplitud menor.
33. Procedimiento para la decodificación de una señal de audio multi-canal codificada que comprende una señal central codificada, una señal lateral codificada, información sobre un parámetro de alineación de banda ancha e información sobre una pluralidad de parámetros de alineación de banda estrecha, que comprende:
la decodificación (700) de la señal central codificada para obtener una señal central decodificada y la decodificación de la señal lateral codificada para obtener una señal lateral decodificada;
el cálculo (800) de un primer canal decodificado y un segundo canal decodificado a partir de la señal central decodificada y la señal lateral decodificada; y
la desalineación (900) del primer canal decodificado y el segundo canal decodificado mediante el uso de la información sobre el parámetro de alineación de banda ancha y la información sobre la pluralidad de parámetros de alineación de banda estrecha para obtener una señal de audio multi-canal decodificada.
34. Programa informático adaptado para realizar, cuando se ejecuta en un ordenador o un procesador, el procedimiento de la reivindicación 19 o el procedimiento de la reivindicación 33.
ES17700705T 2016-01-22 2017-01-20 Aparato y procedimiento para la codificación o decodificación de una señal de audio multi-canal mediante el uso de un parámetro de alineación de banda ancha y una pluralidad de parámetros de alineación de banda estrecha Active ES2790404T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16152453 2016-01-22
EP16152450 2016-01-22
PCT/EP2017/051205 WO2017125558A1 (en) 2016-01-22 2017-01-20 Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters

Publications (1)

Publication Number Publication Date
ES2790404T3 true ES2790404T3 (es) 2020-10-27

Family

ID=57838406

Family Applications (4)

Application Number Title Priority Date Filing Date
ES17700706T Active ES2727462T3 (es) 2016-01-22 2017-01-20 Aparatos y procedimientos para la codificación o decodificación de una señal multicanal de audio mediante el uso de repetición de muestreo de dominio espectral
ES17701669T Active ES2768052T3 (es) 2016-01-22 2017-01-20 Aparatos y procedimientos para codificar o decodificar una señal de audio multicanal usando sincronización de control de trama
ES17700705T Active ES2790404T3 (es) 2016-01-22 2017-01-20 Aparato y procedimiento para la codificación o decodificación de una señal de audio multi-canal mediante el uso de un parámetro de alineación de banda ancha y una pluralidad de parámetros de alineación de banda estrecha
ES17700707T Active ES2773794T3 (es) 2016-01-22 2017-01-20 Aparato y procedimiento para estimar una diferencia de tiempos entre canales

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES17700706T Active ES2727462T3 (es) 2016-01-22 2017-01-20 Aparatos y procedimientos para la codificación o decodificación de una señal multicanal de audio mediante el uso de repetición de muestreo de dominio espectral
ES17701669T Active ES2768052T3 (es) 2016-01-22 2017-01-20 Aparatos y procedimientos para codificar o decodificar una señal de audio multicanal usando sincronización de control de trama

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES17700707T Active ES2773794T3 (es) 2016-01-22 2017-01-20 Aparato y procedimiento para estimar una diferencia de tiempos entre canales

Country Status (20)

Country Link
US (7) US10535356B2 (es)
EP (5) EP3284087B1 (es)
JP (10) JP6412292B2 (es)
KR (4) KR102343973B1 (es)
CN (6) CN117238300A (es)
AU (5) AU2017208575B2 (es)
BR (4) BR112018014799A2 (es)
CA (4) CA2987808C (es)
ES (4) ES2727462T3 (es)
HK (1) HK1244584B (es)
MX (4) MX371224B (es)
MY (4) MY181992A (es)
PL (4) PL3284087T3 (es)
PT (3) PT3284087T (es)
RU (4) RU2693648C2 (es)
SG (3) SG11201806246UA (es)
TR (1) TR201906475T4 (es)
TW (4) TWI629681B (es)
WO (4) WO2017125562A1 (es)
ZA (3) ZA201804625B (es)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102216982A (zh) * 2008-09-18 2011-10-12 韩国电子通信研究院 在基于修正离散余弦变换的译码器与异质译码器间转换的编码设备和解码设备
CN117238300A (zh) * 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
ES2834083T3 (es) 2016-11-08 2021-06-16 Fraunhofer Ges Forschung Aparato y método para la mezcla descendente o mezcla ascendente de una señal multicanal usando compensación de fase
US10475457B2 (en) * 2017-07-03 2019-11-12 Qualcomm Incorporated Time-domain inter-channel prediction
US10839814B2 (en) * 2017-10-05 2020-11-17 Qualcomm Incorporated Encoding or decoding of audio signals
US10535357B2 (en) * 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
PL3724876T3 (pl) 2018-02-01 2022-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Enkoder sceny audio, dekoder sceny audio i powiązane sposoby wykorzystujące analizę przestrzenną hybrydowego enkodera/dekodera
US10978091B2 (en) * 2018-03-19 2021-04-13 Academia Sinica System and methods for suppression by selecting wavelets for feature compression in distributed speech recognition
KR102550424B1 (ko) 2018-04-05 2023-07-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램
CN110556116B (zh) * 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
WO2020009082A1 (ja) * 2018-07-03 2020-01-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置及び符号化方法
JP7092048B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム
EP3719799A1 (en) 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation
CN110459205B (zh) * 2019-09-24 2022-04-12 京东科技控股股份有限公司 语音识别方法及装置、计算机可存储介质
CN110740416B (zh) * 2019-09-27 2021-04-06 广州励丰文化科技股份有限公司 一种音频信号处理方法及装置
CN110954866B (zh) * 2019-11-22 2022-04-22 达闼机器人有限公司 声源定位方法、电子设备及存储介质
US20220156217A1 (en) * 2019-11-22 2022-05-19 Stmicroelectronics (Rousset) Sas Method for managing the operation of a system on chip, and corresponding system on chip
CN111131917B (zh) * 2019-12-26 2021-12-28 国微集团(深圳)有限公司 音频频谱实时同步方法、播放装置
TWI750565B (zh) * 2020-01-15 2021-12-21 原相科技股份有限公司 真無線多聲道揚聲裝置及其多音源發聲之方法
CN111402906B (zh) * 2020-03-06 2024-05-14 深圳前海微众银行股份有限公司 语音解码方法、装置、引擎及存储介质
US11276388B2 (en) * 2020-03-31 2022-03-15 Nuvoton Technology Corporation Beamforming system based on delay distribution model using high frequency phase difference
CN111525912B (zh) * 2020-04-03 2023-09-19 安徽白鹭电子科技有限公司 一种数字信号的任意重采样方法及系统
CN113223503B (zh) * 2020-04-29 2022-06-14 浙江大学 一种基于测试反馈的核心训练语音选择方法
WO2021260825A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 音信号符号化方法、音信号符号化装置、プログラム及び記録媒体
CN115917643A (zh) * 2020-06-24 2023-04-04 日本电信电话株式会社 声音信号解码方法、声音信号解码装置、程序以及记录介质
JP2023536156A (ja) * 2020-07-30 2023-08-23 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号を符号化する、又は符号化オーディオシーンを復号化する装置、方法及びコンピュータープログラム
KR20230084244A (ko) 2020-10-09 2023-06-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 대역폭 확장을 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 방법, 또는 컴퓨터 프로그램
CN116438598A (zh) 2020-10-09 2023-07-14 弗劳恩霍夫应用研究促进协会 使用参数平滑来处理编码音频场景的装置、方法或计算机程序
KR20230084251A (ko) 2020-10-09 2023-06-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 파라미터 변환을 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 방법, 또는 컴퓨터 프로그램
US20240064483A1 (en) * 2021-01-18 2024-02-22 Panasonic Intellectual Property Corporation Of America Signal processing device and signal processing method
AU2021451130A1 (en) 2021-06-15 2023-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Improved stability of inter-channel time difference (itd) estimator for coincident stereo capture
CN113435313A (zh) * 2021-06-23 2021-09-24 中国电子科技集团公司第二十九研究所 一种基于dft的脉冲频域特征提取方法
WO2023153228A1 (ja) * 2022-02-08 2023-08-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、及び、符号化方法
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置
WO2024053353A1 (ja) * 2022-09-08 2024-03-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 信号処理装置、及び、信号処理方法
WO2024074302A1 (en) 2022-10-05 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Coherence calculation for stereo discontinuous transmission (dtx)
EP4383254A1 (en) 2022-12-07 2024-06-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder comprising an inter-channel phase difference calculator device and method for operating such encoder
CN117476026A (zh) * 2023-12-26 2024-01-30 芯瞳半导体技术(山东)有限公司 一种多路音频数据混音的方法、系统、装置及存储介质

Family Cites Families (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
US5526359A (en) 1993-12-30 1996-06-11 Dsc Communications Corporation Integrated multi-fabric digital cross-connect timing architecture
US6073100A (en) * 1997-03-31 2000-06-06 Goodridge, Jr.; Alan G Method and apparatus for synthesizing signals using transform-domain match-output extension
US5903872A (en) * 1997-10-17 1999-05-11 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
US6549884B1 (en) * 1999-09-21 2003-04-15 Creative Technology Ltd. Phase-vocoder pitch-shifting
EP1199711A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
FI119955B (fi) * 2001-06-21 2009-05-15 Nokia Corp Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system
AU2002309146A1 (en) * 2002-06-14 2003-12-31 Nokia Corporation Enhanced error concealment for spatial audio
CN100435485C (zh) * 2002-08-21 2008-11-19 广州广晟数码技术有限公司 用于从音频数据码流中解码重建多声道音频信号的解码器
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7596486B2 (en) 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
WO2006008697A1 (en) 2004-07-14 2006-01-26 Koninklijke Philips Electronics N.V. Audio channel conversion
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
KR100712409B1 (ko) * 2005-07-28 2007-04-27 한국전자통신연구원 벡터의 차원변환 방법
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
WO2007052612A1 (ja) * 2005-10-31 2007-05-10 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置およびステレオ信号予測方法
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
JP5235684B2 (ja) * 2006-02-24 2013-07-10 フランス・テレコム 信号包絡線の量子化インデックスをバイナリ符号化する方法、信号包絡線を復号化する方法、および、対応する符号化および復号化モジュール
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
WO2009078681A1 (en) * 2007-12-18 2009-06-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
CN101267362B (zh) * 2008-05-16 2010-11-17 亿阳信通股份有限公司 一种性能指标值正常波动范围的动态确定方法及其装置
US8811621B2 (en) 2008-05-23 2014-08-19 Koninklijke Philips N.V. Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
US8355921B2 (en) * 2008-06-13 2013-01-15 Nokia Corporation Method, apparatus and computer program product for providing improved audio processing
CN102150201B (zh) 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
CN102089817B (zh) * 2008-07-11 2013-01-09 弗劳恩霍夫应用研究促进协会 用于计算频谱包络数目的装置与方法
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
US8504378B2 (en) * 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
TWI459375B (zh) 2009-01-28 2014-11-01 Fraunhofer Ges Forschung 音訊編碼器、音訊解碼器、包含經編碼音訊資訊之數位儲存媒體、用以將音訊信號編碼及解碼之方法及電腦程式
CA2754671C (en) 2009-03-17 2017-01-10 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
EP2434483A4 (en) 2009-05-20 2016-04-27 Panasonic Ip Corp America ENCODING DEVICE, DECODING DEVICE, AND ASSOCIATED METHODS
CN101989429B (zh) * 2009-07-31 2012-02-01 华为技术有限公司 转码方法、装置、设备以及系统
JP5031006B2 (ja) 2009-09-04 2012-09-19 パナソニック株式会社 スケーラブル復号化装置及びスケーラブル復号化方法
RU2547220C2 (ru) * 2009-10-21 2015-04-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ для генерирования высокочастотного аудиосигнала с применением адаптивной избыточной дискретизации
CA2792500C (en) * 2010-03-10 2016-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding
JP5405373B2 (ja) * 2010-03-26 2014-02-05 富士フイルム株式会社 電子内視鏡システム
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
KR101437896B1 (ko) * 2010-04-09 2014-09-16 돌비 인터네셔널 에이비 Mdct-기반의 복소수 예측 스테레오 코딩
AU2011240239B2 (en) 2010-04-13 2014-06-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction
US8463414B2 (en) * 2010-08-09 2013-06-11 Motorola Mobility Llc Method and apparatus for estimating a parameter for low bit rate stereo transmission
CA2807889C (en) * 2010-08-12 2016-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Resampling output signals of qmf based audio codecs
MY155997A (en) * 2010-10-06 2015-12-31 Fraunhofer Ges Forschung Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (usac)
FR2966634A1 (fr) 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
US9424852B2 (en) * 2011-02-02 2016-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
US10002614B2 (en) * 2011-02-03 2018-06-19 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
ES2529025T3 (es) * 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
SG192721A1 (en) * 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
WO2012167479A1 (en) * 2011-07-15 2012-12-13 Huawei Technologies Co., Ltd. Method and apparatus for processing a multi-channel audio signal
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
WO2013124445A2 (en) * 2012-02-23 2013-08-29 Dolby International Ab Methods and systems for efficient recovery of high frequency audio content
CN103366749B (zh) * 2012-03-28 2016-01-27 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN103366751B (zh) * 2012-03-28 2015-10-14 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
JP5947971B2 (ja) * 2012-04-05 2016-07-06 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ
KR101662681B1 (ko) 2012-04-05 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
US10083699B2 (en) * 2012-07-24 2018-09-25 Samsung Electronics Co., Ltd. Method and apparatus for processing audio data
US20150243289A1 (en) * 2012-09-14 2015-08-27 Dolby Laboratories Licensing Corporation Multi-Channel Audio Content Analysis Based Upmix Detection
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US9247180B2 (en) * 2012-12-27 2016-01-26 Panasonic Intellectual Property Corporation Of America Video display method using visible light communication image including stripe patterns having different pitches
ES2634621T3 (es) * 2013-02-20 2017-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para generar una señal de audio o imagen codificada o para descodificar una señal de audio o imagen codificada en presencia de transitorios utilizando una parte de superposición múltiple
US9715880B2 (en) * 2013-02-21 2017-07-25 Dolby International Ab Methods for parametric multi-channel encoding
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
WO2016108665A1 (ko) 2014-12-31 2016-07-07 엘지전자(주) 무선 통신 시스템에서 자원을 할당하기 위한 방법 및 이를 위한 장치
WO2016108655A1 (ko) * 2014-12-31 2016-07-07 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CN117238300A (zh) * 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals

Also Published As

Publication number Publication date
PT3284087T (pt) 2019-06-11
JP6412292B2 (ja) 2018-10-24
KR20180104701A (ko) 2018-09-21
CN107710323B (zh) 2022-07-19
CA3012159A1 (en) 2017-07-20
MY181992A (en) 2021-01-18
MY196436A (en) 2023-04-11
CA3012159C (en) 2021-07-20
ZA201804776B (en) 2019-04-24
CA3011914A1 (en) 2017-07-27
CA2987808A1 (en) 2017-07-27
SG11201806241QA (en) 2018-08-30
CN108885877A (zh) 2018-11-23
MX2018008887A (es) 2018-11-09
CA3011915C (en) 2021-07-13
EP3405949B1 (en) 2020-01-08
TWI628651B (zh) 2018-07-01
KR102219752B1 (ko) 2021-02-24
RU2693648C2 (ru) 2019-07-03
US10861468B2 (en) 2020-12-08
CN117238300A (zh) 2023-12-15
US20180322883A1 (en) 2018-11-08
TWI629681B (zh) 2018-07-11
US20180322884A1 (en) 2018-11-08
JP2018529122A (ja) 2018-10-04
AU2017208576B2 (en) 2018-10-18
EP3503097C0 (en) 2023-09-20
JP7161564B2 (ja) 2022-10-26
SG11201806216YA (en) 2018-08-30
PL3405949T3 (pl) 2020-07-27
US10854211B2 (en) 2020-12-01
AU2017208576A1 (en) 2017-12-07
US20220310103A1 (en) 2022-09-29
KR20180012829A (ko) 2018-02-06
ZA201804910B (en) 2019-04-24
KR102230727B1 (ko) 2021-03-22
ZA201804625B (en) 2019-03-27
KR102343973B1 (ko) 2021-12-28
JP2019032543A (ja) 2019-02-28
TWI643487B (zh) 2018-12-01
TW201729180A (zh) 2017-08-16
AU2017208579B2 (en) 2019-09-26
MX2017015009A (es) 2018-11-22
ES2768052T3 (es) 2020-06-19
CA2987808C (en) 2020-03-10
JP2019502966A (ja) 2019-01-31
JP2020170193A (ja) 2020-10-15
TR201906475T4 (tr) 2019-05-21
CA3011915A1 (en) 2017-07-27
US11887609B2 (en) 2024-01-30
RU2017145250A3 (es) 2019-06-24
KR20180103149A (ko) 2018-09-18
JP2022088584A (ja) 2022-06-14
JP6859423B2 (ja) 2021-04-14
RU2017145250A (ru) 2019-06-24
AU2019213424A1 (en) 2019-09-12
CA3011914C (en) 2021-08-24
RU2705007C1 (ru) 2019-11-01
TW201801067A (zh) 2018-01-01
JP6730438B2 (ja) 2020-07-29
JP6856595B2 (ja) 2021-04-07
MY189223A (en) 2022-01-31
AU2017208579A1 (en) 2018-08-09
CN108885877B (zh) 2023-09-08
US20200194013A1 (en) 2020-06-18
EP3284087A1 (en) 2018-02-21
US10706861B2 (en) 2020-07-07
RU2704733C1 (ru) 2019-10-30
WO2017125559A1 (en) 2017-07-27
EP3503097A3 (en) 2019-07-03
US10535356B2 (en) 2020-01-14
JP7270096B2 (ja) 2023-05-09
AU2017208575B2 (en) 2020-03-05
EP3503097B1 (en) 2023-09-20
US20190228786A1 (en) 2019-07-25
EP3405948A1 (en) 2018-11-28
AU2019213424B2 (en) 2021-04-22
EP3405949A1 (en) 2018-11-28
CN108780649B (zh) 2023-09-08
BR112018014799A2 (pt) 2018-12-18
JP6626581B2 (ja) 2019-12-25
TWI653627B (zh) 2019-03-11
PL3284087T3 (pl) 2019-08-30
CN115148215A (zh) 2022-10-04
AU2017208580B2 (en) 2019-05-09
KR102083200B1 (ko) 2020-04-28
AU2017208575A1 (en) 2018-07-26
BR112018014916A2 (pt) 2018-12-18
RU2711513C1 (ru) 2020-01-17
AU2019213424B8 (en) 2022-05-19
EP3503097A2 (en) 2019-06-26
EP3405948B1 (en) 2020-02-26
PL3503097T3 (pl) 2024-03-11
US11410664B2 (en) 2022-08-09
PT3405949T (pt) 2020-04-21
WO2017125558A1 (en) 2017-07-27
MX2018008890A (es) 2018-11-09
EP3284087B1 (en) 2019-03-06
EP3405951A1 (en) 2018-11-28
TW201732781A (zh) 2017-09-16
HK1244584B (zh) 2019-11-15
JP6641018B2 (ja) 2020-02-05
PT3405951T (pt) 2020-02-05
US10424309B2 (en) 2019-09-24
PL3405951T3 (pl) 2020-06-29
AU2019213424A8 (en) 2022-05-19
JP7258935B2 (ja) 2023-04-17
JP2020060788A (ja) 2020-04-16
US20180342252A1 (en) 2018-11-29
ES2727462T3 (es) 2019-10-16
JP2021103326A (ja) 2021-07-15
CN108885879B (zh) 2023-09-15
AU2017208580A1 (en) 2018-08-09
BR112018014689A2 (pt) 2018-12-11
ES2773794T3 (es) 2020-07-14
JP2019502965A (ja) 2019-01-31
WO2017125563A1 (en) 2017-07-27
US20180197552A1 (en) 2018-07-12
CN108780649A (zh) 2018-11-09
WO2017125562A1 (en) 2017-07-27
TW201729561A (zh) 2017-08-16
SG11201806246UA (en) 2018-08-30
CN107710323A (zh) 2018-02-16
EP3405951B1 (en) 2019-11-13
BR112017025314A2 (pt) 2018-07-31
JP2019506634A (ja) 2019-03-07
KR20180105682A (ko) 2018-09-28
JP2021101253A (ja) 2021-07-08
JP7053725B2 (ja) 2022-04-12
CN108885879A (zh) 2018-11-23
MX2018008889A (es) 2018-11-09
MY189205A (en) 2022-01-31
MX371224B (es) 2020-01-09

Similar Documents

Publication Publication Date Title
ES2790404T3 (es) Aparato y procedimiento para la codificación o decodificación de una señal de audio multi-canal mediante el uso de un parámetro de alineación de banda ancha y una pluralidad de parámetros de alineación de banda estrecha
ES2909343T3 (es) Aparato, método o programa informático para estimar una diferencia de tiempo entre canales
ES2693051T3 (es) Aparato y procedimiento para generar una señal mejorada mediante el uso de relleno de ruido independiente