BR112015028121B1 - Separação de objeto áudio de sinal de mistura usando resoluções em tempo/frequência específicas de objeto - Google Patents

Separação de objeto áudio de sinal de mistura usando resoluções em tempo/frequência específicas de objeto Download PDF

Info

Publication number
BR112015028121B1
BR112015028121B1 BR112015028121-4A BR112015028121A BR112015028121B1 BR 112015028121 B1 BR112015028121 B1 BR 112015028121B1 BR 112015028121 A BR112015028121 A BR 112015028121A BR 112015028121 B1 BR112015028121 B1 BR 112015028121B1
Authority
BR
Brazil
Prior art keywords
time
audio
side information
specific
frequency
Prior art date
Application number
BR112015028121-4A
Other languages
English (en)
Other versions
BR112015028121A2 (pt
Inventor
Sascha Disch
Jouni PAULUS
Thorsten Kastner
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V
Publication of BR112015028121A2 publication Critical patent/BR112015028121A2/pt
Publication of BR112015028121B1 publication Critical patent/BR112015028121B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

SEPARAÇÃO DE OBJETO ÁUDIO DE SINAL DE MISTURA USANDO RESOLUÇÕES EM TEMPO/FREQUÊNCIA ESPECÍFICAS DE OBJETO. Um descodificador de áudio está proposto para descodificação de um sinal de áudio de multiobjeto consistindo em um sinal downmix X e informação lateral PSI. A informação lateral compreende informação lateral específica de objeto PSIi para um objeto de áudio si em uma região de tempo/frequência R (tR,fR), e informação de resolução em tempo/frequência específica de objeto TFRIi indicativa de uma resolução em tempo/frequência específica de objeto TFRh da informação lateral específica de objeto para o objeto de áudio si na região de tempo/frequência R(tR,fR). O descodificador de áudio compreende um determinador de resolução em tempo/frequência específica de objeto 110 configurado para determinar a informação de resolução em tempo/frequência específica de objeto TFRIi da informação lateral PSI para o objeto de áudio si. O descodificador de áudio compreende ainda um separador de objeto 120 configurado para separar o objeto de áudio si do sinal downmix X usando a informação lateral específica de objeto de acordo com a resolução em tempo/frequência específica de objeto TFRIi. Um codificador correspondente e métodos correspondentes para descodificar ou codificar também estão (...).

Description

DESCRIÇÃO
[001] A presente invenção refere-se a processamento de sinal de áudio e, em particular, a um descodificador, um codificador, um sistema, métodos e um programa de computador para codificação de objeto de áudio empregando resolução em tempo-frequência individual adaptativa a objeto de áudio.
CAMPO TÉCNICO
[002] As concretizações de acordo com a invenção estão relacionadas a um descodificador de áudio para descodificação de um sinal de áudio de multiobjeto consistindo em um sinal downmix e uma informação lateral paramétrica relacionada com um objeto (PSI). Outras concretizações de acordo com a invenção estão relacionadas com um descodificador de áudio para fornecimento de uma representação de sinal upmix na dependência de uma representação de sinal downmix e uma PSI relacionada com um objeto. Outras concretizações da invenção estão relacionadas a um método de descodificação de um sinal de áudio de multiobjeto consistindo em um sinal downmix e uma PSI relacionada. Outras concretizações de acordo com a invenção estão relacionadas com um método para fornecimento de uma representação de sinal upmix na dependência de uma representação de sinal downmix e uma PSI relacionada com um objeto.
[003] Outras concretizações da invenção estão relacionadas com um codificador de áudio para codificação de uma pluralidade de sinais de objeto de áudio em um sinal downmix e uma PSI. Outras concretizações da invenção estão relacionadas com um método para codificação de uma pluralidade de sinais de objeto de áudio em um sinal downmix e uma PSI.
[004] Outras concretizações de acordo com a invenção estão relacionadas com um programa de computador correspondendo ao método (s) para descodificação, codificação e/ou provimento de um sinal upmix.
[005] Outras concretizações da invenção estão relacionadas com uma resolução em tempo-frequência individual adaptativa a objeto de áudio comutando para manipulação de mistura de sinal.
ANTECEDENTES DA INVENÇÃO
[006] Em sistemas modernos de áudio digital, é uma grande tendência propiciar modificações relacionadas com objeto de áudio do conteúdo transmitido no lado do receptor. Estas modificações incluem modificações de ganho de partes selecionadas do sinal de áudio e/ou reposicionamento espacial de objetos de áudio dedicados em caso de reprodução multicanal via autofalantes distribuídos espacialmente. Isto pode ser atingido liberando individualmente diferentes partes do conteúdo de áudio para diferentes autofalantes.
[007] Em outras palavras, na técnica de processamento de áudio, transmissão de áudio, e armazenamento de áudio, existe um desejo crescente de propiciar interação de usuário em reprodução de conteúdo de áudio orientado por objeto e também uma demanda para utilizar as extensas possibilidades de reprodução multicanal para conteúdos de áudio para renderizar individualmente ou partes deles a fim de aumentar a impressão de audição. Através disto, a utilização de conteúdo de áudio multicanal proporciona aperfeiçoamentos significantes para o usuário. Por exemplo, uma impressão de audição tridimensional pode ser obtida, o que traz uma maior satisfação para o usuário em aplicações de entretenimento. No entanto, conteúdo de áudio multicanal também é útil em ambientes profissionais, por exemplo, em aplicações de conferência por telefone, porque a inteligibilidade do falante pode ser aperfeiçoada usando uma reprodução de áudio multicanal. Outra aplicação possível é oferecer a um ouvinte de uma peça musical ajustar o nível de reprodução e/ou posição espacial de diferentes partes (também denominados como “objetos de áudio”) ou faixa, tal como uma parte vocal ou diferentes instrumentos. O usuário pode realizar tal ajuste por razões de gosto pessoal, para facilitar transcrição de uma ou mais parte(s) da peça musical, fins educacionais, karaokê, ensaio, etc.
[008] A transmissão discreta simples de todo conteúdo de áudio multicanal e multiobjeto digital, por exemplo, na forma de dados de modulação por código de pulso (MCP) ou mesmo formatos de áudio comprimidos, demandam taxas de bit muito altas. No entanto, também é desejável transmitir e armazenar dados de áudio de um modo eficiente quanto a taxa de bits. Por conseguinte, se está disposto a aceitar uma qualidade de áudio razoável e exigências de taxas de bits a fim de evitar uma carga excessiva de recurso causada por aplicações multicanal/multiobjeto.
[009] Recentemente, no campo de codificação de áudio, técnicas paramétricas para a transmissão/armazenamento eficiente de taxa de bits de sinais de áudio multicanal/multiobjeto foram introduzidas por, por exemplo, o Grupo de Especialistas em Imagens em Movimento (MPEG) e outros. Um exemplo é MPEG Surround (MPS) como uma abordagem orientada por canal [MPS, BCC], ou codificação de objeto de áudio espacial MPEG (SAOC) como uma abordagem orientada por objeto [JSC, SAOC, SAOC1, SAOC2]. Outra abordagem orientada por objeto é denominada como “separação de fonte informada” [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas visam reconstruir uma cena de áudio de saída desejada ou um objeto de fonte de áudio desejado de um downmix de canais/objetos e informação lateral adicional descrevendo a cena de áudio transmitida/armazenada e/ou os objetos de fonte de áudio na cena de áudio.
[010] A estimação e a aplicação de informação lateral relacionada a canal/objeto nestes sistemas é feita de uma maneira seletiva de tempo- frequência. Por conseguinte, tais sistemas empregam transformada de tempo- frequência, tais como a transformada de Fourier discreta (TFD), transformada de Fourier de curto período de tempo (TFCPT) ou bancos de filtro como bancos de filtro de espelho em Quadratura (FEQ), etc. O princípio básico destes sistemas está retratado na fig. 1, usando o exemplo de SAOC MPEG.
[011] No caso do TFCPT, a dimensão temporal está representada pelo número de bloco de tempo e a dimensão espectral é capturada pelo número de coeficiente espectral (“bin”). No caso de QMF, a dimensão temporal está representada pelo número de intervalo de tempo e a dimensão espectral é capturada pelo número de sub-banda. Se a resolução espectral do QMF é aperfeiçoada por aplicação subsequente de um segundo estágio de filtro, todo o banco de filtro é denominado QMF híbrido e as sub-bandas de resolução fina são denominados sub-bandas híbridas.
[012] Como já mencionado acima, em SAOC o processamento geral é realizado de um modo seletivo de tempo-frequência e pode estar descrito como a seguir dentro de cada banda de frequência:
[013] Nsinais de objeto de áudio de entrada si ... SN são misturados em P canais xi ... xp como parte do processamento de codificador usando uma matriz downmix consistindo dos elementos di,i . dN,P . Além disso, o codificador extrai informação lateral descrevendo as características dos objetos de áudio de entrada (módulo de estimador de informação lateral (EIL)). Para SAOC MPEG, as relações das forças de objeto w.r.t. entre si são a forma mais básica deste tipo de informação lateral.
[014] Sinal downmix (s) e informação lateral são transmitidos/armazenados. Com esta finalidade, o(s) sinal (is) de áudio downmix pode ser expresso, por exemplo, usando codificadores de áudio perceptual bem conhecidos MPEG-i/2 Camada II ou III (aka .mp3), Codificação de Áudio Avançada (ACC) MPEG-2/4, etc.
[015] Na extremidade receptora, o descodificador tenta conceitualmente restaurar os sinais originais do objeto (“separação de objeto”) a partir dos sinais downmix (descodificado) usando a informação lateral transmitida. Estes sinais de objeto aproximados i . N são então misturados em uma cena-alvo representada por M canais de saída de áudio i . M usando uma matriz de renderização descrita pelos coeficientes ri,i . rN,M na figura i. A cena-alvo desejada pode ser, no caso extremo, a renderização de apenas um sinal de fonte fora da mistura (cenário de separação de fonte), mas também qualquer outra cena acústica arbitrária consistindo dos objetos transmitidos.
[016] Os sistemas baseados em tempo-frequência podem utilizar uma transformada de tempo-frequência (t/f) com resolução temporal e de frequência estática. Escolher uma certa grade de resolução em t/f fixa envolve habitualmente um trade-off entre resolução em tempo e frequência.
[017] O efeito de uma resolução em t/f fixa pode ser demonstrado no exemplo de sinais de objeto típicos em uma mistura de sinal de áudio. Por exemplo, os espectros de sons tonais apresentam uma estrutura relacionada harmonicamente com uma frequência fundamental e diversos sobretons. A energia destes sinais está concentrada em certas regiões de frequência. Para tais sinais, uma resolução em alta frequência da representação t/f utilizada é benéfica para separar as regiões espectrais tonais de banda estreita de uma mistura de sinal. Ao contrário, sinais transientes, como sons de tambor, possuem com frequência uma estrutura temporal distinta: energia substancial só está presente por curtos períodos de tempo e spread over em uma ampla faixa de frequências. Por estes sinais, uma alta resolução temporal da representação t/f utilizada é vantajosa para separar a porção de sinal transiente da mistura de sinal.
[018] Seria desejável levar em consideração as diferentes necessidades de diferentes tipos de objetos de áudio relativamente à representação deles no domínio de tempo-frequência ao gerar e/ou avaliar informação lateral específica de objeto no lado de codificador ou no lado de descodificador, respectivamente.
[019] Este desejo e/ou outros desejos são abordados por um descodificador de áudio para descodificação de um sinal de áudio de multiobjeto, por um codificador de áudio para codificação de uma pluralidade de sinais de objeto de áudio em um sinal downmix e informação lateral, por um método de descodificação de um sinal de áudio de multiobjeto, por um método para codificação de uma pluralidade de sinais de objeto de áudio, ou por um programa de computador correspondente, como definido pelas reivindicações independentes.
[020] De acordo com pelo menos algumas concretizações, um descodificador de áudio para decodificar um sinal de multiobjeto está fornecido. O sinal de áudio de multiobjeto consiste de um sinal downmix e informação lateral. A informação lateral compreende informação lateral específica de objeto para pelo menos um objeto de áudio em pelo menos uma região de tempo/frequência. A informação lateral compreende ainda informação de resolução em tempo/frequência específica de objeto indicativa de uma resolução em tempo/frequência específica de objeto da informação lateral específica de objeto para o dito pelo menos um objeto de áudio na dita pelo menos uma região de tempo/frequência. O descodificador de áudio compreende um determinador de resolução em tempo/frequência específica de objeto configurado para determinar a informação de resolução em tempo/frequência específica de objeto da informação lateral para o dito pelo menos um objeto de áudio. O descodificador de áudio compreende ainda um separador de objeto configurado para separar o dito pelo menos um objeto de áudio a partir do sinal downmix usando a informação lateral específica de objeto de acordo com a resolução em tempo/frequência específica de objeto.
[021] Outras concretizações fornece um codificador de áudio para codificação de uma pluralidade de objetos de áudio em um sinal downmix e informação lateral. O codificador de áudio compreende uma transformada de tempo a frequência configurada para transformar a pluralidade de objetos de áudio pelo menos para uma primeira pluralidade de transformações correspondentes usando uma primeira resolução em tempo/frequência e para uma segunda pluralidade de transformações correspondentes usando uma segunda resolução em tempo/frequência. O codificador de áudio compreende ainda um determinador de informação lateral configurado para determinar pelo menos uma primeira informação lateral para a primeira pluralidade de transformações correspondentes e uma segunda informação lateral para a segunda pluralidade de transformações correspondentes. As primeira e segunda informações laterais indicam uma relação da pluralidade de objetos de áudio entre si nas primeira e segunda resoluções em tempo/frequência, respectivamente, em uma região de tempo/frequência. O codificador de áudio também compreende um seletor de informação lateral configurado para selecionar, para pelo menos um objeto de áudio da pluralidade de objetos de áudio, uma informação lateral específica de objeto proveniente de pelo menos as primeira e segunda informações laterais com base em um critério de adequabilidade. O critério de adequabilidade é indicativo de uma adequabilidade de pelo menos a primeira ou segunda resolução em tempo/frequência para representação do objeto de áudio no domínio de tempo/frequência. A informação lateral específica de objeto selecionada é inserida na saída de informação lateral pelo codificador de áudio.
[022] Outras concretizações da presente invenção fornece um método de descodificação de um sinal de áudio de multiobjeto consistindo em um sinal downmix e informação lateral. A informação lateral compreende informação lateral específica de objeto para pelo menos um objeto de áudio em pelo menos uma região de tempo/frequência, e informação de resolução em tempo/frequência específica de objeto indicativa de uma resolução em tempo/frequência específica de objeto da informação lateral específica de objeto para o dito pelo menos um objeto de áudio na dita pelo menos uma região de tempo/frequência. O método compreende determinar a informação de resolução em tempo/frequência específica de objeto da informação lateral para o dito pelo menos um objeto de áudio. O método compreende ainda separar o dito pelo menos um objeto de áudio a partir do sinal downmix usando a informação lateral específica de objeto de acordo com a resolução em tempo/frequência específica de objeto.
[023] Outras concretizações da presente invenção fornece um método para codificação de uma pluralidade de objetos de áudio em um sinal downmix e informação lateral. O método compreende transformar a pluralidade de objeto de áudio pelo menos para uma primeira pluralidade de transformações correspondentes usando uma primeira resolução em tempo/frequência e para uma segunda pluralidade de transformações correspondentes usando uma segunda resolução em tempo/frequência. O método compreende ainda determinar pelo menos uma primeira informação lateral para a primeira pluralidade de transformações correspondentes e uma segunda informação lateral para a segunda pluralidade de transformações correspondentes. As primeira e segunda informações laterais indicam uma relação da pluralidade de objetos de áudio entre si nas primeira e segunda resoluções em tempo/frequência, respectivamente, em uma região de tempo/frequência. O método compreende ainda selecionar, para pelo menos um objeto de áudio da pluralidade de objetos de áudio, uma informação lateral específica de objeto proveniente de pelo menos as primeira e segunda informações laterais com base em um critério de adequabilidade. O critério de adequabilidade é indicativo de uma adequabilidade de pelo menos a primeira ou segunda resolução em tempo/frequência para representação do objeto de áudio no domínio de tempo/frequência. A informação lateral específica de objeto é inserida na saída de informação lateral pelo codificador de áudio.
[024] O desempenho de separação de objeto de áudio habitualmente diminui se a representação t/f utilizada não match com as características temporal e/ou espectral do objeto de áudio a ser separado da mistura. Desempenho insuficiente pode levar a diafonia entre os objetos separados. Dita diafonia é percebida como pré-eco ou pós-eco, modificações de timbre, ou, no caso de voz humana, como a chamada diafonia. As concretizações da invenção oferecem diversas representações de t/f alternativas a partir da qual a representação de t/f mais adequada pode ser selecionada para um dado objeto de áudio e uma dada região de tempo/frequência ao determinar a informação lateral em um lado de codificador, ou ao usar a informação lateral em um lado de descodificador. Isto propicia desempenho de separação aperfeiçoado para a separação dos objetos de áudio e uma qualidade subjetiva aperfeiçoada do sinal de saída renderizado comparado com o estado da técnica.
[025] Comparado com outros esquemas para codificar/descodificar objetos de áudio espaciais, a quantidade de informação lateral pode ser substancialmente a mesma ou ligeiramente mais alta. De acordo com concretizações da invenção, a informação lateral é usada de uma maneira eficiente, à medida que é aplicada de um modo específico de objeto levando em conta as propriedades específicas de objeto de um dado objeto de áudio relativamente a sua estrutura temporal e espectral. Em outras palavras, a representação t/f da informação lateral é adaptada a vários objetos de áudio.
BREVE DESCRIÇÃO DAS FIGURAS
[026] As concretizações de acordo com a invenção serão descritas subsequentemente levando-se em consideração as figuras anexas, na qual:
[027] A fig. 1 mostra um diagrama de blocos esquemático de um panorama geral conceitual de um sistema SAOC.
[028] A fig. 2 mostra um diagrama esquemático e ilustrativo de uma representação espectro-temporal de um sinal de áudio de canal único.
[029] A fig. 3 mostra um diagrama de blocos esquemático de uma computação seletiva em tempo-frequência de informação lateral dentro de um codificador SAOC.
[030] A fig. 4 ilustra esquematicamente o princípio de um estimador de informação lateral melhorado de acordo com algumas concretizações.
[031] A fig. 5 ilustra esquematicamente uma região t/f R(tR,fR) representada por representações t/f diferentes.
[032] A fig. 6 é um diagrama de blocos esquemático de um módulo de computação e seleção de informação lateral de acordo com concretizações.
[033] A fig. 7 ilustra esquematicamente a codificação SAOC compreendendo um módulo (EOS) de Separação de Objeto (virtual) aperfeiçoado.
[034] A fig. 8 mostra um diagrama de blocos esquemático de um módulo de separação de objeto melhorado (módulo-EOS).
[035] A fig. 9 é um diagrama de blocos esquemático de um descodificador de áudio de acordo com concretizações.
[036] A fig. 10 é um diagrama de blocos esquemático de um descodificador de áudio que descodifica representações t/f alternativas H e seleciona subsequentemente as específicas de objeto, de acordo com uma concretização relativamente simples.
[037] A fig. 11 ilustra esquematicamente uma região t/f R(tR,fR) representada em representações t/f diferentes e as consequências resultantes sobre a determinação de uma matriz de co-variância estimada E dentro da região t/f.
[038] A fig. 12 ilustra esquematicamente um conceito para separação de objeto de áudio usando uma transformada de zoom a fim de realizar a separação de objeto de áudio em uma representação de tempo/frequência com zoom.
[039] A fig. 13 mostra um fluxograma esquemático de um método de descodificação de um sinal downmix com informação lateral associada.
[040] A fig. 14 mostra um fluxograma esquemático de um método para codificação de uma pluralidade de objetos de áudio em um sinal downmix e informação lateral associada.
[041] A fig. 1 mostra uma disposição geral de um codificador SAOC 10 e um descodificador SAOC 12. O codificador SAOC 10 recebe como uma entrada N objetos, ou seja, sinais de áudio s1 a sN. Em particular, o codificador 10 compreende um downmixer 16 que recebe os sinais de áudio s1 a sN e efetua downmix aos mesmo em um sinal downmix 18. Alternativamente, o downmix pode ser fornecido externamente (“downmix artístico”) e o sistema estima informação lateral adicional para fazer o downmix fornecido para corresponder ao downmix calculado. Na fig. 1, o sinal downmix está mostrado para ser um sinal de canal P. Assim, qualquer canal mono (P=1), estéreo (P=2) ou multicanal (P>=2) é concebível configuração de sinal downmix.
[042] No caso de um downmix estéreo, os canais do sinal downmix 18 são designados L0 e R0, em caso de um downmix mono o mesmo é simplesmente designado L0. A fim de possibilitar que o descodificador SAOC 12 recupere os objetos individuais s1 a sN, o estimador de informação lateral 17 fornece ao descodificador SAOC 12 informação lateral, incluindo parâmetros-SAOC. Por exemplo, em caso de um downmix estéreo, os parâmetros SAOC compreendem diferenças de nível de objeto (DNO), parâmetros de correlação através de inter-objetos (CIO), valores de ganho downmix (GDM) e diferenças de nível de canal downmix (DNCD). A informação lateral 20, incluindo os parâmetros-SAOC, juntamente com o sinal downmix 18, forma a fluxo de dados de saída SAOC recebido pelo descodificador SAOC 12.
[043] O descodificador SAOC 12 compreende um upmixer que recebe o sinal downmix 18, bem como a informação lateral 20, a fim de recuperar e renderizar os sinais de áudio s1 e sN em qualquer conjunto selecionado por usuário de canais 1 a M, com a renderização sendo prescrita pela entrada de informação de renderização 26 no descodificador SAOC 12.
[044] Os sinais de áudio s1 a sN podem ser inseridos no codificador 10 em qualquer domínio de codificação, tal como, domínio do tempo ou domínio espectral. No caso os sinais de áudio s1 a sN são alimentados no codificador 10 no domínio do tempo, tal como PCM codificado, o codificador 10 pode usar um banco de filtro, tal como um banco QMF híbrido, a fim de transferir os sinais para um domínio do espectro, em que os sinais de áudio são representados em diversas sub-bandas associadas com diferentes porções espectrais, em uma resolução de bando de filtro específica. Se os sinais de áudio s1 a sN já estão na representação esperada pelo codificador 10, o mesmo não precisa realizar a decomposição espectral.
[045] A fig. 2 mostra um sinal de áudio no domínio do espectro a pouco mencionado. Como pode ser observado, o sinal de áudio está representado como uma pluralidade de sinal de sub-bandas. Cada sinal de sub-banda 301 a 30K consiste de uma sequência de valores de sub-banda indicados pelas pequenas caixas 32. Como pode ser observado, os valores de sub-banda 32 do sinal de sub-bandas 301 a 30K são sincronizados entre si no tempo de modo que para cada um dos intervalos de tempo de banco de filtro consecutivo 34 cada sub-banda 301 a 30K compreende exato um valor de sub-banda 32. Como ilustrado pelo eixo de frequência 36, o sinal de sub-bandas 301 a 30K estão associados com diferentes regiões de frequência, e como ilustrado pelo eixo de tempo 38, os intervalos de tempo de banco de filtro 34 são dispostos consecutivamente no tempo.
[046] Como destacado acima, o extrator de informação lateral 17 computa parâmetros-SAOC a partir dos sinais de áudio de entrada s1 a sN. De acordo com o padrão SAOC implementado atualmente, o codificador 10 executa esta computação em uma resolução em tempo/frequência que pode ser aumentada em relação à resolução original em tempo/frequência como determinado pelos intervalos de tempo de banco de filtro 34 e decomposição de sub-banda, por uma certa quantidade, com esta certa quantidade sendo sinalizada ao lado de descodificador dentro da informação lateral 20. Os grupos de intervalos de tempo de banco de filtro consecutivos 34 podem formar uma estrutura SAOC 41. Também o número de bandas de parâmetro dentro da estrutura SAOC 41 é transmitida dentro da informação lateral 20. Em consequência, o domínio do tempo/frequência é dividido em peças de tempo/frequência exemplificadas na fig. 2 por linhas tracejadas 42. Na fig. 2 as bandas de parâmetro estão distribuídas da mesma nas várias estruturas SAOC retratadas 41, de modo que é obtida uma disposição regular de peças de tempo/frequência. Em geral, no entanto, as bandas de parâmetro podem variar de uma estrutura SAOC 41 para a subsequente, dependendo das diferentes necessidades de resolução espectral nas estruturas SAOC respectivas 41. Além disso, o comprimento das estruturas SAOC 41 também pode variar. Como consequência, a disposição das peças de tempo/frequência pode ser irregular. Não obstante, as peças de tempo/frequência dentro de uma estrutura SAOC particular 41 possuem habitualmente a mesma duração e estão alinhadas na direção do tempo, ou seja, todas as peças de t/f na dita estrutura SAOC 41 começam no início da estrutura SAOC 41 e terminam no final da estrutura SAOC 41.
[047] O extrator de informação lateral 17 calcula os parâmetros SAOC de acordo com as seguintes fórmulas. Em particular, extrator de informação lateral 17 computa diferenças de nível de objeto para cada objeto i como xin,kxin,k*
Figure img0001
[048] onde as somas e os índices e k, respectivamente, perpassam todos os índices temporais 34, e todos os índices espectrais 30 que pertencem a uma certa peça de tempo/frequência 42, referenciada pelos índices l para a estrutura SAOC (ou intervalo de tempo de processamento) e m para a banda de parâmetro. Desse modo, as energias de todos os valores de sub-banda xi de um sinal ou objeto de áudio i são sintetizados e normalizados para o valor de energia mais alto daquela peça entre todos os objetos ou sinais de áudio.
[049] Ademais, o extrator de informação lateral SAOC 17 é capaz de computar uma medida de similaridade das peças de tempo/frequência correspondentes de pares de diferentes objetos de entrada s1 a sN. Embora o downmixer SAOC 16 possa computar a medida de similaridade entre todos os pares de objetos de entrada s1 a sN, o downmixer 16 também pode suprimir a sinalização das medidas de similaridade ou restringir a computação das medidas de similaridade dos objetos de áudio s1 a sN que formam canais esquerdo ou esquerdo de um canal estéreo comum. Em todo caso, a medida de similaridade é chamada o parâmetro de correlação cruzada inter-objeto IOCil,,jm . A computação é conforme a seguir:
Figure img0002
[050] novamente com índices n e k perpassando todos os valores de subbanda pertencentes a uma certa peça de tempo/frequência 42, e i e j denominando um determinado par de objetos de áudio s1 a sN.
[051] O downmixer 16 efetua downmix aos objetos s1 a sN pelo uso de fatores de ganho aplicados a cada objeto s1 a sN. Ou seja, um fator de ganho Di é aplicado ao objeto i e depois todos estes objetos ponderados s1 a sN são sintetizados para obter um sinal downmix mono, que está exemplificado na fig. 1 se P=1. Em outro caso de exemplo de um sinal downmix de dois canais, retratado na fig. 1 se P=2, um fator de ganho D1,i é aplicado ao objeto i e depois os objetos assim amplificados por ganho são somados a fim de obter o canal downmix esquerdo L0, e os fatores de ganho D2,i são aplicados ao objeto i e depois os objetos assim amplificados por ganho são somados a fim de obter o canal downmix direito R0. Um processamento que é análogo ao acima é para ser aplicado em caso de um multicanal downmix (P>=2).
[052] Esta prescrição downmix é sinalizada ao lado de descodificador por intermédio de ganhos downmix DMGi e, em caso de um sinal downmix estéreo, diferenças de nível de canal downmix DNCDi.
[053] Os ganhos downmix são calculados de acordo com: DMGi = 20log10 (Di +ε)
[054]
Figure img0003
(downmix mono),
[055]
Figure img0004
, (downmix estéreo),
[056] onde ε é um pequeno número, tal como 10-9.
[057] Para o DNCDs a fórmula a seguir se aplica:
Figure img0005
[058] No modo normal, o downmixer 16 gera o sinal downmix de acordo com:
Figure img0006
[059] Para um downmix mono, ou
Figure img0007
[060] Para um downmix estéreo, respectivamente.
[061] Assim, nas fórmulas acima-mencionadas, os parâmetros OLD e IOC são em função dos sinais de áudio, e os parâmetros DMG e DNCD são em função de D. A propósito, nota-se que D pode variar no tempo.
[062] Assim, no modo normal, o downmixer 16 mistura todos os objetos s1 a sN sem preferências, ou seja, manejando com todos os objetos 1 a sN igualmente.
[063] No lado de descodificador, o upmixer executa a inversão do procedimento downmix e a implementação da “informação de renderização” 26 representada por uma matriz R (na literatura por vezes também chamada de A) em uma etapa de computação, nomeadamente, em caso de um downmix de dois canais
Figure img0008
[064] onde a matriz E é uma função dos parâmetros OLD e IOC. A matriz E é uma matriz de co-variância estimada dos objetos de áudio s1 a sN. Em implementações atuais de SAOC, a computação da matriz de co-variância estimada E é executada normalmente na resolução espectral/temporal dos Parâmetros SAOC, ou seja, para cada (l,m), de modo que a matriz de co- variância estimada pode ser escrita como El,m. A matriz de co-variância estimada El,m é de tamanho N x N, com seus coeficientes estando definidos com
Figure img0009
[065] Assim, a matriz El,m com
Figure img0010
[066] possui ao longo de sua diagonal as diferenças de nível de objeto, ou
Figure img0011
Fora de sua diagonal a matriz de co-variância estimada E possui coeficientes de matriz que representam a média geométrica das diferenças de nível de objeto i e j, respectivamente, ponderada com a medida de correlação cruzada inter-objeto
Figure img0012
.
[067] A fig. 3 exibe um possível princípio de implementação no exemplo do Estimador de Informação Lateral (EIL) como parte de um codificador SAOC 10. O codificador SAOC 10 compreende o mixer 16 e o estimador de informação lateral EIL. O EIL consiste conceitualmente de dois módulos: Um módulo para computar uma representação de t/f baseada em curto período de tempo (por exemplo, TFCPT ou QMF) de cada sinal. A representação de t/f em curto período de tempo é alimentada no segundo módulo, o módulo de estimação de informação lateral seletiva de t/f (t/f-EIL). A EIL-t/f computa a informação lateral para cada pela-t/f. Nas implementações correntes SAOC, a transformada de tempo/frequência é fixada para todos os objetos de áudio s1 a sN. Além disso, os parâmetros SAOC são determinados sobre as estruturas SAOC que são os mesmos para todos os objetos de áudio e possuem a mesma resolução em tempo/frequência para todos os objetos de áudio s1 a sN, assim desconsiderando as necessidades específicas de objeto para resolução temporal final em alguns casos ou resolução espectral fina em outros casos.
[068] Algumas limitações do conceito SAOC corrente estão descritos: A fim de manter a quantidade de dados associados com a informação lateral relativamente pequena, a informação lateral para os diferentes objetos de áudio é determinada de uma maneira preferencialmente grosseira para regiões de tempo/frequência que abarcam diversos intervalos de tempo e diversas sub-bandas (híbridas) dos sinais de entrada correspondentes aos objetos de áudio. Como afirmado acima, o desempenho de separação observado no lado de descodificador poderia ser inferior a ótimo se a representação de t/f utilizada não está adaptada às características temporal ou espectral do sinal de objeto a ser separado do sinal de mistura (sinal downmix) em cada bloco de processamento (ou seja, região t/f ou peça t/f). A informação lateral para partes tonais de um objeto de áudio e partes transiente de um objeto de áudio são determinadas e aplicadas no mesmo mosaico de tempo/frequência, independente de características de objeto correntes. Isto faz com que habitualmente a informação lateral para as partes de objeto de áudio basicamente tonais seja determinada em uma resolução espectral que é algo muito grosseira, e também que a informação lateral para as partes de objeto de áudio basicamente transiente seja determinada em uma resolução temporal que é algo muito grosseira. De modo semelhante, aplicando esta informação lateral não adaptada em um descodificador leva a resultados de separação inferior a ótimo, os quais são prejudicados por diafonia de objeto na forma de, por exemplo, rugosidade espectral e/ou pré-ecos e pós-ecos audíveis.
[069] Para aperfeiçoar o desempenho de separação no lado de descodificador, seria desejável possibilitar ao descodificador ou a um método correspondente para descodificação se adaptarem individualmente a representação t/f usada para processamento dos sinais de entrada de descodificador (“informação lateral e downmix”) de acordo com as características do sinal-alvo desejado a ser separado. Para cada sinal-alvo (objeto) a representação t/f mais adequada é individualmente selecionada para processamento e separação, por exemplo, fora de um dado conjunto de representações disponíveis. O descodificador é desse modo conduzido por informação lateral que sinaliza a representação t/f a ser usada para cada objeto individual em uma dada extensão de tempo e uma dada região espectral. Esta informação é computada no codificador e transferida além da informação lateral já transmitida dentro do SAOC.
[070] A invenção está relacionada a um estimador de informação lateral melhorado (EIL-M) no codificador para computar informação lateral enriquecida por informação que indica a representação t/f individual mais adequada para cada um dos sinais de objeto.
[071] A invenção está relacionada ainda a um separador de objeto melhorado (virtual) (SO-M) na extremidade receptora. O SO-M explora a informação adicional que sinaliza a representação t/f real que é empregada subsequentemente para a estimação de cada objeto.
[072] O EIL-M pode compreender dois módulos. Um módulo computa cada sinal de objeto até as Representações t/f H, que diferem de resolução temporal e espectral e atendem o requisito a seguir: regiões de tempo/frequência R(tR, fR) podem ser definidas de tal modo que o conteúdo de sinal dentro destas regiões pode ser descrito por quaisquer das Representações t/f H. A fig. 5 ilustra este conceito no exemplo de representações t/f H e mostra uma região t/f R(tR, fR) representada por duas regiões t/f diferentes. O conteúdo de sinal dentro da região t/f R(tR,fR) pode ser representado com uma alta resolução espectral, m as uma baixa resolução temporal (representação t/f #l), com uma alta resolução temporal, mas com uma baixa resolução espectral (representação t/f #2), ou com alguma outra combinação de resoluções temporal e espectral (representação t/f #H). O número de possíveis representações t/f não é limitado.
[073] Portanto, um codificador de áudio para codificação de uma pluralidade de sinais de objeto de áudio si em um sinal downmix X e informação lateral PSI está fornecido. O codificador de áudio compreende um estimador de informação lateral melhorado EIL-M esquematicamente ilustrado na fig. 4. O estimador de informação lateral melhorado EIL-M compreende uma transformada de tempo/frequência 52 configurada para transformar a pluralidade de sinais de objeto de áudio si pelo menos em uma primeira pluralidade de sinais transformados correspondentes si,i(t,f)...sN,i(t,f) usando pelo menos uma primeira resolução em tempo/frequência TFR1 (primeira discretização em tempo/frequência) e para uma segunda pluralidade de transformações correspondentes s1)2(t,f)...sN)2(t,f) usando uma segunda resolução em tempo/frequência TFR2 (segunda discretização em tempo/frequência). Em algumas concretizações, a transformada de tempo- frequência 52 pode ser configurada para usar mais de duas resoluções em tempo/frequência TFR1 a TFRH. O estimador de informação lateral melhorado (EIL-M) compreende ainda um módulo de computação e seleção de informação lateral (CS-IL) 54. O módulo de computação e seleção de informação lateral compreende (ver fig. 6) um determinador de informação lateral (t/f-EIL) ou uma pluralidade de determinadores de informação lateral 55-1...55-H configurados para determinar pelo menos uma primeira informação lateral para a primeira pluralidade de transformações correspondentes s1,1(t,f).sN,1(t,f) e uma segunda informação lateral para a segunda pluralidade de transformações correspondentes s1,2(t,f).sN,2(t,f), as primeira e segunda informações laterais indicando uma relação da pluralidade de sinais de objeto de áudio si entre si nas primeira e segunda resoluções em tempo/frequência TFR1, TFR2, respectivamente, em uma região de tempo/frequência R(tR,fR). A relação da pluralidade de sinais de áudio si entre si pode referir-se, por exemplo, a energias relativas dos sinais de áudio em diferentes bandas de frequência e/ou um grau de correlação entre os sinais de áudio. O módulo de computação e seleção de informação lateral 54 compreende ainda um seletor de informação lateral (IL-AS) 56 configurado para selecionar, para cada sinal de objeto de vídeo si, uma informação lateral específica de objeto proveniente de pelo menos as primeira e segunda informações laterais com base em um critério de adequabilidade indicativo de uma adequabilidade de pelo menos a primeira ou segunda resolução em tempo/frequência para representação do sinal de objeto de vídeo si no domínio de tempo/frequência. A informação lateral específica de objeto é então inserida na saída de informação lateral PSI pelo codificador de áudio.
[074] Observe que o agrupamento do plano-t/f nas regiões t/f R(tR,fR) pode não ficar necessariamente distanciado equidistantemente, como indica na fig. 5. O agrupamento em regiões R (tR,fR) pode ser, por exemplo, não uniforme para estar perceptualmente adaptado. O agrupamento também pode estar de acordo com os esquemas de codificação de objeto de áudio existente, tal como SAOC, de modo a possibilitar um esquema de codificação retrocompatível com as capacidades de estimação de objeto melhoradas.
[075] A adaptação da resolução t/f não está apenas limitada à especificação de mosaico de parâmetro diferente ou diferentes objetos, mas a transformada que o esquema SAOC está baseado (ou seja, tipicamente apresentada pela resolução em tempo/frequência comum usada em sistemas do estado da técnica para processamento SAOC) também pode ser modificada para se adaptar melhor a objetos-alvo individuais. Isto é especialmente útil, por exemplo, quando uma resolução espectral mais alta que a fornecida pela transformada comum que o esquema SAOC está baseado é necessária. No caso de exemplo de SAOC MPEG, a resolução pura está limitada à resolução (comum) do banco QMF (híbrido). Pelo processamento inventivo, é possível aumentar a resolução espectral, mas como a trade-off, alguma resolução temporal é perdida no processo. Isto é realizado usando uma chamada transformada de zoom (espectral) aplicada nas saídas do primeiro banco de filtro. Conceitualmente, um número de amostras de saída de banco de filtro consecutivos são manejadas como um sinal no domínio do tempo e uma segunda transformada é aplicada a elas para obter um número correspondente de amostras espectrais (com apenas um intervalo temporal). A transformada de zoom pode estar baseada em um banco de filtro (semelhante ao estágio de filtro híbrido no SAOC MPEG), ou uma transformada baseada em bloco, tal como DFT ou transformada de cosseno discreta modificada complexa (TCDMC). De uma maneira semelhante, também é possível aumentar a resolução temporal ao custo da resolução espectral (transformada de zoom temporal): Um número de saídas concorrentes de diversos filtros do banco QMF (híbrido) são amostradas como um sinal no domínio da frequência e uma segunda transformada é aplicada para obter um número correspondente de amostras temporais (com apenas uma banda espectral grande abrangendo a amplitude espectral dos diversos filtros).
[076] Para cada objeto, as representações t/f H são alimentadas com os parâmetros de mistura no segundo módulo, o módulo de computação e seleção de informação lateral CS-IL. O módulo CS-IL determina, para cada um dos sinais de objeto, qual das representações t/f H deve ser usada para cada região t/f R(tR ,fR) no descodificador para estimar o sinal de objeto. A fig. 6 detalha o princípio do módulo CS-IL.
[077] Para cada uma das regiões t/f H diferentes, a informação lateral (IL) correspondente é computada. Por exemplo, o módulo-t/f EIL dentro de SAOC pode ser utilizado. Os dados de informação lateral H computados são alimentados no módulo de avaliação e seleção de informação lateral (IL-AS). Para cada sinal de objeto, o módulo IL-AS determina a representação t/f mais apropriada para cada região t/f para estimação do sinal de objeto a partir da mistura de sinal.
[078] Além dos parâmetros de cena de mistura normal, o IL-AS produz, para cada sinal de objeto e para cada região t/f, informação lateral que se refere à representação t/f selecionada individualmente. Um parâmetro adicional significando a representação t/f correspondente também pode ser produzido.
[079] Dois métodos para selecionar a representação t/f mais adequada para cada sinal de objeto estão apresentados: 1. IL-AS baseado em estimação de fonte: Cada sinal de objeto é estimado a partir de mistura de sinal usando dados de informação lateral computados com base na Representações t/f H gerando estimações de fonte H para cada sinal de objeto. Para cada objeto, a qualidade de estimação dentro de cada região t/f R(tR, fR) é avaliada para cada uma das representações t/f H por intermédio de uma medida de desempenho de estimação de fonte. Um exemplo simples para este tipo de medida é a razão de sinal para distorção atingida (RSD). Mais sofisticadas, medidas perceptuais também podem ser utilizadas. Note que a RSD pode ser alcançada eficientemente apenas com base na informação lateral paramétrica como definida dentro de SAOC sem conhecimento dos sinais de objeto originais ou da mistura de sinal. O conceito da estimação paramétrica da RSD para o caso de estimação de objeto baseado em SAOC será descrito abaixo. Para cada região t/f R(tR,fR), a representação t/f que gera a RSD mais alta é selecionada para a estimação e transmissão de informação lateral, e para estimação do sinal de objeto no lado de descodificador. 2. IL-AS baseado em análise da Representações t/f H: separadamente pra cada objeto, a esparsidade de cada uma das representações de sinal de objeto H é determinada. Colocado de modo diferente, é avaliado quão bem a energia do sinal de objeto dentro de cada uma das diferentes representações é concentrada em uns poucos valores ou expande todos os valores. A representação t/f, que representa o sinal de objeto mais dispersamente, é selecionada. A esparsidade das representações de sinal pode ser avaliada, por exemplo, com medidas que caracterizam a planicidade ou culminância das representações de sinal. A medida de planicidade espectral (MPE), o fator de crista (FC) e a norma-L0 são exemplos destas medidas. De acordo com esta concretização, o critério de adequabilidade pode estar baseado em uma esparsidade de pelo menos a primeira representação de tempo/frequência e a segunda representação de tempo/frequência (e possivelmente outras representações de tempo/frequência) de um dado objeto de áudio. O seletor de informação lateral (IL-AS) está configurado para selecionar a informação lateral entre pelo menos as primeira e segunda informações laterais que corresponde a uma representação de tempo/frequência que representa o sinal de objeto de vídeo si mais esparsamente.
[080] A estimação paramétrica da RSD para o caso de estimação de objeto baseado em SAOC está descrita agora.
[081] Observações:
[082] S Matriz de N sinais de objeto de áudio originais
[083] X Matriz de M sinais de mistura
[084]
Figure img0013
Matriz downmix
[085] X=DS Cálculo de cena downmix
[086] Sest Matriz de N sinais de objeto de áudio estimados
[087] Deo MxN Matriz downmix X=DS Cálculo de cena downmix Sest Matriz de N sinais de objeto de áudio estimados Dentro de SAOC, os sinais de objeto são estimados conceptualmente a partir de sinais de mistura com a fórmula:
[088] Sest = ED(DED)-X com E=SS*
[089] Substituindo X por DS dá:
[090] Sest=ED( DED)- DS=TS
[091] A energia de partes de sinal de objeto original nos sinais de objeto estimados pode ser computada como:
Figure img0014
[092] Os termos de distorção no sinal estimado podem então ser computados por:
[093]
Figure img0015
significando uma matriz diagonal que contém as energias dos sinais de objeto originais. A RSD pode então ser computada relacionando diag(E) com Edist. Para estimar a RSD de uma maneira relativa à energia de fonte-alvo em uma determinada região t/f R(tR,fR), o cálculo de energia de distorção é realizado em cada peça t/f processada na região R(tR,fR), e as energias-alvo e de distorção são acumuladas sobre todas as peças t/f dentro da região t/f R(tR,fR).
[094] Por conseguinte, o critério de adequabilidade pode estar baseado em uma estimação de fonte. Neste caso, o seletor de informação lateral (IL-AS) 56 pode compreender ainda um estimador de fonte configurado para estimar pelo menos um sinal de objeto de áudio selecionado da pluralidade de sinais de objeto de áudio si usando o sinal downmix X e pelo menos a primeira informação e a segunda informação correspondendo às primeira e segunda resoluções em tempo/frequência TFR1, TFR2, respectivamente. O estimador de fonte assim fornece pelo menos um primeiro sinal de objeto de áudio estimado si, estim1 e um segundo sinal de objeto de áudio estimado si, estim2 (possivelmente até sinais de objeto de áudio estimados H si,estim H). O seletor de informação lateral 56 também compreende um avaliador de qualidade configurado para avaliar uma qualidade de pelo menos o primeiro sinal de objeto de áudio estimado si, estim1 e o segundo sinal de objeto de áudio estimado si, estim2. Além disso, o avaliador de qualidade pode estar configurado para avaliar a qualidade de pelo menos o primeiro sinal de objeto de áudio estimado si, estim1 e o segundo sinal de objeto de áudio estimado si, estim2 com base em uma razão entre sinal para distorção RSD como uma medida de desempenho de estimação de fonte, a razão entre sinal para distorção RSD sendo determinada unicamente com base na informação lateral PSI, em particular a matriz de co- variância estimada Eest.
[095] O codificador de áudio de acordo com algumas concretizações pode ainda compreender um processador de sinal downmix que está configurado para transformar o sinal downmix X em uma representação que se tira uma amostra no domínio de tempo/frequência em uma pluralidade de intervalos de tempo e uma pluralidade de sub-bandas (híbridas). A região de tempo/frequência R(tR,fR) pode estender por pelo menos duas amostras do sinal downmix X. Uma resolução em tempo/frequência específica de objeto TFRh especificada para pelo menos um objeto de áudio pode ser mais fina que a região de tempo/frequência R(tR,fR). Como mencionado acima, em relação ao princípio de incerteza de representação de tempo/frequência a resolução espectral de um sinal pode ser aumentada à custa da resolução temporal, ou vice-versa. Embora o sinal downmix enviado do codificador de áudio para um descodificador de áudio seja habitualmente analisado no descodificador por uma transformada de tempo-frequência com uma resolução em tempo/frequência predeterminada fixa, o descodificador de áudio pode ainda transformar o sinal downmix analisado dentro de uma região de tempo/frequência R(tR,fR) contemplada objeto individualmente em outra resolução em tempo/frequência que é mais apropriada para extrair um dado objeto de áudio si a partir do sinal downmix. Este tipo de transformada do sinal downmix no descodificador é chamada uma transformada de zoom neste documento. A transformada de zoom pode ser uma transformada de zoom temporal ou uma transformada de zoom espectral.
[096] Reduzindo a quantidade de informação lateral
[097] Em princípio, em concretizações simples do sistema inventivo, a informação lateral para até as representações t/f H tem que ser transmitida para cada objeto e para cada região t/f R(tR ,fR) à medida que a separação no lado de descodificador é realizada escolhendo de até representações t/f H. Esta grande quantidade de dados podem ser drasticamente reduzidos sem perda significativa de qualidade perceptual. Para cada objeto, é suficiente transmitir para cada região t/f R(tR,fR) a seguinte informação:
[098] Um parâmetro que descreve globalmente/grosseiramente o conteúdo de sinal do objeto de áudio na região t/f R(tR,fR), por exemplo, a energia de sinal média do objeto na região R(tR, fR).
[099] Uma descrição da estrutura fina do objeto de áudio. Esta descrição é obtida desde a representação t/f individual que foi selecionada para estimar de maneira ótima o objeto de áudio a partir da mistura. Note que a informação sobre a estrutura fina pode ser eficientemente descrita parametrizando a diferença entre a representação de sinal grosseira e a estrutura fina.
[100] Um sinal de informação que indica a representação t/f a ser usada para estimar o objeto de áudio.
[101] No descodificador, a estimação de um objeto de áudio desejado a partir da mistura no descodificador pode ser realizada como descrito a seguir para cada região t/f R(tR, fR).
[102] A representação individual t/f como indicada pela informação lateral adicional para este objeto de áudio é computada.
[103] Para separar o objeto de áudio desejado, a informação de sinal de objeto (estrutura fina) correspondente é empregada.
[104] Para todos os objetos de áudio restantes, ou seja, os objetos de áudio interferentes que precisam ser suprimidos, a informação de sinal de objeto de estrutura fina é usada se a informação está disponível para a representação t/f selecionada. Caso contrário, a descrição de sinal grosseira é usada. Outra opção é usar a informação de sinal de objeto de estrutura fina disponível para um objeto de áudio restante particular e aproximar a representação t/f selecionada, por exemplo, mediando a informação de sinal de objeto de vídeo de estrutura fina disponível em sub-regiões da região t/f R(tR,fR): Desta maneira, a resolução t/f não é mais fina que a representação t/f selecionada, mas ainda mais fina que a representação t/f grosseira.
[105] O descodificador SAOC com Estimação de Objeto de Áudio Melhorada
[106] A fig. 7 ilustra esquematicamente a codificação SAOC compreendendo um módulo de separação de objeto (virtual) melhorado (SO-M) e visualiza o princípio neste exemplo de um descodificador SAOC aperfeiçoado compreendendo um separador de objeto melhorado (SO-M). O descodificador SAOC é alimentado com a mistura de sinal junto com a informação lateral paramétrica melhorada (ILP-M). A ILP-M compreende informação sobre os objetos de áudio, os parâmetros de mistura e informações adicionais. Com estas informações laterais adicionais, é sinalizado ao SO-M virtual, que a representação t/f deve ser usada para cada objeto si ... SN e para cada região t/f R(tR,fR). Para uma dada região t/f R(tR,fR), o separador de objeto estima cada um dos objetos, usando a representação t/f individual que é sinalizada para cada objeto na informação lateral.
[107] A fig. 8 detalha o conceito do módulo SO-M. Para uma dada região t/f R(tR ,fR), a representação t/f #h individual para computar sobre os sinais downmix P é sinalizada pela representação t/f sinalizando o módulo ii0 para o módulo de transformada de t/f múltiplo. O separador de objeto (virtual) i20 tenta conceptualmente estimar a fonte sn, baseado na transformada de t/f #h indicada pela informação lateral adicional. O separador de objeto (virtual) explora a informação sobre a estrutura fina dos objetos, se transmitida para a transformada t/f #h indicada, e usa, caso contrário, a descrição grosseria transmitida dos sinais de fonte. Note que o número máximo possível de regiões t/f diferentes a serem computadas para cada região t/f R(tR,fR) é H. O módulo de transformada de tempo/frequência múltiplo pode ser configurado para realizar a transformada de zoom mencionada acima do sinal downmix(s) P.
[108] A fig. 9 mostra um diagrama de blocos esquemático de um descodificador de áudio para descodificação de um sinal de áudio de multiobjeto consistindo em um sinal downmix X e informação lateral PSI. A informação lateral PSI compreende informação lateral específica de objeto PSIi com i=1...N para pelo menos um objeto de áudio si em pelo menos uma região de tempo/frequência R(tR,fR). A informação lateral PSI também compreende informação de resolução em tempo/frequência específica de objeto TFRIi com i=1.NTF. A variável NTF indica o número de objetos de áudio para o qual a informação de resolução em tempo/frequência específica de objeto é fornecida e NTF N. A informação de resolução em tempo/frequência específica de objeto TFRIi também pode ser referida como informação de representação de tempo/frequência específica de objeto. Em particular, o termo “resolução em tempo/frequência” não dever ser compreendido como significando necessariamente uma discretização uniforme do domínio do tempo/frequência, mas também se referir a discretizações não uniformes dentro de uma peça t/f ou através de todas as peças t/f do full-band spectrum. Normalmente e preferencialmente, a resolução em tempo/frequência é escolhida de tal modo que uma de ambas as dimensões de uma dada peça t/f tem uma resolução fina e a outra dimensão tem uma baixa resolução, por exemplo, para sinais transientes a dimensão temporal tem uma resolução fina e a resolução espectral é grosseira, enquanto para os sinais estacionários a resolução espectral é fina e a dimensão temporal tem uma resolução grosseira. A informação de resolução em tempo/frequência TFRIi é indicativa de uma resolução em tempo/frequência específica de objeto TFRh (h=1.H) da informação lateral específica de objeto PSIi para o dito pelo menos um objeto de áudio si na dita pelo menos uma região de tempo/frequência R(tR,fR). O descodificador de áudio compreende um determinador de resolução em tempo/frequência específica de objeto 110 configurado para determinar a informação de resolução em tempo/frequência específica de objeto TFRIi da informação lateral PSI para o dito pelo menos um objeto de áudio si. O descodificador de áudio compreende ainda um separador de objeto 120 configurado para separar o dito pelo menos um objeto de áudio si a partir do sinal downmix X usando a informação lateral específica de objeto PSIi de acordo com a resolução em tempo/frequência específica de objeto TFRi. Isto significa que a informação lateral específica de objeto PSIi tem a resolução em tempo/frequência específica de objeto TFRi especificada pela informação de resolução em tempo/frequência específica de objeto TFRIi, e que está resolução em tempo/frequência específica de objeto é levada em consideração ao se realizar a separação de objeto pelo separador de objeto 120.
[109] A informação lateral específica de objeto (PSIi) pode compreender uma informação lateral específica de objeto de estrutura fina fsÇ,K, fsCj para o dito pelo menos um objeto de áudio si em pelo menos uma região de tempo/frequência R(tR,fR). A informação lateral específica de objeto de estrutura fina fsln,Kpode ser uma informação de nível de estrutura fina descrevendo como o nível (por exemplo, energia de sinal, potência de sinal, amplitude, etc. do objeto de áudio) varia dentro da região de tempo/frequência R(tR, fR). A informação lateral específica de objeto de estrutura fina fsCj pode ser uma informação de correlação inter-objeto dos objetos de áudio i e j, respectivamente. Aqui, a informação lateral específica de objeto de estrutura fina fs%K, fscj é definida em uma grade de tempo/frequência de acordo com a resolução em tempo/frequência específica de objeto TFRi, com intervalos de tempo de estrutura fina e sub-bandas de estrutura fina (híbridas) . Este tópico será descrito agora no contexto da fig. 12. Por agora, pelo menos três casos básicos podem ser destacados:
[110] A resolução em tempo/frequência específica de objeto TFRi corresponde à granularidade de intervalos de tempo QMF e sub-bandas (híbridas). Neste caso =n and =k.
[111] A informação de resolução em tempo/frequência específica de objeto TFRIi indica que uma transformada de zoom espectral tem que ser realizada dentro da região de tempo/frequência R(tR,fR) ou em uma porção dela. Neste caso, cada sub-banda (híbrida) k é subdividida em duas ou mais sub-bandas (híbridas) de estrutura mais fina Kk, Kk+i, ... de modo que a resolução espectral é aumentada. Em outras palavras, as sub-bandas (híbridas) de estrutura fina Kk, Kk+i, .são fracionadas da sub-banda (híbrida) original. Em troca, a resolução temporal é diminuída, devido a incerteza de tempo/frequência. Daí, o intervalo de tempo de estrutura fina compreende dois ou mais dos intervalos de tempo n, n+i...
[112] A informação de resolução em tempo/frequência específica de objeto TFRIi indica que uma transformada de zoom temporal tem que ser realizada dentro da região de tempo/frequência R(tR,fR) ou em uma porção dela. Neste caso, cada intervalo de tempo n é dividido em dois ou mais intervalos de tempo de estrutura fina n, n+i, . de modo que a resolução temporal é aumentada. Em outras palavras, os intervalos de tempo de estrutura fina n, n+i, . são frações do intervalo de tempo n. Em troca, a resolução espectral é diminuída, devido à incerteza de tempo/frequência. Daí, a subbanda (híbrida) de estrutura fina K compreende duas ou mais das sub-bandas (híbridas) k, k+i,...
[113] A informação lateral pode compreender ainda informação lateral específica de objeto grosseira OLDi, IOCi,j, e/ou um nível de energia absoluta NRGi para pelo menos um objeto de áudio si na região de tempo/frequência R(tR,fR) considerada. A informação lateral específica de objeto grosseira OLDi, IOCi, j, e/ou NRGi é constante dentro da dita pelo menos uma região de tempo/frequência R(tR,fR).
[114] A fig. 10 mostra um diagrama de blocos esquemático de um descodificador de áudio que está configurado para receber e processar a informação lateral para todos os N objetos de áudio em todas as representações t/f H dentro de uma pela de tempo/frequência R(tR,fR). Dependendo do número N de objetos de áudio e o número H de representações t/f, a quantidade de informação lateral a ser transmitida ou armazenada por região t/f R(tR,fR) pode tornar-se bem grande, de modo que o conceito mostrado na fig. 10 é mais provável de ser usado para cenários com um pequeno número de objetos de áudio e regiões t/f diferentes. Ainda, o exemplo ilustrado na fig. 10 fornece um insight em alguns dos princípios de se usar diferentes representações t/f específica de objetos de áudio.
[115] Em resumo, de acordo com a concretização mostrada na fig. 10, todo o conjunto de parâmetros (em particular OLD e IOC) são determinados e transmitidos/armazenados para todas as representações t/f H de interesse. Além disso, a informação lateral indica cada objeto de áudio no qual representação t/f específica deste objeto de áudio deve ser extraída/sintetizada. No descodificador de áudio, a reconstrução de objeto h em todas as representações t/f h são realizadas. O objeto de áudio final é então montado, ao longo do tempo e frequência, a partir daquelas peças específicas de objeto, ou regiões t/f, que foram geradas usando a resolução t/f(s) específica assinalada na informação lateral para o objeto de áudio e as peças de interesse.
[116] O sinal downmix X é fornecido a uma pluralidade de separadores de objeto 1201 a 120H. Cada um dos separadores de objeto 1201 a 120H está configurado para realizar a tarefa de separação para uma representação t/f específica. Com esta finalidade, cada separador de objeto 1201 a 120H recebe ainda a informação lateral dos N diferentes objetos de áudio s1 a sN na representação t/f específica com a qual o separador de objeto está associado. Note que a fig. 10 mostra uma pluralidade de Separadores de objeto H apenas com fins ilustrativos. Nas concretizações alternativas, as tarefas de separação H por região t/f R(tR,fR) poderiam ser realizadas por menos separadores de objeto, ou m esmo por um simples separador de objeto. De acordo com outras concretizações possíveis, as tarefas de separação podem ser realizadas em um processador de múltiplas finalidades ou em um processador de múltiplos núcleos como diferentes fios. Algumas das tarefas de separação são mais intensivas computacionalmente que outras, dependendo de quão fina é a representação t/f correspondente. Para cada região t/f R(tR,fR) N x H jogos de informação lateral são fornecidos ao descodificador de áudio.
[117] O separadores de objeto 1201 a 120H fornecem N x H objetos de áudio si,i ... SN,H estimados separados que podem ser alimentados em um conversor de resolução t/f convencional 130 a fim de trazer os objetos de áudio separados estimados si,i . sN,H para uma representação t/f comum, se isto já não for o caso. Habitualmente, a resolução t/f comum ou representação pode ser a resolução t/f verdadeira do banco de filtro ou transformada na qual o processamento geral dos sinais de áudio está baseado, ou seja, no caso de SAOC MPEG a resolução comum é a granularidade de intervalos de tempo QMF e sub-bandas (híbridas). Com fins ilustrativos, pode assumir-se que os objetos de áudio estimados são armazenados temporariamente em uma i40. Em uma implementação real, os objetos de áudio separados estimados que não serão usados mais tarde podem ser descartados imediatamente ou não mesmo calculados no primeiro lugar. Cada fila da matriz i40 compreende H diferentes estimações do mesmo objeto de áudio, ou seja, o objeto de auido separado estimado determinado com base em regiões t/f diferentes H. A porção média da matriz i40 está esquematicamente denominada com uma grade. Cada elemento de matriz si,i . sN,H corresponde ao sinal de áudio do objeto de áudio separado estimado. Em outras palavras, cada elemento de matriz compreende uma pluralidade de amostras de intervalo de tempo/sub- banda dentro da região-alvo t/f R(tR,fR) (por exemplo, 7 intervalos de tempo x 3 sub-bandas = 2i amostras de intervalo de tempo/sub-bandas no exemplo da fig. ii).
[118] O descodificador de áudio está configurado ainda para receber a informação de resolução em tempo/frequência específica de objeto TFRI1 a TFRIN para os diferentes objetos de áudio e para a região corrente t/f R(tR,fR). Para cada objeto de áudio i, a informação de resolução em tempo/frequência específica de objeto TFRIi indica qual dos objetos de áudio separados estimados Si,i ... SI,H deve ser usado para reproduzir aproximadamente o objeto de áudio original. A informação de resolução em tempo/frequência específica de objeto tem sido habitualmente determinada pelo codificador e fornecida ao descodificador como parte da informação lateral. Na fig. i0, as caixas tracejadas e as cruzes na matriz i40 indicam qual das representações t/f foi selecionada para cada objeto de áudio. A seleção é feita por um seletor ii2 que recebe a informação de resolução em tempo/frequência específica de objeto TFRIi . TFRIN.
[119] O seletor ii2 produz N sinais de objeto de áudio selecionados que podem ser ainda processados. Por exemplo, os N sinais de objeto de áudio selecionados podem ser fornecidos a um renderizador i50 configurado para renderizar os sinais de objeto de áudio selecionados para uma inicialização de autofalante disponível, por exemplo, estéreo ou inicialização de autofalante 5.i. Com esta finalidade, o renderizador i50 pode receber informação de renderização de usuário que descreve como os sinais de áudio dos objetos de áudio separados estimados devem ser distribuídos para os autofalantes disponíveis. O renderizador i50 é opcional e os objetos de áudio separados estimados si,i . si,H na saída do seletor ii2 podem ser usados e processados diretamente. Em concretizações alternativas, o renderizador i50 pode ser ajustado para configurações extremas, tais como “modo solo” ou “modo karaokê”. No modo solo, um objeto de áudio estimado simples é selecionado para ser renderizado para o sinal de saída. No modo karaokê, todos, mas um objeto de áudio estimado, são selecionados a serem renderizados para o sinal de saída. Habitualmente a parte vocal principal não é renderizada, mas as partes de acompanhamento são. Ambos os modos são altamente demandantes no que diz respeito ao desempenho de separação, à medida que mesmo pequena diafonia é perceptível.
[120] A fig. 11 ilustra esquematicamente como a informação lateral de estrutura fina fslin,k e a informação lateral para um objeto de áudio i grosseira podem ser organizadas. A parte superior da fig. 11 ilustra uma porção do domínio do tempo/frequência que se tira uma amostra de acordo com intervalos de tempo (normalmente indicados pelo índice n na literatura e em particular normatizações ISO/IEC relacionadas a codificação de áudio) e subbandas (híbridas) (normalmente identificadas pelo índice k na literatura). O domínio do tempo/frequência também é dividido em diferentes regiões de tempo/frequência (graficamente indicadas por linhas tracejadas espessas na fig. 11). Habitualmente uma região t/f compreende diversas amostras de intervalos de tempo/sub-banda. Uma região t/f R(tR, fR) servirá como um exemplo representativo para outras regiões t/f. A região considerada de exemplo t/f R(tR, fR) estende-se por sete intervalos de tempo n a n+6 e três subbandas (híbridas) k a k+2 e, daí, compreende 21 amostras de intervalo de tempo/sub-banda. Assumimos agora dois objetos de áudio diferentes i e j. O objeto de áudio i pode ter uma característica substancialmente tonal dentro da região t/f R(tR,fR), enquanto que o objeto de áudio j pode ter uma característica substancialmente transiente dentro da região t/f R(tR,fR). A fim de representar mais adequadamente estas diferentes características dos objetos de áudio i e j, a região t/f R(tR,fR) pode ser mais subdividida na direção espectral para o objeto de áudio i e na direção temporal para objeto de áudio j. Note que as regiões t/f não são necessariamente iguais ou uniformemente distribuídas no domínio de t/f, mas podem ser adaptadas no tamanho, posição e distribuição de acordo com as necessidades dos objetos de áudio. Escrito de modo diferente, o sinal downmix X é amostrado no domínio de tempo/frequência em uma pluralidade de intervalos de tempo e uma pluralidade de sub-bandas (híbridas). A região de tempo/frequência R(tR,fR) estende-se por pelo menos duas amostras do sinal downmix X. A resolução em tempo/frequência específica de objeto TFRh é mais fina que a região de tempo/frequência R(tR,fR).
[121] Ao determinar a informação lateral para o objeto de áudio i no lado de codificador de áudio, o codificador de áudio analisa o objeto de áudio i dentro da região t/f R(tR, fR) e determina uma informação lateral grosseira e uma informação lateral de estrutura fina. A informação lateral grosseira pode ser a diferença de nível de objeto OLDi, a co-variância inter-objeto IOCi,j e/ou um nível de energia absoluta NRGi, como definida, entre outros, na normatização SAOC ISO/IEC 23003-2. A informação lateral grosseira está definida em uma base de região t/f e normalmente fornece retrocompatibilidade pois descodificadores SAOC existentes usam este tipo de informação lateral. A informação lateral específica de objeto de estrutura fina fslin,k para o objeto i fornece três outros valores que indicam como a energia do objeto de áudio i é distribuída entre três sub-regiões espectrais. No caso ilustrado, cada uma das sub-regiões espectrais corresponde a uma sub-banda (híbrida), mas outras distribuições também são possíveis. Pode mesmo ser vislumbrado tornar uma sub-região espectral menor que outra sub-região espectral a fim de ter uma resolução espectral particularmente fina disponível na sub-banda espectral menor. De maneira semelhante, a mesma região t/f R(tR,fR) pode ser subdividida em diversas sub-regiões temporais para representar mais adequadamente o conteúdo de objeto de áudio j na região t/f R(tR,fR).
[122] A informação lateral específica de objeto de estrutura fina fslin,k pode descrever uma diferença entre a informação lateral específica de objeto grosseira (por exemplo, OLDi, IOCi,j, e/ou NRGi) e o dito pelo menos um objeto de áudio si.
[123] A parte inferior da fig. 11ilustra que a matriz de co-variância estimada E varia pela região t/f R(tR,fR) devido à informação lateral de estrutura fina para os objetos de áudio i e j. Outras matrizes ou valores que são usados na tarefa de separação de objeto também pode ser submetida a variações dentro da região t/f R(tR,fR). A variação da matriz de co-variância E (e possivelmente de outras matrizes ou valores) tem que ser levada em consideração pelo separador de objeto 120. No caso ilustrado, uma matriz de co-variância diferente E é determinada para cada amostra de intervalo de tempo/sub-banda da região t/f R(tR,fR). Em caso de que apenas um dos objetos de áudio tenha uma estrutura espectral fina associada com ele, por exemplo, o objeto i, a matriz de co-variância E ficaria constante dentro de cada uma das três sub-regiões espectrais (aqui: constante dentro de cada uma das três sub-bandas (híbridas), mas geralmente outras sub-regiões espectrais também são possíveis).
[124] O separador de objeto 120 pode estar configurado para determinar a matriz de co-variância estimada En,k com elementos ein,,jk do dito pelo menos um objeto de áudio si e pelo menos um outro objeto de áudio sj de acordo com
Figure img0016
[125] onde 1. ein,,jk é a co-variância estimada de objetos de áudio i e j para intervalo de tempo n e sub-banda (híbrida) k; 2. fslin,k e fsljn,k são a informação lateral específica de objeto dos objetos de áudio i e j para intervalo de tempo n e sub-banda (híbrida) k; 3. fscin,,jk é uma informação de correlação de inter-objeto dos objetos de áudio i e j, respectivamente, para intervalo de tempo n e sub-banda (híbrida) k. n, n, k n, k
[126] Pelo menos um de
Figure img0017
varia dentro da região de tempo/frequência R(tR, fR) de acordo com a resolução em tempo/frequência específica de objeto TFRh para o objetos de áudio i ou j indicados pela informação de resolução em tempo/frequência específica de objeto TFRIi, TFRIj, respectivamente. O separador de objeto 120 pode estar ainda configurado para separar o dito pelo menos um objeto de áudio si a partir do sinal downmix X usando matriz de co-variância estimada ix En,k da maneira descrita acima.
[127] Uma alternativa à abordagem descrita acima deve ser considerada quando a resolução espectral ou temporal é aumentada em relação à resolução da transformada subjacente, por exemplo, com uma transformada de zoom subsequente. Em tal caso, a estimação da matriz de co-variância de objeto precisa ser feita no domínio com zoom, e a reconstrução de objeto ocorre também no domínio com zoom. O resultado de reconstrução pode então ser transformada inversa de volta para o domínio da transformada original, por exemplo, QMF (híbrido), e a intercalação das peças na reconstrução final ocorre neste domínio. Em princípio, os cálculos operam da mesma forma que eles seriam no caso de utilizar um mosaico de parâmetro diferente com a exceção das transformadas adicionais.
[128] A fig. 12 ilustra esquematicamente a transformada de zoom através do exemplo de zoom no eixo espectral, o processamento no domínio com zoom e a transformada de zoom inversa. Consideramos o downmix em uma região de tempo/frequência R(tR,fR) na resolução t/f do sinal downmix definido pelos intervalos de tempo n e as sub-bandas (híbridas) k. No exemplo mostrado na fig. 12, a região de tempo-frequência R(tR,fR) abrange quatro intervalos de tempo n a n+3 e uma sub-banda k. A transformada de zoom pode ser realizada por uma unidade de transformada de tempo/frequência de sinal 115. A transformada de zoom pode ser uma transformada de zoom temporal ou, como mostrado a fig. 12, uma transformada de zoom espectral. A transformada de zoom espectral pode ser realizada por meio de uma DFT, uma TFCPT, um banco de filtro de análise baseado em QMF, etc.. A transformada de zoom temporal pode ser realizada por meio de uma DFT inversa, uma TFCPT inversa, um banco de filtro de síntese baseado em QMF, etc.. No exemplo da fig. 12, o sinal downmix X é convertido a partir da representação de sinal downmix tempo/frequência definido por intervalos de tempo n e subbandas (híbridas) k para extensão de representação t/f com zoom centralmente apenas um intervalo de tempo específico de objeto, mas quatro sub-bandas específicas de objeto (híbridas) a +3. Daí, a resolução espectral do sinal downmix dentro da região de tempo/frequência R(tR,fR) foi aumentada por um fator 4 ao custo da resolução temporal.
[129] O processamento é executado na resolução em tempo/frequência específica de objeto TFRh pelo separador de objeto 121 que também recebe a informação lateral de pelo menos um dos objetos de áudio na resolução em tempo/frequência específica de objeto TFRh. No exemplo da fig. 12, o objeto de áudio i é definido por informação lateral na região de tempo/frequência R(tR,fR) que corresponde à resolução em tempo/frequência específica de objeto TFRh, ou seja, um intervalo de tempo específico de objeto e quatro sub-bandas (híbridas) específicas de objeto a +3. Para os fins de ilustração, a informação lateral para dois outros objetos de áudio i+1 e i+2 também estão esquematicamente ilustradas na fig. 12. O objeto de áudio i+1 está definido por informação lateral tendo a resolução em tempo/frequência do sinal downmix. O objeto de áudio i+2 está definido por informação lateral tendo uma resolução de dois intervalos de tempo específicos de objeto e duas sub-bandas específicas de objeto (híbridas) na região de tempo/frequência R(tR,fR). Para o objeto de áudio i+1, o separador de objeto 121 pode considerar a informação lateral grosseira dentro da região de tempo/frequência R(tR,fR). Para o objeto de áudio i+2 o separador de objeto 121 pode considerar dois valores médios espectrais dentro da região de tempo/frequência R(tR,fR), como indicado pelas duas eclosões diferentes. No caso geral, uma pluralidade de valores médios espectrais e/ou uma pluralidade de valores médios temporais podem ser considerados pelo separador de objeto 121, se a informação lateral para o objeto de áudio correspondente não estiver disponível na resolução em tempo/frequência específica de objeto TFRh exata que é no momento processada pelo separador de objeto 121, mas é discretizada mais finamente na dimensão temporal e/ou espectral que na região de tempo/frequência R(tR,fR). Desta maneira, o separador de objeto 121 se beneficia da disponibilidade de informação lateral específica de objeto que é discretizada mais fina que a informação lateral grosseira (por exemplo, OLD, IOC, e/ou NRG), embora, não necessariamente tão fina como a resolução em tempo/frequência específica de objeto TFRh no momento processada pelo separador de objeto 121.
[130] O separador de objeto 121 produz pelo menos um objeto de áudio i extraído para a região de tempo/frequência R(tR,fR) na resolução em tempo/frequência específica de objeto (resolução de zoom t/f). Dito pelo menos um objeto de áudio i extraído é então transformado inverso em zoom por uma transformada de zoom inversa 132 para obter o objeto de áudio i extraído em R(tR,fR) na resolução em tempo/frequência do sinal downmix ou em outra resolução em tempo/frequência desejada. O objeto de áudio i extraído em R(tR,fR) é então combinado com o objeto de áudio i extraído em outras regiões de tempo/frequência, por exemplo, R(tR-1,fR-1), R(tR-1,fR), ... R(tR+1,fR+1), a fim de to assemble o objeto de áudio i extraído.
[131] De acordo com concretizações, o descodificador de áudio pode compreender uma transformada em tempo/frequência de sinal downmix 115 configurado para transformar o sinal downmix X dentro da região de tempo/frequência R(tR,fR) de uma resolução em tempo/frequência de sinal downmix em pelo menos a resolução em tempo/frequência específica de objeto TFRh do dito pelo menos um objeto de áudio si para obter um sinal downmix retransformado X,. O sinal downmix resolução em tempo/frequência está relacionado a intervalos de tempo n downmix e sub-bandas (híbridas) k downmix. A resolução em tempo/frequência específica de objeto TFRh está relacionada a intervalos de tempo específicos de objeto e sub-bandas (híbridas) específicas de objeto. Os intervalos de tempo específicos de objeto pode ser maiores ou menores que os intervalos de tempo n downmix da resolução em tempo/frequência downmix. Da mesma forma, as sub-bandas (híbridas) k específicas de objeto podem ser mais finas ou mais grosseiras que as sub-bandas (híbridas) downmix da resolução em tempo/frequência downmix. Como explicado acima em relação ao princípio de incerteza de representação de tempo/frequência, a resolução espectral de um sinal pode ser aumentada ao custo da resolução temporal, e vice-versa. O descodificador de áudio pode compreender ainda uma transformada de tempo/frequência inversa 132 configurada para transformar tempo/frequência do dito pelo menos um objeto de áudio si dentro da região de tempo/frequência R(tR,fR) da resolução em tempo/frequência específica de objeto TFRh de volta para a resolução em tempo/frequência de sinal downmix. O separador de objeto 121 está configurado para separar o dito pelo menos um objeto de áudio si a partir do sinal downmix X na resolução em tempo/frequência específica de objeto TFRh.
[132] No domínio com zoom, a matriz de co-variância estimada
Figure img0018
definida pelos intervalos de tempo específicos de objeto e pelas sub-bandas (híbridas) k específicas de objeto. A fórmula mencionada acima para os elementos da matriz de co-variância estimada do dito pelo menos um objeto de áudio si e pelo menos um outro objeto de áudio sj pode ser expressa no domínio com zoom como:
Figure img0019
[133] onde 1.
Figure img0020
a co-variância estimada de objetos de áudio i e j para intervalo de tempo específico de objeto e sub-banda (híbrida) k específica de objeto; 2.
Figure img0021
são a informação lateral específica de objeto dos objetos de áudio i e j para intervalo de tempo específico de objeto e subbanda (híbrida) k específica de objeto; 3.
Figure img0022
uma informação de correlação inter-objeto dos objetos de áudio i e j, respectivamente, for intervalo de tempo específico de objeto e sub-banda (híbrida) k específica de objeto.
[134] Como explicado acima, o outro objeto de áudio j poderia não estar definido pela informação lateral que tem a resolução em tempo/frequência específica de objeto TFRh do objeto de áudio i de modo que os parâmetros
Figure img0023
podem não estar disponíveis ou determináveis na resolução em tempo/frequência específica de objeto TFRh. Neste caso, a informação lateral grosseira de objeto de áudio j in R(tR,fR) ou valores médios temporalmente ou valores médios espectralmente podem ser usados para aproximar os parâmetros
Figure img0024
região de tempo/frequência R(tR,fR) ou em sub- j i,j regiões deles.
[135] Também no lado de codificador, a informação lateral de estrutura fina deve ser normalmente considerada. Em um codificador de áudio de acordo com concretizações o determinador de informação lateral (t/f-EIL) 55-1...55-H está configurado ainda para fornecer informação lateral específica de objeto de estrutura fina fslnkk ou fsln'K e informação lateral específica de objeto grosseira OLDi como parte de pelo menos um entre a primeira informação lateral e a segunda informação lateral. A informação lateral específica de objeto grosseira OLDi é constante dentro da dita pelo menos uma região de tempo/frequência R(tR,fR). A informação lateral específica de objeto de estrutura fina fsln,k, fsln,K pode descrever uma diferença entre a informação lateral específica de objeto grosseira OLDi e o dito pelo menos um objeto de áudio si. As correlações inter- nhiotn lOr.. n /'czn ,k faffl’KnnHom cor nroooccoHoc do uma rnanoira análnnia objeto IOCi,j e fsci, j , fsci, j podem ser processadas de uma maneira análoga, bem como outra informação lateral paramétrica.
[136] A fig. 13 mostra um fluxograma esquemático de um método de descodificação de um sinal de áudio de multiobjeto consistindo em um sinal downmix X e informação lateral PSI. A informação lateral compreende informação lateral específica de objeto PSIi para pelo menos um objeto de áudio si em pelo menos uma região de tempo/frequência R(tR,fR), e informação de resolução em tempo/frequência específica de objeto TFRIi indicativa de uma resolução em tempo/frequência específica de objeto TFRh da informação lateral específica de objeto para o dito pelo menos um objeto de áudio si na dita pelo menos uma região de tempo/frequência R(tR,fR). O método compreende uma etapa 1302 de determinar a informação de resolução em tempo/frequência específica de objeto TFRIi da informação lateral PSI para o dito pelo menos um objeto de áudio si. O método compreende ainda uma etapa 1304de separar o dito pelo menos um objeto de áudio si a partir do sinal downmix X usando a informação lateral específica de objeto de acordo com a resolução em tempo/frequência específica de objeto TFRIi.
[137] A fig. 14 mostra um fluxograma esquemático de um método para codificação de uma pluralidade de sinais de objeto de áudio si em um sinal downmix X e informação lateral PSI de acordo com outras concretizações. O codificador de áudio compreende transformar a pluralidade de sinais de objeto de áudio si em pelo menos uma primeira pluralidade de transformações correspondentes Si,i(t,f)_SN,i(t,f) em uma etapa 1402. Uma primeira resolução em tempo/frequência TFR1 é usada com esta finalidade. A pluralidade de sinais de objeto de áudio si também são transformados pelo menos em uma segunda pluralidade de transformadas correspondentes s1,2(t,f)...sN,2(t,f) usando uma segunda discretização de tempo/frequência TFR2. Em uma etapa i404 pelo menos uma primeira informação lateral para a primeira pluralidade de transformações correspondentes s1)1(t,f)...sN)1(t,f) e uma segunda informação lateral para a segunda pluralidade de transformações correspondentes s1,2(t,f)_sN,2(t,f) são determinada. As primeira e segunda informações laterais indicam uma relação da pluralidade de sinais de objeto de áudio si entre si nas primeira e segunda resoluções em tempo/frequência TFR1, TFR2, respectivamente, em uma região de tempo/frequência R(tR,fR). O método também compreende uma etapa 1406 de selecionar, para cada sinal de objeto de vídeo si, uma informação lateral específica de objeto de pelo menos as primeira e segunda informações laterais com base em um critério de adequabilidade indicativo de uma adequabilidade de pelo menos a primeira ou segunda resolução em tempo/frequência para representação do sinal de objeto de vídeo si no domínio de tempo/frequência, a informação lateral específica de objeto sendo inserida na informação lateral PSI output pelo codificador de áudio.
[138] Retrocompatibilidade com SAOC
[139] A solução proposta aperfeiçoa vantajosamente a qualidade de áudio perceptual, possivelmente mesmo de um modo totalmente compatível a descodificador. Definindo as regiões t/f R(tR, fR) a ser congruente com o agrupamento t/f dentro do SAOC do estado da técnica, descodificadores SAOC padrão existentes podem descodificar a porção retrocompatível da PSI e produzir reconstruções dos objetos em um nível t/f de resolução grosseira. Se a informação adicionada é usada por um descodificador SAOC melhorado, a qualidade perceptual das reconstruções é aperfeiçoada consideravelmente. Para cada objeto de áudio, esta informação lateral adicional compreende a informação, cuja representação t/f individual deve ser usada para estimar o objeto, juntamente com uma descrição da estrutura fina do objeto baseado na representação t/f selecionada.
[140] Adicionalmente, se um descodificador SAOC melhorado está funcionando com recursos limitados, os melhoramentos podem ser ignorados, e uma reconstrução de qualidade básica pode ainda ser obtida exigindo apenas baixa complexidade computacional.
[141] Campos de aplicação para o processamento inventivo
[142] O conceito de representações t/f específica de objeto e sua sinalização associada ao descodificador pode ser aplicado em qualquer esquema SAOC. Ele pode ser combinado com quaisquer formatos de áudio presente ou também futuro. O conceito propicia estimação de objeto de áudio melhorada em aplicações de SAOC por uma escolha adaptativa de objeto de áudio de uma resolução t/f individual para a estimação paramétrica de objetos de áudio.
[143] Embora alguns aspectos tenham sido descritos no contexto de um equipamento, fica claro que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa de método ou um recurso de uma etapa de método. De modo análogo, aspectos descritos no contexto de uma etapa de método também representam uma descrição de um bloco correspondente ou item ou recurso de um equipamento correspondente. Algumas ou todas as etapas de método podem ser executadas por (ou usando) um equipamento de hardware, por exemplo, um microprocessador, um computador programável, ou um circuito eletrônico. Em algumas concretizações, algumas etapas de método múltiplas podem ser executadas por este tipo de equipamento.
[144] O sinal de áudio codificado inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão, tal como um meio de transmissão sem fio ou um meio de transmissão cabeado, tal como a Internet.
[145] Dependendo de determinados requisitos de implementação, as concretizações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada usando um meio de armazenamento digital, por exemplo, um disco flexível, um DVD, um Blue-Ray, um CD, uma memória ROM, uma memória PROM, uma memória EPROM, uma memória EEPROM ou uma memória FLASH, tendo sinais de controle legíveis eletronicamente armazenados neles, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de tal modo que o método respectivo é realizado. Por conseguinte, o meio de armazenamento digital pode ser legível por computador.
[146] Algumas concretizações de acordo com a invenção compreendem um carregador de dados tendo sinais de controle legíveis eletronicamente, que são capazes de cooperar com um sistema de computador programável, de tal modo que um dos métodos descritos aqui seja realizado.
[147] Geralmente, as concretizações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode ser armazenado, por exemplo, em um portador legível por máquina.
[148] Outras concretizações compreendem o programa de computador para realização de um dos métodos descritos aqui, armazenados em um portador legível por máquina.
[149] Em outras palavras, uma concretização do método inventivo é, por conseguinte, um programa de computador tendo um código de programa para realizar um dos métodos descritos aqui, quando o programa de computador é executado em um computador.
[150] Uma outra concretização do método inventivos é, por conseguinte, um portador de dados (ou meio de armazenamento digital, ou um meio legível por computador) compreendendo, registrado nele, o programa de computador para realização de um dos métodos descritos aqui. O portador de dados, o meio de armazenamento digital ou o meio gravado são normalmente tangíveis e/ou de não-transmissão.
[151] Uma outra concretização do método inventivo é, por conseguinte, um fluxo de dados ou uma sequência de sinais representando o programa de computador para realização de um dos métodos descritos aqui. O fluxo de dados ou a sequência de sinais pode ser configurado, por exemplo, para ser transferido via uma conexão de comunicação de dados, por exemplo, via a Internet.
[152] Uma outra concretização compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos neste documento.
[153] Uma outra concretização compreende um computador tendo nele instalado o programa de computador para realização de um dos métodos descritos neste documento.
[154] Em algumas concretizações, um dispositivo lógico programável (por exemplo, um agrupamento de porta programável de campo) pode ser usado para realizar uma ou todas as funcionalidades dos métodos descritos neste documento. Em algumas concretizações, um agrupamento de porta programável de campo pode cooperar com um microprocessador com o fim de realizar um dos métodos descritos neste documento. Em geral, os métodos são realizados preferencialmente por qualquer equipamento de hardware.
[155] As concretizações descritas acima são meramente ilustrativas dos princípios da presente invenção. Fica compreendido que modificações e variações das disposições e os pormenores descritos aqui ficarão aparentes para outros versados na técnica, É o objetivo, por conseguinte, que estejam limitadas apenas pelo escopo das reivindicações de patente iminentes e não pelos pormenores específicos apresentados por meio de descrição e explicação das concretizações aqui apresentadas.
REFERÊNCIAS:
[156] [MPS] ISO/IEC 23003-1:2007, MPEG-D (MPEG audio technologies), Part 1: MPEG Surround, 2007.
[157] [BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003
[158] [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006
[159] [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007
[160] [SAOC2] J. Engdegârd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Objeto de áudio Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", l24th AES Convention, Amsterdam 2008
[161] [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[162] [ISS1] M. Parvaix and L. Girin: "lnformed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010
[163] [ISS2] M. Parvaix, L. Girin, J.-M. BrasEILr: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010
[164] [ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011
[165] [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011
[166] [ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation Sistema for Speech Signals", INTERSPEECH, 2011
[167] [ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011

Claims (13)

1. Descodificador de áudio para descodificação de um sinal de áudio de multiobjeto consistindo em um sinal downmix (X) e informação lateral (PSI), a informação lateral compreendendo informação lateral específica de objeto (PSIi) para pelo menos um objeto de áudio (si) em pelo menos uma região de tempo/frequência (R(tR,fR)), e informação de resolução em tempo/frequência específica de objeto (TFRIi) indicativa de uma resolução em tempo/frequência específica de objeto (TFRh) da informação lateral específica de objeto para o pelo menos um objeto de áudio (si) na pelo menos uma região de tempo/frequência (R(tR,fR)), sendo o descodificador de áudio caracterizado por compreender: um determinador de resolução em tempo/frequência específica de objeto (110) configurado para determinar a informação de resolução em tempo/frequência específica de objeto (TFRIi) da informação lateral (PSI) para o pelo menos um objeto de áudio (si); e um separador de objeto (120) configurado para separar o pelo menos um objeto de áudio (si) a partir do sinal downmix (X) usando a informação lateral específica de objeto de acordo com a resolução em tempo/frequência específica de objeto (TFRIi), em que a informação lateral específica de objeto compreende uma primeira informação lateral específica de objeto para o pelo menos um objeto de áudio (si) na pelo menos uma região de tempo/frequência (R(tR,fR)) e uma segunda informação lateral específica de objeto para o pelo menos um objeto de áudio (si) na pelo menos uma região de tempo/frequência (R(tR,fR)), sendo que uma resolução em tempo/frequência da primeira informação lateral específica de objeto é mais fina em uma dimensão de frequência do que uma resolução em tempo/frequência da segunda informação lateral específica de objeto, em que a segunda informação lateral específica de objeto é constante dentro da pelo menos uma região de tempo/frequência (R(tR,fR)), ou em que a primeira informação lateral específica de objeto descreve uma diferença entre a segunda informação lateral específica de objeto e o pelo menos um objeto de áudio (si).
2. Descodificador de áudio, de acordo com a reivindicação 1, caracterizado por o sinal downmix (X) ser amostrado no domínio de tempo/frequência em uma pluralidade de intervalos de tempo e uma pluralidade de sub-bandas (híbridas), em que a região de tempo/frequência (R(tR,fR)) estende-se por pelo menos duas amostras do sinal downmix (X), e em que a resolução em tempo/frequência específica de objeto (TFRh) é mais fina em pelo menos uma de ambas as dimensões do que a região de tempo/frequência (R(tR,fR)).
3. Descodificador de áudio, de acordo com qualquer uma das reivindicações de 1 ou 2, caracterizado por o separador de objeto (120) estar configurado para determinar uma matriz de co-variância estimada (EnJK) com ei ,K elementos i,j do pelo menos um objeto de áudio (si) e pelo menos um outro objeto de áudio (sj) de acordo com
Figure img0025
onde
Figure img0026
a co-variância estimada de objetos de áudio i e j para intervalo de tempo de específico de objeto n e sub-banda (híbrida) específica de objeto k
Figure img0027
são a primeira informação lateral específica de objeto dos objetos de áudio i e j para intervalo de tempo específico de objeto n e sub-banda (híbrida) específica de objeto K;
Figure img0028
uma informação de correlação inter-objeto dos objetos de áudio i e j, respectivamente, intervalo de tempo específico de objeto n e sub-banda (híbrida) específica de objeto K; fs1 fs1 fsc1 ,K em que pelo menos um entre
Figure img0029
varia dentro da região de tempo/frequência (R(tR, fR)) de acordo com a resolução em tempo/frequência específica de objeto (TFRh) para os objetos de áudio i e j indicados pela informação de resolução em tempo/frequência específica de objeto (TFRIi, TFRIj), e em que o separador de objeto (120) está configurado ainda para separar o pelo menos um objeto de áudio (si) a partir do sinal downmix (X) usando a matriz de co-variância estimada (En,K).
4. Descodificador de áudio, de acordo com qualquer uma das reivindicações de 1 a 3, caracterizado por compreender ainda: um transformador em tempo/frequência de sinal downmix (115) configurada para transformar o sinal downmix (X) dentro da região de tempo/frequência (R(tR,fR)) de uma resolução em tempo/frequência de sinal downmix para pelo menos a resolução em tempo/frequência específica de objeto (TFRh) do pelo menos um objeto de áudio (si) para obter um sinal downmix transformado; um transformador de tempo/frequência inversa (132) configurada para transformar em tempo/frequência o pelo menos um objeto de áudio (si) dentro da região de tempo/frequência (R(tR,fR)) da resolução em tempo/frequência específica de objeto (TFRh) de volta para uma resolução em tempo/frequência da região de tempo/frequência (R(tR,fR)) ou a resolução em tempo/frequência de sinal downmix; em que o separador de objeto (120) está configurado para separar o pelo menos um objeto de áudio (si) do sinal downmix (X) transformado na resolução em tempo/frequência específica de objeto (TFRh).
5. Codificador de áudio para codificação de uma pluralidade de objetos de áudio (si) em um sinal downmix (X) e informação lateral (PSI), o codificador de áudio caracterizado por compreender: uma transformada de tempo a frequência configurada para transformar a pluralidade de objetos de áudio (si) pelo menos para uma primeira pluralidade de transformações correspondentes (si,i(t,f),_SN,i(t,f)) usando uma primeira resolução em tempo/frequência (TFR1) e para uma segunda pluralidade de transformações correspondentes (s1,2(t,f),...SN,2(t,f)) usando uma segunda resolução em tempo/frequência (TFR2); um determinador de informação lateral (EIL-t/f) configurado para determinar pelo menos uma primeira informação lateral para a primeira pluralidade de transformações correspondentes (s1,1(t,f)...SN,1(t,f)) e uma segunda informação lateral para a segunda pluralidade de transformações correspondentes (s1,2(t,f)...SN,2(t,f)), a primeira e segunda informações laterais indicando uma relação da pluralidade de objetos de áudio (si) entre si na primeira e segunda resoluções em tempo/frequência (TFR1, TFR2), respectivamente, em uma região de tempo/frequência (R(tR,fR)); e um seletor de informação lateral (IL-AS) configurado para selecionar, para pelo menos um objeto de áudio (si) da pluralidade de objetos de áudio, uma informação lateral específica de objeto de pelo menos a primeira e segunda informações laterais com base em um critério de adequabilidade indicativo de uma adequabilidade de pelo menos a primeira ou segunda resolução em tempo/frequência para representação do objeto de áudio (si) no domínio de tempo/frequência, a informação lateral específica de objeto sendo inserida na saída de informação lateral (PSI) pelo codificador de áudio.
6. Codificador de áudio, de acordo com a reivindicação 5, caracterizado por o critério de adequabilidade estar baseado em uma estimação de fonte e em que o seletor de informação lateral (IL-AS) compreende: um estimador de fonte configurado para estimar pelo menos um objeto de áudio selecionado da pluralidade de objetos de áudio (si) usando o sinal downmix (X) e pelo menos a primeira informação e a segunda informação correspondendo à primeira e segunda resoluções em tempo/frequência (TFR1, TFR2), respectivamente, o estimador de fonte fornecendo assim pelo menos um primeiro objeto de áudio estimado (si, estim1) e um segundo objeto de áudio estimado (si, estim2); um avaliador de qualidade configurado para avaliar uma qualidade de pelo menos o primeiro objeto de áudio estimado (si, estim1) e o segundo objeto de áudio estimado (si, estim2).
7. Codificador de áudio, de acordo com a reivindicação 6, caracterizado por o avaliador de qualidade estar configurado para avaliar a qualidade de pelo menos o primeiro objeto de áudio estimado (si, estim1) e o segundo objeto de áudio estimado (si, estim2) com base em uma razão entre sinal para distorção (SDR) como uma medida de desempenho de estimação de fonte, a razão entre sinal para distorção (SDR) sendo determinada unicamente com base na informação lateral (PSI).
8. Codificador de áudio, de acordo com qualquer uma das reivindicações de 5 a 7, caracterizado por o critério de adequabilidade para o pelo menos um objeto de áudio (si) entre a pluralidade de objetos de áudio estar baseado em graus de esparsidade de mais de uma representação de resolução em t/f do pelo menos um objeto de áudio de acordo com pelo menos a primeira resolução em tempo/frequência (TFR1) e a segunda resolução em tempo/frequência (TFR2), e em que o seletor de informação lateral (IL-AS) está configurado para selecionar a informação lateral entre pelo menos a primeira e segunda informações laterais que está associada com a representação t/f mais esparsa do pelo menos um objeto de áudio (si).
9. Codificador de áudio, de acordo com qualquer uma das reivindicações de 5 a 8, caracterizado por o determinador de informação lateral (EIL-t/f) estar configurado ainda para fornecer uma primeira informação fsl n,k lateral específica de objeto ( i ) e uma segunda informação lateral específica de objeto como uma parte de pelo menos uma entre a primeira informação lateral e a segunda informação lateral, a segunda informação lateral específica de objeto sendo constante dentro da pelo menos uma região de tempo/frequência (R(tR,fR)).
10. Codificador de áudio, de acordo com qualquer uma das reivindicações de 5 a 8, caracterizado por o determinador de informação lateral (EIL-t/f) estar configurado ainda para fornecer uma primeira informação específica de objeto como uma parte de pelo menos uma entre a primeira informação lateral e a segunda informação lateral, em que a primeira segunda informação lateral específica de objeto e o pelo menos um objeto de áudio (si).
11. Codificador de áudio, de acordo com qualquer uma das reivindicações de 5 a 10, caracterizado por compreender ainda um processador de sinal downmix configurado para transformar o sinal downmix (X) em uma representação amostrada no domínio de tempo/frequência em uma pluralidade de intervalos de tempo e uma pluralidade de sub-bandas (híbridas), em que a região de tempo/frequência (R(tR,fR)) se estende por pelo menos duas amostras do sinal downmix (X), e em que uma resolução em tempo/frequência específica de objeto (TFRh) especificada para pelo menos um objeto de áudio é mais fina em pelo menos uma de ambas as dimensões do que a região de tempo/frequência (R(tR,fR)).
12. Método de descodificação de um sinal de áudio de multiobjeto consistindo em um sinal downmix (X) e informação lateral (PSI), a informação lateral compreendendo informação lateral específica de objeto (PSIi) para pelo menos um objeto de áudio (si) em pelo menos uma região de tempo/frequência (R(tR,fR)), e informação de resolução em tempo/frequência específica de objeto (TFRIi) indicativa de uma resolução em tempo/frequência específica de objeto (TFRh) da informação lateral específica de objeto para o pelo menos um objeto de áudio (si) na pelo menos uma região de tempo/frequência (R(tR,fR)), sendo o método caracterizado por compreender: determinar a informação de resolução em tempo/frequência específica de objeto (TFRIi) da informação lateral (PSI) para o pelo menos um objeto de áudio (si); e separar o pelo menos um objeto de áudio (si) a partir do sinal downmix (X) usando a informação lateral específica de objeto de acordo com a resolução em tempo/frequência específica de objeto (TFRIi), em que a informação lateral específica de objeto compreende uma primeira informação lateral específica de objeto para o pelo menos um objeto de áudio (si) na pelo menos uma região de tempo/frequência (R(tR,fR)) e uma segunda informação lateral específica de objeto para o pelo menos um objeto de áudio (si) na pelo menos uma região de tempo/frequência (R(tR,fR)), sendo que uma resolução em tempo/frequência da primeira informação lateral específica de objeto é mais fina em uma dimensão de frequência do que uma resolução em tempo/frequência da segunda informação lateral específica de objeto, em que a segunda informação lateral específica de objeto é constante dentro da pelo menos uma região de tempo/frequência (R(tR,fR)), ou em que a primeira informação lateral específica de objeto descreve uma diferença entre a segunda informação lateral específica de objeto e o pelo menos um objeto de áudio (si).
13. Método de codificação de uma pluralidade de objeto de áudio (si) em um sinal downmix (X) e informação lateral (PSI), sendo o método caracterizado por compreender: transformar a pluralidade de objeto de áudio (si) pelo menos para uma primeira pluralidade de transformações correspondentes (si,i(t,f)_SN,i(t,f)) usando uma primeira resolução em tempo/frequência (TFR1) e para uma segunda pluralidade de transformações correspondentes (s1,2(t,f)...SN,2(t,f)) usando uma segunda resolução em tempo/frequência (TFR2); determinar pelo menos uma primeira informação lateral para a primeira pluralidade de transformações correspondentes (s1,1(t,f)...SN,1(t,f) ) e uma segunda informação lateral para a segunda pluralidade de transformações correspondentes (s1,2(t,f)...SN,2(t,f) ), a primeira e segunda informações laterais indicando uma relação da pluralidade de objeto de áudio (si) entre si na primeira e segunda resoluções em tempo/frequência (TFR1, TFR2), respectivamente, em uma região de tempo/frequência (R(tR,fR); e selecionar, para pelo menos um objeto de áudio (si) da pluralidade de objetos de áudio, uma informação lateral específica de objeto de pelo menos a primeira e segunda informações laterais com base em um critério de adequabilidade indicativo de uma adequabilidade de pelo menos a primeira ou segunda resolução em tempo/frequência para representação do objeto de áudio (si) no domínio de tempo/frequência, a informação lateral específica de objeto sendo inserida na saída de informação lateral (PSI) pelo codificador de áudio.
BR112015028121-4A 2013-05-13 2014-05-09 Separação de objeto áudio de sinal de mistura usando resoluções em tempo/frequência específicas de objeto BR112015028121B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13167484.8A EP2804176A1 (en) 2013-05-13 2013-05-13 Audio object separation from mixture signal using object-specific time/frequency resolutions
EP13167484.8 2013-05-13
PCT/EP2014/059570 WO2014184115A1 (en) 2013-05-13 2014-05-09 Audio object separation from mixture signal using object-specific time/frequency resolutions

Publications (2)

Publication Number Publication Date
BR112015028121A2 BR112015028121A2 (pt) 2017-07-25
BR112015028121B1 true BR112015028121B1 (pt) 2022-05-31

Family

ID=48444119

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015028121-4A BR112015028121B1 (pt) 2013-05-13 2014-05-09 Separação de objeto áudio de sinal de mistura usando resoluções em tempo/frequência específicas de objeto

Country Status (17)

Country Link
US (2) US10089990B2 (pt)
EP (2) EP2804176A1 (pt)
JP (1) JP6289613B2 (pt)
KR (1) KR101785187B1 (pt)
CN (1) CN105378832B (pt)
AR (1) AR096257A1 (pt)
AU (2) AU2014267408B2 (pt)
BR (1) BR112015028121B1 (pt)
CA (1) CA2910506C (pt)
HK (1) HK1222253A1 (pt)
MX (1) MX353859B (pt)
MY (1) MY176556A (pt)
RU (1) RU2646375C2 (pt)
SG (1) SG11201509327XA (pt)
TW (1) TWI566237B (pt)
WO (1) WO2014184115A1 (pt)
ZA (1) ZA201509007B (pt)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US10468036B2 (en) * 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
FR3041465B1 (fr) * 2015-09-17 2017-11-17 Univ Bordeaux Procede et dispositif de formation d'un signal mixe audio, procede et dispositif de separation, et signal correspondant
EP3293733A1 (en) * 2016-09-09 2018-03-14 Thomson Licensing Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
CN108009182B (zh) * 2016-10-28 2020-03-10 京东方科技集团股份有限公司 一种信息提取方法和装置
US10777209B1 (en) * 2017-05-01 2020-09-15 Panasonic Intellectual Property Corporation Of America Coding apparatus and coding method
WO2019105575A1 (en) * 2017-12-01 2019-06-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
KR20220024593A (ko) 2019-06-14 2022-03-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 매개변수 인코딩 및 디코딩
MX2022001150A (es) * 2019-08-01 2022-02-22 Dolby Laboratories Licensing Corp Sistemas y metodos para suavizacion de covarianza.
EP4032086A4 (en) * 2019-09-17 2023-05-10 Nokia Technologies Oy SPATIAL AUDIO PARAMETERS CODING AND ASSOCIATED DECODING
WO2022079049A2 (en) * 2020-10-13 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects or apparatus and method for decoding using two or more relevant audio objects

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1667109A4 (en) * 2003-09-17 2007-10-03 Beijing E World Technology Co METHOD AND DEVICE FOR QUANTIFYING MULTI-RESOLUTION VECTOR FOR AUDIO CODING AND DECODING
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
CN1947172B (zh) * 2004-04-05 2011-08-03 皇家飞利浦电子股份有限公司 方法、装置、编码器设备、解码器设备以及音频系统
US7756713B2 (en) * 2004-07-02 2010-07-13 Panasonic Corporation Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information
RU2473062C2 (ru) * 2005-08-30 2013-01-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ кодирования и декодирования аудиосигнала и устройство для его осуществления
CA2874454C (en) * 2006-10-16 2017-05-02 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
DE102007040117A1 (de) * 2007-08-24 2009-02-26 Robert Bosch Gmbh Verfahren und Motorsteuereinheit zur Aussetzerkennung bei einem Teilmotorbetrieb
RU2452043C2 (ru) * 2007-10-17 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудиокодирование с использованием понижающего микширования
EP3273442B1 (en) * 2008-03-20 2021-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing a parameterized representation of an audio signal
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
TWI419148B (zh) 2008-10-08 2013-12-11 Fraunhofer Ges Forschung 多解析度切換音訊編碼/解碼方案
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
KR101388901B1 (ko) * 2009-06-24 2014-04-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 디코더, 오디오 신호를 디코딩하는 방법 및 캐스케이드된 오디오 객체 처리 단계들을 이용한 컴퓨터 프로그램
CN102171754B (zh) * 2009-07-31 2013-06-26 松下电器产业株式会社 编码装置以及解码装置
ES2644520T3 (es) * 2009-09-29 2017-11-29 Dolby International Ab Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
MY154641A (en) * 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
AU2013301864B2 (en) * 2012-08-10 2016-04-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and methods for adapting audio information in spatial audio object coding
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions

Also Published As

Publication number Publication date
MX353859B (es) 2018-01-31
CN105378832B (zh) 2020-07-07
HK1222253A1 (zh) 2017-06-23
JP2016524721A (ja) 2016-08-18
MY176556A (en) 2020-08-16
US10089990B2 (en) 2018-10-02
KR101785187B1 (ko) 2017-10-12
AU2017208310C1 (en) 2021-09-16
RU2015153218A (ru) 2017-06-14
ZA201509007B (en) 2017-11-29
CA2910506A1 (en) 2014-11-20
AU2017208310B2 (en) 2019-06-27
AU2014267408B2 (en) 2017-08-10
EP2997572A1 (en) 2016-03-23
SG11201509327XA (en) 2015-12-30
MX2015015690A (es) 2016-03-04
KR20160009631A (ko) 2016-01-26
AU2014267408A1 (en) 2015-12-03
TWI566237B (zh) 2017-01-11
RU2646375C2 (ru) 2018-03-02
US20190013031A1 (en) 2019-01-10
WO2014184115A1 (en) 2014-11-20
AU2017208310A1 (en) 2017-10-05
TW201503112A (zh) 2015-01-16
EP2804176A1 (en) 2014-11-19
US20160064006A1 (en) 2016-03-03
JP6289613B2 (ja) 2018-03-07
CA2910506C (en) 2019-10-01
AR096257A1 (es) 2015-12-16
BR112015028121A2 (pt) 2017-07-25
EP2997572B1 (en) 2023-01-04
CN105378832A (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
BR112015028121B1 (pt) Separação de objeto áudio de sinal de mistura usando resoluções em tempo/frequência específicas de objeto
TWI545559B (zh) 解碼器、編碼器、音訊信號系統、產生未經混合音訊信號之方法、編碼輸入音訊物件信號之方法、以及相關電腦可讀取媒體及電腦程式
TWI541795B (zh) 編碼器、解碼器、用於解碼之方法、用於編碼之方法及電腦程式
EP3171361B1 (en) Audio encoder and decoder
Disch et al. A dedicated decorrelator for parametric spatial coding of applause-like audio signals

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 09/05/2014, OBSERVADAS AS CONDICOES LEGAIS