BR112014010062B1 - Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio - Google Patents

Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio Download PDF

Info

Publication number
BR112014010062B1
BR112014010062B1 BR112014010062-4A BR112014010062A BR112014010062B1 BR 112014010062 B1 BR112014010062 B1 BR 112014010062B1 BR 112014010062 A BR112014010062 A BR 112014010062A BR 112014010062 B1 BR112014010062 B1 BR 112014010062B1
Authority
BR
Brazil
Prior art keywords
audio
channels
objects
audio objects
decoder
Prior art date
Application number
BR112014010062-4A
Other languages
English (en)
Other versions
BR112014010062A8 (pt
BR112014010062A2 (pt
Inventor
Jeroen Gerardus Henricus Koppens
Arnoldus Werner Johannes Oomen
Leon Maria Van De Kerkhof
Original Assignee
Koninklijke Philips N.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips N.V. filed Critical Koninklijke Philips N.V.
Publication of BR112014010062A2 publication Critical patent/BR112014010062A2/pt
Publication of BR112014010062A8 publication Critical patent/BR112014010062A8/pt
Publication of BR112014010062B1 publication Critical patent/BR112014010062B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, método para a decodificação de objeto de áudio, e produto de programa de computador. a presente invenção descreve um codificador de objeto de áudio compreende um receptor (701) que recebe n objetos de áudio. um downmixer (703) faz o downmix dos n objetos de áudio para os m canais de áudio, e um circuito de canal (707) obtém k canais de áudio dos m canais de áudio, k= 1, 2 e k (menor que) m. um circuito de parâmetros (709) gera parâmetros upmix de objetos de áudio para pelo menos parte de cada um dos n objetos de áudio relativos aos k canais de áudio e um circuito de saída (705, 711) gera um fluxo de dados de saída compreendendo os parâmetros upmix de objetos de áudio e os m canais de áudio. um decodificador de objeto de áudio recebe o fluxo de dados e inclui um circuito de canal (805) para a obtenção de k canais de áudio do downmix do canal m; e um decodificador de objetos (807) para gerar pelo menos parte de cada um dos n objetos de áudio pelo upmix dos k canais de áudio com base nos parâmetros upmix de objetos de áudio. a invenção pode permitir melhor codificação de objetos mantendo a compatibilidade para trás.

Description

CAMPO DA INVENÇÃO
[0001] A invenção se refere a uma codificação e decodificação de objeto de áudio e em particular, mas não exclusivamente, a uma codificação e/ou decodificação de objeto de áudio compatível com o padrão MPEG SAOC (Codificação Espacial de Objeto de Áudio).
HISTÓRICO DA INVENÇÃO
[0002] O áudio multicanais está difundido e tornou-se popular para muitas aplicações diferentes, incluindo cinema doméstico e sistemas multicanais de músicas. A codificação de áudio é geralmente utilizada para gerar fluxos de dados que fornecem uma eficiente representação de dados dos sinais de áudio. Essa codificação de áudio permite uma eficiente armazenagem e distribuição dos sinais de áudio. Muitos padrões de codificação de áudio diferentes foram desenvolvidos para a codificação e decodificação dos sinais de áudio tradicionais mono e estéreo, assim como para a codificação e decodificação de sinais de áudio multicanais. O termo multicanais é assim utilizado para indicar mais de dois canais. O uso de padrões dedicados de áudio permite fazer o trabalho interno e a compatibilidade entre muitos diferentes sistemas, dispositivos e aplicações sendo, portanto, crítico que os padrões eficientes sejam respeitados. Entretanto, um problema significativo surge quando novos padrões são desenvolvidos ou quando os padrões existentes são modificados. Em particular, as modificações dos padrões podem não somente ter realização consumidora de tempo como complicada, mas também podem resultar em que o equipamento existente não seja adequado para os novos, ou mesmo os padrões existentes. Para facilitar a introdução dos novos padrões ou das modificações de padrões, é desejável que estes exijam a mínima modificação dos padrões existentes. Em alguns casos, é até possível fazer modificações que sejam totalmente compatíveis com os padrões existentes, isto é, que as modificações possam ser aplicadas sem qualquer mudança na especificação do padrão existente. Um exemplo disso é o bitstream watermarking. No bitstream watermarking, elementos específicos de fluxos de bits são modificados de forma compatível, de maneira que o fluxo de bits possa ainda ser decodificado de acordo com a especificação padrão. Apesar de a saída ter mudado, a diferença na qualidade não é geralmente audível.
[0003] O MPEG Surround é um dos grandes avanços na codificação de áudio multicanais e foi recentemente padronizado pelo Motion Picture Experts Group na ISO/IEC 23003-1. O MPEG Surround é uma ferramenta para a codificação de áudio multicanais que permite que os serviços em base mono ou estéreo sejam estendidos para aplicações multicanais. A Figura 1 mostra um diagrama de blocos de um codificador de núcleo estéreo estendido com MPEG Surround. Primeiro, o codificador MPEG Surround cria um downmix estéreo a partir do sinal de entrada multicanais. Depois, são estimados parâmetros espaciais a partir do sinal de entrada multicanais. Esses parâmetros são codificados no fluxo de bits MPEG Surround. O downmix estéreo é codificado em um fluxo de bits usando um codificador de núcleo, por exemplo, HE-AAC. Esse fluxo de bits do codificador de núcleo e o fluxo de bits espacial resultantes são fundidos para criar o fluxo de bits total. Tipicamente, o fluxo de bits espacial está contido nos dados auxiliares ou na parte dos dados de usuário do fluxo de bits do codificador de núcleo. Ao lado do decodificador, os fluxos de bits espaciais e de núcleo são separados. O fluxo de bits de núcleo estéreo é decodificado para reproduzir o downmix estéreo. Esse downmix em conjunto com o fluxo de bits espacial é enviado ao decodificador do MPEG Surround. O fluxo de bits espacial é decodificado para prover os parâmetros espaciais. Os parâmetros espaciais são então usados para fazer o upmix do downmix estéreo para obter o sinal de saída multicanais.
[0004] Como a imagem espacial do sinal de entrada multicanais é parametrizada, o MPEG Surround permite a decodificação do mesmo fluxo de bits multicanais nos dispositivos além de um conjunto de alto-falantes multicanais. Um exemplo é a reprodução de surround virtual nos fones de ouvido, que é denominada processo de decodificação de MPEG Surround binaural. Nesse modo, uma real experiência surround pode ser provida usando fones de ouvido comuns. A Figura 2 mostra um diagrama de blocos do codec do núcleo estéreo ampliado com MPEG Surround, onde a saída é decodificada para binaural. O processo do codificador é idêntico ao da Figura 1. No sistema, os parâmetros espaciais são combinados com a Função de Transferência Relativa à Cabeça (HRTF) e o resultado é usado para produzir a denominada saída binaural.
[0005] Construindo sobre o conceito do MPEG Surround, o MPEG padronizou um sistema para a codificação de objetos de áudio individuais. Esse padrão é conhecido como ‘Codificação de Objeto de Áudio Espacial’ (MPEG-D SAOC) ISO/IEC 23003-2. A partir de uma perspectiva de alto nível, o SAOC codifica de forma eficiente objetos sonoros ao invés de canais de áudio, onde cada objeto sonoro pode tipicamente corresponder a uma única fonte sonora na imagem sonora. No MPEG Surround, cada canal de alto-falantes pode ser considerado como sendo originado de um diferente mix de objetos sonoros sendo que os dados SAOC são providos para os objetos sonoros individuais. De forma similar ao MPEG Surround, é também criado um downmix mono ou estéreo no SAOC. Especificamente, o SAOC também gera um downmix mono ou estéreo que é codificado usando um codificador downmix padrão como um HE-AAC. Assim, os dispositivos playback legacy desconsiderarão os dados paramétricos e reproduzirão o downmix mono ou estéreo onde os decodificadores SAOC podem fazer o upmix do sinal para recolher os objetos sonoros originais ou para permitir que sejam modificados para uma configuração de saída desejada. Os parâmetros de objeto e downmix são integrados na parte dos dados auxiliares do fluxo de bits codificado do downmix para prover as informações relativas de nível e ganho para os objetos SAOC individuais, tipicamente refletindo seus downmix no downmix estéreo/mono. No lado do decodificador, o usuário pode controlar várias características dos objetos individuais (como posição espacial, amplificação e equalização) pela manipulação desses parâmetros, ou o usuário pode aplicar efeitos, como a reverberação nos objetos individuais.
[0006] A Figura 3 mostra um diagrama de blocos para a codificação SAOC regular. O codificador SAOC pode ser considerado um módulo de processamento situado antes de um codificador mono ou estéreo convencional. O pré-processamento consiste da geração de um downmix estéreo (ou mono) a partir de um número N de sinais de objetos. Além disso, os parâmetros de objeto são extraídos e armazenados em um fluxo de bits SAOC com “as informações sobre a matriz downmix M. As informações downmix SAOC são codificadas em dois tipos de parâmetros. Primeiro, o parâmetro DMG (ganho downmix) indica o ganho aplicado ao objeto. Os sinais do parâmetro DCLD (diferença de nível dos canais downmix) sinalizam a distribuição do objeto nos dois canais em um estéreo downmix. Esses parâmetros são ambos definidos por objeto.
[0007] Um decodificador SAOC pode realizar a operação oposta. O downmix recebido mono ou estéreo pode ser decodificado e upmixado em uma configuração de saída desejada. A operação de upmix inclui a operação combinada de um upmix do downmix mono ou estéreo para gerar os objetos de áudio seguido pelo seu mapeamento na desejada configuração de saída com base em uma matriz de transmissão como ilustrado na Figura 4, onde o downmix mono ou estéreo de entrada é primeiro upmixado em N objetos de áudio com base nos parâmetros SAOC. É feito então o downmix dos N objetos de áudio resultantes em P canais de saída usando uma matriz de transmissão que define onde os objetos individuais são posicionados. A Figura 4 ilustra a decodificação SAOC conceitual. Entretanto, tipicamente a matriz de upmix e a matriz de transmissão são combinadas em uma única matriz e a geração dos canais de saída do downmix mono ou estéreo é feita como uma operação única. Um exemplo disso é mostrado na Figura 5, que mostra um exemplo específico, em que P é igual a um ou dois, e onde especificamente para P=2 a saída pode ser um canal binaural de saída espacial. Assim, os dois canais de saída são gerados usando parâmetros HRTF aplicados aos objetos individuais para gerar a desejada imagem espacial binaural. A Figura 9 ilustra um exemplo onde P>2 e um processamento/decodificação MPEG Surround (MPS) é utilizado para gerar os P canais de saída.
[0008] Entretanto, um problema associado ao SAOC é que a especificação somente suporta downmix estéreo e mono e considerando que exista um número de aplicações e casos de uso onde sejam usados mixes multicanais ou mesmo por vezes exigidos, por exemplo, em DVD e Blu-Ray. Portanto, seria desejável que o SAOC suportasse essas aplicações multicanais, isto é, um downmix multicanais, mas isso exigiria substanciais alterações à especificação SAOC padrão, que seriam complicadas, não práticas, aumentariam a complexidade e resultariam em uma reduzida compatibilidade para trás.
[0009] Em particular, seria vantajoso se os algoritmos existentes, as unidades funcionais, o hardware dedicado, etc. desenvolvidos para a codificação e decodificação SAOC poderiam ser reutilizados, permitindo um melhor suporte para áudio multicanais.
[0010] Assim, seria vantajosa uma melhor abordagem da codificação e/ou decodificação de objeto (como, por exemplo, codificação/decodificação SAOC) e, em particular, abordagens que permitam uma maior flexibilidade, impacto reduzido nas abordagens padronizadas, maior ou facilitada compatibilidade para trás, permitindo maior reutilização de funcionalidade de codificação e/ou decodificação, sendo vantajosa a implementação facilitada, o suporte multicanais na codificação de objeto, e/ou o melhor desempenho.
SUMÁRIO DA INVENÇÃO
[0011] Assim, a invenção busca preferencialmente mitigar, aliviar ou eliminar uma ou mais das desvantagens acima mencionadas de forma simples ou em combinação.
[0012] De acordo com um aspecto da invenção, é provido um codificador de objeto de áudio compreendendo: um receptor para receber N objetos de áudio; um mixer para misturar os N objetos de áudio aos M canais de áudio; um circuito de canal para obter K canais de áudio dos M canais de áudio onde K= 1 ou 2 e K<M; um circuito de parâmetros que gera parâmetros upmix de objetos de áudio para pelo menos parte de cada um dos N objetos de áudio relativos aos K canais de áudio; um circuito de saída para gerar um fluxo de dados de saída compreendendo os parâmetros upmix de objetos de áudio e os M canais de áudio.
[0013] A invenção pode permitir a codificação de áudio que pode prover melhor desempenho para sistemas de transmissão multicanais enquanto suporta a codificação do objeto de áudio. O sistema pode, em alguns cenários, permitir melhor transmissão multicanais e pode, em alguns cenários, permitir melhor funcionalidade de objeto de áudio. Pode ser obtida uma baixa taxa de dados pela combinação dos M canais de áudio com os parâmetros upmix de objetos de áudio referentes aos K canais de áudio, de maneira que não seja necessário incluir dados codificados para os K canais de áudio no fluxo de dados de saída.
[0014] A invenção pode permitir o suporte multicanais (com mais de dois canais) nos sistemas de codificação de objeto de áudio provendo a codificação (e/ou a decodificação) do objeto de áudio com base somente nos sinais mono e estéreo. A codificação pode gerar um fluxo de dados de saída em que seja provido um sinal multicanais com “os dados associados de objeto de áudio que, entretanto não são definidos em relação ao sinal multicanais, mas relativos a um sinal mono ou estéreo que pode ser obtido a partir do sinal multicanais.
[0015] A invenção pode, em muitas aplicações, permitir melhor reutilização e/ou compatibilidade para trás com a funcionalidade existente da codificação e/ou decodificação de objeto de áudio.
[0016] Um objeto de áudio pode ser um componente de sinal de áudio correspondendo a uma única fonte sonora no ambiente de áudio. Especificamente, o objeto de áudio pode incluir áudio de somente uma posição no ambiente de áudio. Um objeto de áudio pode ter uma posição associada, mas não estar associado a qualquer configuração específica de fonte sonora de transmissão, e pode especificamente não estar associado a qualquer configuração específica de alto-falantes.
[0017] O fluxo de dados de saída pode não incluir dados de codificação dos K canais de áudio. Em algumas realizações, um, mais ou todos os N objetos de áudio são gerados pelos K canais de áudio.
[0018] A derivação dos K canais pode ser feita em cada segmento, e a derivação específica pode mudar dinamicamente, por exemplo, entre segmentos. Em muitas realizações e/ou cenários, M pode ser menor que N.
[0019] De acordo com uma característica opcional da invenção, o circuito de canal é montado para obter os K canais fazendo o downmix dos M canais de áudio.
[0020] Isso pode prover um sistema particularmente vantajoso em muitos cenários e aplicações. Particularmente, pode permitir a reutilização da funcionalidade e pode permitir a eficiente codificação e decodificação do objeto de áudio. Especificamente, a abordagem pode permitir que o downmix gerado proveja componentes adequados nos K canais de áudio para todos os objetos de áudio também representados nos M canais de áudio.
[0021] Em algumas realizações, o downmix pode ser de forma que cada um dos M canais de áudio seja representado pelo menos em um dos K canais, e em algumas realizações em todos os K canais.
[0022] De acordo com uma característica opcional da invenção, o circuito de canal é montado para obter os K canais selecionando um subconjunto de canal K dos M canais de áudio.
[0023] Isso pode prover um sistema particularmente vantajoso em muitos cenários e aplicações. Particularmente, pode permitir a reutilização da funcionalidade e pode permitir a eficiente codificação e decodificação de objeto de áudio. Em muitas realizações, pode reduzir a complexidade e/ou aumentar a flexibilidade. A seleção dos K canais pode variar dinamicamente, permitindo aos diferentes K canais serem selecionados em diferentes segmentos de tempo.
[0024] De acordo com uma característica opcional da invenção, o fluxo de dados de saída compreende um fluxo multicanais de dados codificados para os M canais de áudio, e os parâmetros upmix de objetos de áudio estão compreendidos em uma parte do fluxo multicanais de dados codificados.
[0025] Isso pode prover um fluxo de dados de saída particularmente vantajoso em muitas realizações. Em particular, pode permitir um fluxo de dados combinado que suporta diretamente tanto o áudio multicanais como a codificação do objeto de áudio com base nos sinais mono e/ou estéreo, permitindo assim a compatibilidade para trás. Assim, um fluxo multicanais de dados codificados pode ser provido e que contenha o sinal multicanais e parâmetros upmix de objetos de áudio que não sejam providos relativos ao sinal multicanal codificado, o que ainda permite a decodificação de objeto com base no sinal multicanais codificado.
[0026] De acordo com uma característica opcional da invenção, o circuito de saída está montado para compreender dados de mistura representativos da mistura dos N objetos de áudio com os M canais de áudio no fluxo de dados de saída.
[0027] Isso pode permitir um melhor desempenho em muitas realizações, e pode, em particular, em muitas realizações permitir que seja provida no decodificador melhor decodificação e funcionalidade de objeto de áudio. Os dados de mistura podem, por exemplo, ser definidos no domínio de frequência do tempo.
[0028] De acordo com um aspecto da invenção, existe um decodificador de objeto de áudio compreendendo: um receptor para receber um fluxo de dados compreendendo dados de áudio para a mistura de um canal M de N objetos de áudio e parâmetros de mistura de objeto de áudio para os N objetos de áudio relativos aos K canais de áudio onde K= 1 ou 2 e K<M; um circuito de canal para a obtenção de K canais de áudio a partir da mistura do canal M; e um decodificador de objetos para gerar P sinais de áudio dos N objetos de áudio pelo menos parcialmente gerados pelo upmix dos K canais de áudio com base nos parâmetros upmix de objetos de áudio.
[0029] A invenção pode permitir a decodificação do objeto de áudio e pode, em particular, permitir uma eficiente decodificação do objeto de áudio com base em um sinal que suporte diretamente os sistemas de transmissão multicanais. O decodificador de objeto de áudio pode gerar os P sinais de áudio sem receber quaisquer dados de codificação de áudio data para os K canais de áudio.
[0030] A invenção pode, em muitas aplicações, permitir melhor reutilização e/ou compatibilidade para trás com a existente funcionalidade de codificação e/ou decodificação de objeto de áudio.
[0031] O decodificador de objetos pode ser disposto para gerar os P sinais de áudio fazendo o upmix dos K canais para N objetos de áudio e então mapeando os N objetos de áudio nos P canais de áudio. O mapeamento pode ser representado por uma matriz de transmissão. O upmix dos K canais com os N objetos de áudio e o mapeamento dos N objetos de áudio nos P canais de saída pode ser feito como uma operação simples integrada. Especificamente, uma matriz upmix KtoN pode ser combinada com uma matriz NtoP para gerar uma matriz KtoP que é diretamente aplicada nos K canais para gerar os P sinais de saída. Assim, o decodificador de objetos pode ser disposto para gerar P canais de saída com base nos parâmetros upmix de objetos de áudio para os N objetos de áudio e a matriz de transmissão para os P canais de saída. Em algumas realizações, os N objetos de áudio podem ser gerados explicitamente, e especialmente cada um dos P sinais de áudio pode corresponder a um único objeto de áudio dos N objetos de áudio. Em alguns cenários, N pode ser igual a P.
[0032] De acordo com uma característica opcional da invenção, o circuito de canal é montado para obter os K canais fazendo o downmix dos M canais de áudio.
[0033] Isso pode prover um sistema particularmente vantajoso em muitos cenários e aplicações. Particularmente, pode permitir uma eficiente codificação e decodificação de objeto de áudio. Especificamente, a abordagem pode permitir ao downmix gerado prover componentes adequados nos K canais de áudio para todos os objetos de áudio também representados nos M canais de áudio. Em algumas realizações, o decodificador de objetos pode ser montado para gerar cada um dos N objetos de áudio fazendo o upmix dos K canais de áudio com base nos parâmetros upmix de objetos de áudio.
[0034] Em algumas realizações, o downmix pode ser de forma que cada um dos M canais de áudio seja representado em pelo menos um dos K canais, e em algumas realizações em todos os K canais.
[0035] De acordo com uma característica opcional da invenção, o fluxo de dados ainda compreende dados de downmix indicativos de um downmix de um codificador de M para K canais, e em que o circuito de canal está disposto para adaptar o downmix em resposta aos dados de downmix.
[0036] Isso pode permitir uma maior flexibilidade e/ou melhor desempenho em muitas realizações. Por exemplo, pode permitir a adaptação do downmix nas características específicas do sinal e pode, por exemplo, permitir que o downmix seja adaptado aos N objetos de áudio para prover componentes de sinal adequados de todos os N objetos de áudio para permitir a geração no decodificador dos objetos.
[0037] Em algumas realizações, pode ser usado um downmix fixo ou predeterminado dos M canais para os K canais no codificador e no decodificador. Isso pode reduzir a complexidade e pode especificamente obviar a necessidade da inclusão de dados indicativos do downmix no fluxo de dados, permitindo potencialmente assim uma taxa reduzida de dados.
[0038] De acordo com uma característica opcional da invenção, o circuito de canal é montado para obter os K canais selecionando um subconjunto de canal K dos M canais de áudio.
[0039] Isso pode permitir a codificação de objeto de áudio melhorada e/ou facilitada em muitas realizações. Isso pode, em muitas realizações, reduzir a complexidade.
[0040] De acordo com uma característica opcional da invenção, o fluxo de dados ainda compreende outros parâmetros de upmix de objetos de áudio para os N objetos de áudio relativos aos L canais de áudio onde L= 1 ou 2 e L<M, e os L canais de áudio e os K canais de áudio sendo diferentes subconjuntos dos M canais de áudio, e em que o decodificador de objetos está ainda montado para gerar os P canais dos N objetos de áudio pelo menos parcialmente gerados pelo upmix dos L canais de áudio com base nos outros parâmetros de upmix de objetos de áudio.
[0041] Isso pode permitir melhor decodificação do objeto de áudio em muitas realizações. Em particular, pode permitir que os componentes do sinal de cada objeto de áudio em mais de K (e em particular todos os M) canais de áudio sejam utilizados na geração do objeto de áudio.
[0042] Os subconjuntos podem ser desligados. Em algumas realizações, outro upmix pode se basear em um ou mais outros subconjuntos de canais de áudio com parâmetros associados de upmix de objetos de áudio. Em algumas realizações, a combinação de subconjuntos pode incluir todos os M canais de áudio.
[0043] De acordo com uma característica opcional da invenção, pelo menos um dos P canais é gerado pela combinação de contribuições tanto do upmix dos K canais de áudio com base nos parâmetros upmix de objetos de áudio e o upmix dos L canais de áudio com base nos outros parâmetros de upmix de objetos de áudio.
[0044] Isso pode permitir melhor decodificação do objeto de áudio em muitas realizações. Em particular, pode permitir que os componentes do sinal de cada objeto de áudio em mais de K (e em particular todos os M) canais de áudio sejam utilizados na geração do objeto de áudio.
[0045] De acordo com uma característica opcional da invenção, o fluxo de dados compreende dados de mistura representativos da mistura dos N objetos de áudio aos M canais de áudio, e em que o decodificador de objetos está disposto para gerar dados residuais para pelo menos um subconjunto dos N objetos de áudio em resposta aos dados de mistura e aos parâmetros upmix de objetos de áudio, e para gerar os P sinais de áudio em resposta aos dados residuais.
[0046] Isso pode proporcionar melhor qualidade de um, de alguns ou de todos os objetos de áudio decodificados em muitas realizações. Em muitas realizações, isto pode permitir a compatibilidade com algoritmos padronizados de decodificação de objeto de áudio capazes de receber dados residuais como, por exemplo, o padrão SAOC. Os dados residuais podem ser especificamente indicativos de uma diferença entre um objeto de áudio gerado pelos K canais e os parâmetros upmix de objetos de áudio, e o correspondente objeto de áudio gerado com base nos M canais de áudio e nos dados de downmix.
[0047] De acordo com um aspecto da invenção, é provido um método para a codificação de objeto de áudio compreendendo: receber N objetos de áudio; misturar os N objetos de áudio aos M canais de áudio; para a obtenção de K canais de áudio dos M canais de áudio onde K= 1 ou 2 e K<M; gerando parâmetros upmix de objetos de áudio para pelo menos parte de cada um dos N objetos de áudio relativos aos K canais de áudio; e gerando um fluxo de dados de saída compreendendo os parâmetros upmix de objetos de áudio e os M canais de áudio.
[0048] De acordo com uma característica opcional da invenção, é provido um método para a decodificação de objeto de áudio compreendendo: receber um fluxo de dados compreendendo dados de áudio para a mistura de um canal M de N objetos de áudio e parâmetros upmix de objetos de áudio para os N objetos de áudio relativos aos K canais de áudio onde K= 1 ou 2 e K<M; para a obtenção de K canais de áudio a partir da mistura do canal M; e gerando P sinais de áudio dos N objetos de áudio pelo menos parcialmente gerados pelo upmix dos K canais de áudio com base nos parâmetros upmix de objetos de áudio.
[0049] Esses e outros aspectos, características e vantagens da invenção ficarão aparentes e elucidados com referência à(s) realização(ões) doravante descritas.
Breve descrição dos desenhos
[0050] Serão descritas realizações da invenção somente como exemplo, com referência aos desenhos, onde:
[0051] A Figura 1 é uma ilustração de um sistema MPEG Surround de acordo com a técnica anterior;
[0052] A Figura 2 é uma ilustração de um sistema MPEG Binaural Surround de acordo com a técnica anterior;
[0053] A Figura 3 é uma ilustração de um codificador MPEG SAOC de acordo com a técnica anterior;
[0054] As Figuras 4-6 ilustram exemplos dos decodificadores MPEG SAOC de acordo com a técnica anterior;
[0055] A Figura 7 ilustra um exemplo de elementos de um codificador de objeto de áudio de acordo com algumas realizações da invenção;
[0056] A Figura 8 ilustra um exemplo de elementos de um decodificador de objeto de áudio de acordo com algumas realizações da invenção;
[0057] A Figura 9 ilustra um exemplo de elementos de um codificador de objeto de áudio de acordo com algumas realizações da invenção;
[0058] A Figura 10 ilustra um exemplo de fluxo de dados de saída de um codificador de acordo com algumas realizações da invenção;
[0059] A Figura 11 ilustra um exemplo de elementos de um decodificador de objeto de áudio de acordo com algumas realizações da invenção; e
[0060] A Figura 12 ilustra um exemplo de elementos de um decodificador de objeto de áudio de acordo com algumas realizações da invenção.
DESCRIÇÃO DETALHADA DE ALGUMAS REALIZAÇÕES DA INVENÇÃO
[0061] A seguinte descrição focaliza em um sistema codificador e decodificador de objeto em que N objetos de áudio recebem downmix para M canais de áudio, isto é, em que M<N. Entretanto, será apreciado que outras misturas podem ser utilizados e que M pode, em algumas realizações e cenários, ser igual ou maior que N.
[0062] A Figura 7 ilustra elementos de um codificador de objeto de áudio de acordo com algumas realizações da invenção.
[0063] O codificador compreende um receptor 701 que recebe N objetos de áudio. Cada objeto de áudio tipicamente corresponde a uma única fonte sonora. Assim, em contraste com os canais de áudio, e em particular canais de áudio de um sinal convencional espacial multicanais, os objetos de áudio não compreendem componentes de uma pluralidade de fontes sonoras que possam ter substancialmente diferentes posições. Similarmente, cada objeto de áudio provê uma representação total da fonte sonora e cada objeto de áudio fica assim associado aos dados da posição espacial para somente uma única fonte sonora. Especificamente, cada objeto de áudio pode ser considerado como uma única e completa representação de uma fonte sonora e pode estar associado a uma única posição espacial.
[0064] Além disso, os objetos de áudio não estão associados a nenhuma configuração específica de transmissão e não são especificamente associados a nenhuma configuração espacial específica de transdutores de som. Assim, em contraste com os canais tradicionais de som espacial que são tipicamente associados a um conjunto específico de auto- falantes espaciais como, em particular, um conjunto de som surround, objetos de áudio não são definidos em relação a qualquer configuração específica de transmissão espacial.
[0065] Os N objetos de áudio são enviados a um downmixer N para M 703 que faz o downmix de N objetos de áudio para M canais de áudio. No exemplo, M<N, mas será apreciado que em alguns cenários N pode ser igual ou mesmo menor que M. No exemplo específico da Figura 7, M é igual a 5, mas será apreciado que em outras realizações outros números de canais podem ser utilizados incluindo, por exemplo, M=7 ou M=9.
[0066] Assim, o downmixer N para M 703 gera um sinal multicanais de canal M em que os objetos de áudio são difundidos pelos canais. Em contraste com os N objetos de áudio, os M canais de áudio são canais de áudio tradicionais que tipicamente compreendem dados de uma pluralidade de objetos de áudio e assim de uma pluralidade de fontes sonoras com diferentes posições. Além disso, os objetos individuais de áudio são geralmente difundidos nos M canais de áudio e geralmente cada um dos M canais de áudio compreende um componente de um dado objeto de áudio, apesar de em alguns cenários alguns objetos de áudio podem somente ser representados em um subconjunto dos M canais de áudio.
[0067] O downmixer N para M 703 gera um sinal multicanais (doravante utilizado para indicar o sinal provido pelos M canais de áudio) que pode ser transmitido diretamente como um sinal multicanais. Especificamente, o sinal multicanais formado pelos M canais de áudio pode ser um sinal surround espacial, e no exemplo específico, os M canais de áudio podem ser respectivamente o esquerdo frontal, o direito frontal, o central, os canais surround esquerdo e surround direito de um sistema de cinco canais (e assim M=5). Assim, o sinal multicanais formado pelos M canais de áudio está associado a uma configuração específica de transmissão e especificamente cada canal de áudio é um canal de áudio associado a uma posição de transmissão.
[0068] O downmixer N para M 703 pode fazer o downmix de maneira que os objetos individuais de áudio fiquem posicionados como desejados na imagem surround provida pelos M canais de áudio. Por exemplo, um objeto de áudio pode ser posicionado diretamente na frente, outro objeto pode ser posicionado para a frente da posição nominal de audição, etc. O downmix N para M pode ser especificamente controlado manualmente, de maneira que o sinal sonoro surround resultante dos M canais de áudio proporcione a distribuição espacial desejada quando o sinal multicanais for transmitido diretamente. O downmix N para M pode se basear especificamente em uma matriz downmix N para M que seja gerada manualmente por uma pessoa para prover o sinal surround desejado dos M canais de áudio.
[0069] Os M canais de áudio são enviados para um codificador de canais M 705 que faz a codificação dos M canais de áudio de acordo com qualquer algoritmo adequado de codificação. O codificador de canais M 705 tipicamente emprega um esquema convencional de codificação multicanais para prover uma eficiente representação do sinal surround correspondente.
[0070] Será apreciado que a codificação dos M canais de áudio é tipicamente preferida, não sendo porém necessária em todas as realizações. Por exemplo, o downmixer N para M 703 pode gerar diretamente uma representação de domínio de frequência ou de domínio de tempo dos sinais que possam ser diretamente utilizados. Por exemplo, é possível enviar os M canais de áudio a um decodificador de objetos usando dados PCM não codificados. Entretanto, uma codificação eficiente pode reduzir substancialmente a taxa de dados sendo, portanto, tipicamente utilizada.
[0071] O sinal multicanais codificado pode especificamente corresponder a um sinal multicanais convencional e um dispositivo convencional de áudio receber o sinal multicanais, podendo assim transmitir diretamente o sinal multicanais.
[0072] O codificador da Figura 7 também compreende a funcionalidade para o provimento de parâmetros upmix de objetos de áudio que permitam aos N objetos originais de áudio serem regenerados em um dispositivo de decodificação de objetos equipado de forma adequada. Entretanto, os parâmetros upmix de objetos de áudio não são providos em relação aos M canais de áudio, mas são, por sua vez, providos em relação aos K canais de áudio, onde K é um ou dois. Assim, o codificador gera parâmetros upmix de objetos de áudio relativos a um sinal mono ou estéreo. Isso permite a compatibilidade com os padrões, permitindo somente a codificação e a decodificação de objetos com base em sinais downmix mono ou estéreo dos objetos originais de áudio. Isso pode permitir em muitos cenários a funcionalidade do codificador ou do decodificador de objeto de áudio padrão para que os sinais mono ou estéreo sejam reutilizados com suporte multicanais. Por exemplo, a abordagem pode ser utilizada para permitir melhor compatibilidade com SAOC.
[0073] O codificador compreende um redutor de canal M para K 707 que recebe os M canais de áudio do downmixer N para M 703 e que então realiza a obtenção de K canais de áudio dos M canais de áudio com K sendo 1 ou 2.
[0074] O redutor de canal M para K 707 está acoplado a um circuito de parâmetros 709 que também recebe os N originais objetos de áudio do receptor. O redutor de canal M para K 707 é montado para gerar parâmetros upmix de objetos de áudio para pelo menos parte de cada um dos N objetos de áudio relativos aos K canais de áudio. Assim, são gerados os parâmetros upmix de objetos de áudio que descrevem como (em parte ou no total) os N objetos de áudio podem ser gerados pelo sinal mono ou estéreo recebido do redutor de canal M para K 707.
[0075] O codificador de canais M 705 e o circuito de parâmetros 709 são acoplados a um circuito de saída 711 que gera um fluxo de dados de saída compreendendo os parâmetros upmix de objetos de áudio recebidos do circuito de parâmetros 709 e os canais de áudio codificados M recebidos do codificador de canais M 705. Entretanto, o fluxo de dados de saída não inclui quaisquer dados dos K canais de áudio (codificados ou não). Assim, é gerado um fluxo de dados de saída que compreende um sinal multicanais codificado que pode ser transmitido diretamente por dispositivos de legação multicanais, mesmo que não seja capaz de decodificar ou processar o objeto de áudio. Além disso, são providos os parâmetros upmix de objetos de áudio que possam permitir que os N objetos originais de áudio sejam representados no lado do decodificador. Entretanto, os parâmetros upmix de objetos de áudio não são providos em relação ao sinal incluído no fluxo de dados, mas relativos ao sinal estéreo ou mono que não está incluído no fluxo de dados de saída. Isso permite que a operação seja compatível com as abordagens de codificação e decodificação do objeto de áudio que estejam limitadas aos sinais mono e estéreo. Por exemplo, as unidades existentes de codificação e decodificação SAOC podem ser reutilizadas, permitindo o suporte multicanais.
[0076] Além disso, apesar de os K canais de áudio não estarem incluídos no fluxo de dados de saída, estes podem ser obtidos a partir do sinal multicanais pelo decodificador. Assim, um decodificador equipado de forma adequada pode obter os K canais de áudio e então gerar os N objetos de áudio com base nos parâmetros upmix de objetos de áudio. Isso pode ser especificamente feito usando a funcionalidade upmix existente com base em um sinal subjacente estéreo ou mono. Assim, a abordagem pode permitir que um único fluxo de dados de saída proporcione um sinal multicanais que possa ser transmitido diretamente por dispositivos multicanais e dados de objeto de áudio relativos a um sinal mono ou estéreo não incluído no fluxo de dados de saída, ainda permitindo a geração dos objetos originais de áudio.
[0077] O fluxo de dados de saída pode compreender especificamente um fluxo multicanais de dados codificados para os M canais de áudio, onde o fluxo multicanais de dados codificados também inclui os parâmetros upmix de objetos de áudio. Assim, um fluxo multicanais de dados codificados pode ser provido compreendendo o próprio sinal multicanais mais os dados para gerar os objetos individuais de áudio compreendidos no sinal multicanais, mas onde esses dados não estejam relacionados com o próprio sinal multicanais, porém em um sinal mono ou estéreo que não esteja incluído no fluxo multicanais de dados codificados. Os parâmetros upmix de objetos de áudio podem ser especificamente incluídos em um campo de dados subsidiários, auxiliares ou opcionais do fluxo multicanais de dados codificados.
[0078] A Figura 8 ilustra um exemplo de um decodificador de acordo com algumas realizações da invenção.
[0079] O decodificador compreende um receptor 801 para receber o fluxo de dados de saída do codificador da Figura 7. Assim, o receptor recebe um fluxo de dados compreendendo dados de áudio para um downmix de canal M dos N objetos de áudio com “os parâmetros upmix de objetos de áudio para os N objetos de áudio relativos aos K canais de áudio onde K= 1 ou 2 e K<M. No exemplo, os dados de áudio para o downmix do canal M são dados de áudio codificados.
[0080] Os dados de áudio codificados para o downmix de M canais são enviados a um decodificador multicanais 803 que gera os M canais de áudio dos dados de áudio codificados. Os M canais de áudio são enviados a um processador de canais M para K 805 que obtém os K canais de áudio dos M canais de áudio. O processador de canais M para K 805 especificamente realiza a mesma operação que o redutor de canal M para K 707 do codificador da Figura 7. Os resultantes K canais de áudio são enviados a um decodificador de objetos 807 que gera os N objetos de áudio fazendo o upmix dos K canais de áudio com base nos parâmetros upmix de objetos de áudio. O decodificador de objetos 807 especificamente realiza a operação inversa do circuito de parâmetros 709 da Figura 7.
[0081] Será apreciado que no exemplo da Figura 8, o decodificador de objetos 807 regenera os N objetos de áudio que podem então ser processados individualmente e/ou mapeados para uma configuração específica de alto-falante. Assim, no exemplo, P sinais de saída são gerados onde P=N e cada sinal de saída corresponde a um dos N objetos de áudio.
[0082] Em algumas realizações, o mapeamento para uma dada configuração de alto-falante pode ser combinado com o upmix do decodificador de objetos 807, por exemplo, aplicando uma multiplicação de matriz única, onde os coeficientes da matriz reflitam a multiplicação da matriz combinada dos mapeamentos dos K canais de áudio com os N objetos de áudio e a multiplicação da matriz dos mapeamentos dos N objetos de áudio com os canais da configuração do alto- falante.
[0083] Especificamente, P sinais de áudio podem ser gerados onde cada um dos P sinais de áudio possa corresponder a um canal de saída espacial de uma dada configuração de transmissão de canal P. Isso pode ser feito pelo decodificador de objetos 807, aplicando uma matriz de transmissão que mapeia os N objetos de áudio com os P sinais de áudio. Tipicamente, a matriz de upmix de objeto que gera os N objetos de áudio a partir dos K canais de áudio é combinada com o mapeamento da matriz de transmissão dos N objetos de áudio com os P sinais de áudio. Assim, uma única matriz combinada de transmissão e upmix de objeto é aplicada aos K canais de áudio para gerar os P sinais de áudio. A matriz combinada de transmissão e upmix de objeto pode especificamente ser gerada pela multiplicação da matriz de upmix de objeto com a matriz de transmissão...
[0084] Em algumas realizações, o processador de canais M para K 805 e o redutor de canal M para K 707 podem ser dispostos para gerar os K canais, fazendo o downmix dos M canais de áudio. Em particular, o downmix pode ser gerado de maneira que todos os objetos de áudio tenham componentes do sinal significativos no downmix, permitindo assim que o upmix seja eficiente com base nos K canais para todos os N objetos de áudio.
[0085] Um exemplo dessa abordagem está ilustrado na Figura 9. No exemplo específico, a codificação do objeto é compatível com o padrão SAOC, e assim um codificador SAOC é especificamente utilizado. No exemplo específico, M=5 e K=2.
[0086] Além disso, nota-se que no exemplo da Figura 9 a geração dos K canais de áudio é feita combinando a operação que gera os M canais de áudio a partir dos N objetos de áudio e a operação que gera os K canais de áudio dos M canais de áudio em uma única operação.
[0087] Especificamente, os M canais de áudio podem ser gerados pela aplicação de uma matriz codificadora de transmissão MNto5 para os N objetos de áudio de maneira a prover os M canais de áudio (pode ser feita uma multiplicação de matrizes para cada bloco de tempos de frequência como será visto pelo técnico no assunto). Similarmente, os K canais de áudio podem ser gerados aplicando uma matriz de transmissão M5to2 aos M canais de áudio para prover os K canais de áudio (pode ser feita uma multiplicação de matrizes para cada bloco de tempos de frequência como será visto pelo técnico no assunto). A operação sequencial dessas duas operações de matrizes pode ser substituída por uma única operação de matriz que realize a operação combinada. Especificamente, uma única multiplicação de uma matriz por uma matriz
[0088] MNto2= M5to2 • MNto5,
[0089] pode se aplicar diretamente aos N objetos de áudio por ser idêntica à aplicação da matriz M5to2 aos M (no exemplo específico, 5) canais de áudio gerados pelo downmixer N para M 703 pela aplicação da matriz MNto5. Assim, no decodificador, os K canais são simplesmente gerados pela aplicação de M (isto é, no exemplo específico 5) canais de áudio e da matriz downmix M5to2.
[0090] Será apreciado que qualquer abordagem adequada ou método para selecionar ou determinar a matriz de transmissão MNto5 poderá ser utilizado. Tipicamente, uma matriz é (semi)manualmente gerada para prover a desejada imagem sonora.
[0091] Similarmente, será apreciado que qualquer abordagem ou método adequado para a seleção ou a determinação da matriz downmix M5to2 poderá ser utilizado. Em algumas realizações, uma matriz de downmix fixa ou predeterminada M5to2 poderá ser utilizada. Essa matriz predeterminada pode ser conhecida no decodificador, que pode assim aplicá-la aos M canais de áudio para gerar o sinal estéreo exigido para a geração do objeto de áudio.
[0092] Em outras realizações, a matriz downmix M5to2 pode ser uma matriz variável que seja adaptada ou otimizada no codificador dependente das características específicas. Por exemplo, a matriz downmix M5to2 pode ser determinada de maneira que garanta que todos os objetos de áudio sejam representados de forma desejável no sinal estéreo resultante. Nessas realizações, as informações sobre a matriz downmix M5to2 utilizada no codificador podem ser incluídas no fluxo de dados de saída. O decodificador pode então extrair a matriz downmix M5to2 e aplicá-la aos canais de áudio decodificados M, gerando assim os K canais de áudio aos quais podem ser aplicados os parâmetros SAOC.
[0093] Ao permitir um multicanal adaptativo em downmix estéreo, os dados podem ser transmitidos empregando a estrutura subsidiária de dados na sintaxe do fluxo de bits multicanais, por exemplo, de forma similar à transmissão dos dados SAOC. Isto é ilustrado na Figura 10, que mostra duas opções diferentes:
[0094] - os parâmetros downmix sendo transmitidos em um recipiente separado antes (ou depois) do recipiente SAOC; e
[0095] - os parâmetros downmix sendo transmitidos dentro do recipiente SAOC como uma nova entrada no campo SAOCExtensionConfig().
[0096] Em algumas realizações, a derivação dos K canais dos M canais de áudio é feita selecionando um subconjunto de M canais de áudio.
[0097] Por exemplo, a codificação SAOC pode ser feita em resposta a somente dois canais de áudio, como os canais esquerdo frontal e direito frontal de um sinal surround de cinco canais formado pelos M canais de áudio.
[0098] Entretanto, em muitos cenários essa abordagem pode levar a objetos decodificados de forma sub- ótima devido aos canais do subconjunto selecionado não potencialmente incluir quaisquer componentes do sinal de um dado objeto de áudio (em contraste com os canais de downmix em que os M canais de áudio podem receber downmix para os K canais de áudio, de maneira que essas contribuições de todos os M canais de áudio, como de todos os N objetos de áudio, sejam incluídas nos K canais de downmix).
[0099] Esses problemas podem ser possivelmente solucionados pelo decodificador que gera parte ou todos entre alguns N objetos de áudio usando outras abordagens paralelas. Por exemplo, usar o envio SAOC afeta a funcionalidade da interface, definindo efeitos de envio para introduzir uma contribuição gerada como um efeito de envio. O efeito de envio pode ser definido de maneira que possa prover uma contribuição para os objetos de áudio que não possam ser gerados com suficiente qualidade pelos K canais de áudio selecionados.
[0100] Em algumas realizações, as contribuições dos objetos de áudio podem ser geradas a partir da pluralidade de subconjuntos dos M canais de áudio, onde cada subconjunto é dotado de adequados parâmetros upmix de objetos de áudio. Em algumas realizações, cada objeto de áudio pode ser gerado a partir de um único subconjunto dos M canais de áudio com diferentes objetos de áudio sendo gerados por diferentes subconjuntos, dependendo de como os objetos tiverem passado pelo downmix para os M canais de áudio. Entretanto, tipicamente os N objetos serão distribuídos em mais de K canais dos M canais de áudio e, portanto, os objetos de áudio podem ser gerados pela combinação das contribuições do upmix dos diferentes subconjuntos dos M canais de áudio.
[0101] O codificador pode assim ter estimadores de parâmetros paralelos que recebem diferentes subconjuntos dos N objetos de áudio. Alternativamente, todos os N objetos são enviados a cada um dos estimadores de parâmetros paralelos. A matriz de transmissão MNto5 é também dividida e utilizada como uma matriz downmix em cada estimador de parâmetro, de maneira que as saídas de sinal do estimador de parâmetros constitui a mistura do canal M. Por exemplo, um estimador de parâmetro pode produzir K canais de áudio dos M canais de áudio e outro estimador de parâmetro pode produzir L canais de áudio dos M canais de áudio. Por exemplo, um estimador de parâmetro gera os canais frontais esquerdo e direito e outro estimador gera o canal central. O estimador de parâmetros, além disso, gera parâmetros upmix de objetos de áudio para os respectivos canais. Os parâmetros upmix de objetos de áudio para cada estimador individual de parâmetros estão incluídos no fluxo de dados de saída como um conjunto separado de parâmetros upmix de objetos de áudio, por exemplo, especificamente como um fluxo separado de dados de parâmetros SAOC.
[0102] Assim, o codificador pode gerar uma pluralidade de fluxos de dados paralelos compatíveis com SAOC, cada qual estando associado a um subconjunto estéreo ou mono dos M canais de áudio. O decodificador correspondente pode então decodificar individualmente cada um desses fluxos de dados compatíveis com SAOC usando um conjunto padrão decodificador SAOC. Os componentes resultantes do objeto de áudio decodificado são então combinados nos objetos completos de áudio (ou diretamente nos canais de saída correspondentes à configuração de saída desejada do alto-falante). A abordagem pode assim permitir que todos os componentes do sinal nos M canais de áudio possam ser explorados ao gerar o objeto individual de áudio. Especificamente, os subconjuntos podem ser selecionados de maneira que em conjunto contenham todos os M canais de áudio com cada canal de áudio somente sendo incluído em um único subconjunto. Assim, os subconjuntos podem ser desligados e incluir todos os M canais de áudio.
[0103] Como um exemplo específico, múltiplos fluxos de SAOC podem ser incluídos/transmitidos com o downmix do canal de áudio M, de maneira que cada fluxo opere em um subconjunto mono ou estéreo do downmix multicanais. Com os objetos possivelmente presentes em fluxos específicos ou múltiplos, a matriz de transmissão utilizada no lado do decodificador para distribuir os objetos de áudio na desejada configuração de saída (alto-falante) pode ser adaptada para combinar as contribuições individuais com os objetos individuais de áudio. A abordagem pode prover uma qualidade de reconstrução particularmente alta.
[0104] Em comparação com a realização da Figura 9, a matriz N-para-5 está nesse exemplo específico não combinada com uma matriz downmix 5-para-2 para prover um downmix de canal K dos cinco canais de áudio. Na verdade, a matriz N-para-5 é desmembrada e enviada para três codificadores paralelos SAOC, dos quais os fluxos de bits são todos multiplexados no fluxo de bits.
[0105] Por exemplo,
Figure img0001
pode ser dividida em
Figure img0002
[0106] para prover três fluxos SAOC paralelos que tipicamente operariam bem para um ordenamento típico de cinco canais de {Lf, Rf, C, Ls, Rs} onde L indica esquerdo, R indica direito, C indica o central, o subescrito f indica frontal, e o subescrito s indica surround.
[0107] A Figura 11 mostra um exemplo de um decodificador para essa abordagem.
[0108] Em algumas realizações, o codificador pode ainda ser disposto para incluir dados de downmix representativos do downmix dos N objetos de áudio para os M canais de áudio no fluxo de dados de saída. Por exemplo, o codificador matriz de transmissão que descreve o downmix dos N objetos de áudio para os M canais de áudio pode ser incluído no fluxo de dados de saída (isto é, no exemplo específico da Figura 9, a matriz MNto5 pode ser incluída).
[0109] As demais informações podem ser utilizadas de diferentes formas nas diferentes realizações.
[0110] Especificamente, em algumas realizações, os dados de downmix podem ser usados para gerar um subconjunto dos objetos de áudio com base nos M canais de áudio. Como existem mais informações disponíveis nos M canais de áudio que nos K canais de áudio, isso pode permitir a geração de objetos de áudio com melhor qualidade. Entretanto, o processamento pode não ser compatível com o padrão de codificação/decodificação de objeto de áudio e pode, assim, precisar de funcionalidade adicional. Além disso, os requisitos de computação serão tipicamente maiores do que os para uma decodificação de objeto padrão (e tipicamente pesadamente otimizada) com base em sinais K. Portanto, a decodificação de áudio com base nos M canais de áudio e nos dados de downmix pode ser limitada a somente um subconjunto dos objetos de áudio, e tipicamente somente a um número muito pequeno dos objetos de áudio mais dominantes. Os demais objetos de áudio podem ser gerados usando um decodificador padronizado com base nos K canais. Essa decodificação pode ser geralmente e substancialmente mais eficiente, por exemplo, usando hardware dedicado e padronizado.
[0111] Além disso, alguns padrões de codificação, como o SAOC, são capazes de receber dados residuais do codificador, onde os dados codificados refletem a diferença entre o objeto original de áudio e aquele que será gerado por um decodificador com base nos parâmetros de downmix e de upmix dos objetos de áudio. Especificamente, o SAOC suporta uma característica conhecida como Objetos de Áudio Ampliados (EAO), que permite que os dados residuais sejam providos para até quatro objetos de áudio.
[0112] Em algumas realizações, os dados de downmix representativos do downmix dos N objetos de áudio para os M canais de áudio podem ser utilizados para gerar dados residuais no decodificador. Especificamente, o decodificador pode calcular um objeto específico de áudio com base nos dados de downmix, nos M canais de áudio e nos parâmetros upmix de objetos de áudio. Além disso, o mesmo objeto pode ser decodificado com base nos K canais de áudio e nos parâmetros upmix de objetos de áudio. Dados residuais podem ser gerados como uma indicação de uma diferença entre estes. Esses dados residuais podem então ser usados na decodificação dos N objetos de áudio. Essa decodificação pode usar uma abordagem padronizada para um padrão de decodificação de objetos que se baseie nos K canais e que permita que os dados residuais sejam providos pelo codificador.
[0113] Nessa abordagem, as informações adicionais providas pelos dados de downmix e os M canais de áudio são assim utilizadas para gerar informações dos dados residuais no decodificador, ao invés de no codificador. Assim, não é necessária a comunicação dos dados residuais. Será apreciado que o objeto gerado pelos dados de downmix e pelos M canais de áudio podem não ser idênticos ao objeto de áudio correspondente antes da codificação, mas as informações adicionais tipicamente ainda proporcionarão uma melhora no correspondente objeto de áudio gerado pelos K canais de áudio.
[0114] Como um exemplo específico, pode ser provido um decodificador SAOC padrão com um pré-processador que gera dados residuais que são enviados ao decodificador SAOC como se fossem dados residuais gerados no codificador. Assim, o decodificador SAOC pode operar totalmente de acordo com o padrão SAOC referente ao EAO. No exemplo, é ilustrado um decodificador na Figura 12.
[0115] O pré-processador pode calcular especificamente um objeto de áudio usando a matriz MNto5. Por exemplo, um objeto de áudio pode ser gerado a partir do downmix de 5 canais usando a seguinte equação:
Figure img0003
[0116] que reconstrói o objeto k a partir do canal downmix X1, onde OLD é a representação linear do parâmetro OLD (Diferença de Nível de Objeto) no fluxo de bits SAOC. Essa equação pode ser aplicada a cada um dos blocos tempo-frequência de X1, usando os correspondentes parâmetros SAOC.
[0117] A reconstrução acima supõe objetos não correlacionados. Incluindo os parâmetros SAOC IOC, é possível levar em consideração correlações inter-objetos, por exemplo, usando a equação:
Figure img0004
[0118] Essa reconstrução é ponderada com o ganho do objeto k no canal downmix 1 (MNto5,1k).
[0119] A combinação das reconstruções similares de todos os 5 canais dá uma reconstrução de objeto que é ponderada de acordo com os ganhos para o objeto k, isto é, o canal em que o objeto k tiver o maior ganho dá a maior ~ contribuição para a reconstrução combinada Sk do objeto k:
Figure img0005
[0120] onde
Figure img0006
normaliza a reconstrução no c=1 nível correto.
[0121] Como outro exemplo, uma reconstrução ponderada alternativa poderia visar o ‘isolamento’ de um objeto em um canal downmix.
[0122] Definir:
Figure img0007
[0123] então a reconstrução alternativa
Figure img0008
[0124] pondera cada sub-reconstrução normalizada (Bck ■ Xc) do objeto k com sua contribuição relativa para o correspondente canal downmix.
[0125] Será apreciado que outras abordagens para a geração do objeto de áudio dos M canais de áudio e do downmix N para M podem ser utilizadas em outras realizações.
[0126] Em um codificador SAOC, onde sejam codificados os Objetos de Áudio Ampliados (EAO), os correspondentes sinais residuais são calculados como uma diferença entre o sinal do objeto original e uma reconstrução com base no downmix SAOC mono ou estéreo. Esses objetos ampliados (Xeao) são, portanto, processados separadamente dos objetos regulares (Xreg).
[0127] É feito o downmix dos objetos regulares de acordo com uma submatriz (Dreg) do downmix da matriz K × N (D), onde
Figure img0009
quando
Figure img0010
O resultado é um downmix do canal K:
Figure img0011
[0128] É também feito o downmix dos EAOs usando a submatriz correspondente Deao, e o downmix resultante é combinado com o downmix dos objetos regulares (Yreg) no downmix SAOC.
Figure img0012
[0129] Esse downmix é esperado na entrada do decodificador SAOC.
[0130] Usando o downmix Yreg e os EAOs como sinais de entrada, são calculados os sinais auxiliares intermediários usando a matriz Neao x (K + Neao) Daux, onde Neao = N - Nreg é o número de EAOs.
Figure img0013
[0131] A geração do downmix Y e dos sinais auxiliares Yaux pode ser combinada em uma única equação matriz:
Figure img0014
[0132] ond
Figure img0015
[0133] A matriz Daux é escolhida de maneira que a matriz Dext seja inversível e a separação EAO do downmix seja otimizada. Os elementos de Daux são definidos no padrão SAOC e assim disponíveis no decodificador. No decodificador SAOC, usando a inversa de Dext, os EAOs (Xeao) podem ser separados dos objetos regulares (Yreg) usando o downmix (Y) e os sinais auxiliares (Yaux) como entrada.
[0134] Para melhorar a eficiência da codificação, os sinais auxiliares são previstos a partir dos sinais downmix com coeficientes de predição que são obtidos a partir dos dados já disponíveis no decodificador.
Figure img0016
[0135] O erro de predição R = Yaux - Yaux pode ser codificado de maneira eficiente usando o mecanismo de codificação residual do padrão SAOC.
[0136] Os residuais dessa realização podem ser gerados da mesma forma acima descrita usando a reconstrução ~ de objeto de canal M S como os EAOs (= Xeao). Como os objetos individuais já estão misturados, essas etapas podem ser omitidas. Dando assim
Figure img0017
No caso de quatro EAOs:
Figure img0018
[0137] Os residuais são então calculados como
[0138]
Figure img0019
[0139] Os residuais resultantes (R′) podem então ser inseridos no mesmo fluxo de bits SAOC, onde os objetos para os quais os residuais são calculados são identificados como EAOs. O decodificador SAOC padrão pode então prosseguir e realizar uma decodificação padrão SAOC EAO para gerar os N canais de áudio.
[0140] Isso pode proporcionar uma melhor qualidade dos objetos de áudio decodificados em muitas realizações. Em muitas realizações, pode permitir a compatibilidade com algoritmos padronizados de decodificação de objeto de áudio capazes de receber dados residuais como, por exemplo, o padrão SAOC. Os dados residuais podem ser especificamente indicativos de uma diferença entre um objeto de áudio gerado pelos K canais e os parâmetros upmix de objetos de áudio e o correspondente objeto de áudio gerado com base nos M canais de áudio e os dados de downmix.
[0141] Será apreciado que, para clareza, a descrição acima descreveu realizações da invenção com referência a diferentes circuitos, unidades e processadores funcionais. Entretanto, ficará aparente que qualquer distribuição adequada de funcionalidade entre diferentes circuitos, unidades ou processadores funcionais poderá ser utilizada sem abandonar a invenção. Por exemplo, a funcionalidade ilustrada a ser feita por processadores ou controladores separados pode ser realizada pelo mesmo processador ou controladores. Assim, as referências a unidades funcionais ou circuitos específicos devem somente ser vistas como referências de meios adequados para prover a funcionalidade descrita, ao invés de ser indicativa de uma estrita estrutura ou organização lógica ou física.
[0142] A invenção pode ser constituída sob qualquer forma adequada, incluindo hardware, software, firmware ou qualquer dessas combinações. A invenção pode, opcionalmente, ser constituída pelo menos parcialmente como um software de computador operando em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma realização da invenção podem ser realizados física, funcional e logicamente de qualquer forma adequada. Na verdade, a funcionalidade pode ser constituída em uma única unidade, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Assim, a invenção pode ser constituída em uma única unidade ou pode ser física e funcionalmente distribuída entre diferentes unidades, circuitos e processadores.
[0143] Apesar de a presente invenção ter sido descrita em conexão com algumas realizações, não pretende se limitar ao conjunto de forma específica apresentado na presente. Ao invés disso, o escopo da presente invenção limita-se somente pelas reivindicações de acompanhamento. Além disso, apesar de uma característica poder parecer ter sido descrita em conexão com determinadas realizações, o técnico no assunto reconhecerá que várias características das realizações descritas podem ser combinadas de acordo com a invenção. Nas reivindicações, o termo compreendendo não exclui a presença de outros elementos ou etapas.
[0144] Além disso, apesar de listada individualmente, a pluralidade de meios, elementos, circuitos ou etapas de métodos pode ser realizada, por exemplo, como um único circuito, unidade ou processador. Além disso, apesar de características individuais poderem estar incluídas em diferentes reivindicações, poderão possivelmente ser vantajosamente combinadas, e a inclusão em diferentes reivindicações não implica que uma combinação de características não seja possível e/ou vantajosa. Também, a inclusão de uma característica em uma categoria de acordo com as reivindicações não implica em uma limitação a esta categoria, mas indica que a característica é igualmente aplicável a outras categorias de reivindicação como forem adequadas. Além disso, a ordem das características nas reivindicações não implica em qualquer ordem específica em que as características devam ser operadas e, em particular, a ordem das etapas individuais em uma reivindicação de método não implica que as etapas devam ser realizadas nessa ordem. Ao invés disso, as etapas podem ser realizadas em qualquer ordem adequada. Além disso, referências singulares não excluem uma pluralidade. Assim, as referências a “um”, “uma”, “primeiro”, “segundo”, etc., não excluem uma pluralidade. Os sinais de referências nas reivindicações são providos simplesmente como exemplo de ilustração, e não serão de forma alguma entendidos como limitadores do escopo das reivindicações.

Claims (14)

1. CODIFICADOR DE OBJETO DE ÁUDIO, caracterizado em que compreende: um receptor (701) para receber N objetos de áudio; um mixer (703) para misturar os N objetos de áudio aos M canais de áudio; um circuito de canal (707) para obter K canais de áudio dos M canais de áudio onde K= 1 ou 2 e K<M; um circuito de parâmetros (709) que gera parâmetros upmix de objetos de áudio para pelo menos parte de cada um dos N objetos de áudio relativos aos K canais de áudio; um circuito de saída (705, 711) para gerar um fluxo de dados de saída compreendendo os parâmetros upmix de objetos de áudio e os M canais de áudio.
2. CODIFICADOR, de acordo com a reivindicação 1, caracterizado em que o circuito de canal (707) é montado para obter os K canais fazendo o downmix dos M canais de áudio.
3. CODIFICADOR, de acordo com a reivindicação 1, caracterizado em que o circuito de canal (707) é montado para obter os K canais selecionando um subconjunto de canal K dos M canais de áudio.
4. CODIFICADOR, de acordo com a reivindicação 1, caracterizado em que o fluxo de dados de saída que compreende um fluxo multicanais de dados codificados para os M canais de áudio, e os parâmetros upmix de objetos de áudio estão compreendidos em uma parte do fluxo multicanais de dados codificados.
5. CODIFICADOR, de acordo com a reivindicação 1, caracterizado em que o circuito de saída (705, 711) está montado para compreender dados de mistura representativos da mistura dos N objetos de áudio com os M canais de áudio no fluxo de dados de saída.
6. DECODIFICADOR DE OBJETO DE ÁUDIO, caracterizado em que compreende: um receptor (801, 803) para receber um fluxo de dados compreendendo dados de áudio para a mistura de um canal M de N objetos de áudio e parâmetros de mistura de objeto de áudio para os N objetos de áudio relativos aos K canais de áudio onde K= 1 ou 2 e K<M; um circuito de canal (805) para a obtenção de K canais de áudio a partir da mistura do canal M; e um decodificador de objetos (807) para gerar P sinais de áudio dos N objetos de áudio pelo menos parcialmente gerados pelo upmix dos K canais de áudio com base nos parâmetros upmix de objetos de áudio.
7. DECODIFICADOR, de acordo com a reivindicação 6, caracterizado em que o circuito de canal (805) é montado para obter os K canais fazendo o downmix dos M canais de áudio.
8. DECODIFICADOR, de acordo com a reivindicação 7, caracterizado em que o fluxo de dados que ainda compreende dados de downmix indicativos de um downmix de um codificador de M para K canais, e em que o circuito de canal (805) está disposto para adaptar o downmix em resposta aos dados de downmix.
9. DECODIFICADOR, de acordo com a reivindicação 7, caracterizado em que o circuito de canal (805) é montado para obter os K canais selecionando um subconjunto de canal K dos M canais de áudio.
10. DECODIFICADOR, de acordo com a reivindicação 9, caracterizado em que o fluxo de dados que ainda compreende outros parâmetros de upmix de objetos de áudio para os N objetos de áudio relativos aos L canais de áudio onde L= 1 ou 2 e L<M, e os L canais de áudio e os K canais de áudio sendo diferentes subconjuntos dos M canais de áudio, e em que o decodificador de objetos (807) está ainda montado para gerar os P canais dos N objetos de áudio pelo menos parcialmente gerados pelo upmix dos L canais de áudio com base nos outros parâmetros de upmix de objetos de áudio.
11. DECODIFICADOR, de acordo com a reivindicação 10, caracterizado em que pelo menos um dos P canais é gerado pela combinação de contribuições tanto do upmix dos K canais de áudio com base nos parâmetros upmix de objetos de áudio quanto do upmix dos L canais de áudio com base nos outros parâmetros de upmix de objetos de áudio.
12. DECODIFICADOR, de acordo com a reivindicação 6, caracterizado em que o fluxo de dados que compreende dados de mistura representativos da mistura dos N objetos de áudio com os M canais de áudio, e em que o decodificador de objetos (807) está disposto para gerar dados residuais para pelo menos um subconjunto dos N objetos de áudio em resposta aos dados de mistura e os parâmetros upmix de objetos de áudio, e para gerar os P sinais de áudio em resposta aos dados residuais.
13. MÉTODO PARA A CODIFICAÇÃO DE OBJETO DE ÁUDIO, caracterizado em que compreende: receber N objetos de áudio; misturar os N objetos de áudio com os M canais de áudio; obter K canais de áudio dos M canais de áudio onde K= 1 ou 2 e K<M; gerar parâmetros upmix de objetos de áudio para pelo menos parte de cada um dos N objetos de áudio relativos aos K canais de áudio; e gerar um fluxo de dados de saída compreendendo os parâmetros upmix de objetos de áudio e os M canais de áudio.
14. MÉTODO PARA A DECODIFICAÇÃO DE OBJETO DE ÁUDIO, caracterizado em que compreende: receber um fluxo de dados compreendendo dados de áudio para a mistura de um canal M de N objetos de áudio e parâmetros upmix de objetos de áudio para os N objetos de áudio relativos aos K canais de áudio onde K= 1 ou 2 e K<M; obter K canais de áudio a partir da mistura do canal M; e gerar P sinais de áudio dos N objetos de áudio pelo menos parcialmente gerados pelo upmix dos K canais de áudio com base nos parâmetros upmix de objetos de áudio.
BR112014010062-4A 2011-11-01 2012-10-29 Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio BR112014010062B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201161554007P 2011-11-01 2011-11-01
PCT/IB2012/055964 WO2013064957A1 (en) 2011-11-01 2012-10-29 Audio object encoding and decoding

Publications (3)

Publication Number Publication Date
BR112014010062A2 BR112014010062A2 (pt) 2017-06-13
BR112014010062A8 BR112014010062A8 (pt) 2017-06-20
BR112014010062B1 true BR112014010062B1 (pt) 2021-12-14

Family

ID=47520161

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112014010062-4A BR112014010062B1 (pt) 2011-11-01 2012-10-29 Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio

Country Status (8)

Country Link
US (1) US9966080B2 (pt)
EP (1) EP2751803B1 (pt)
JP (1) JP6096789B2 (pt)
CN (1) CN103890841B (pt)
BR (1) BR112014010062B1 (pt)
IN (1) IN2014CN03413A (pt)
RU (1) RU2618383C2 (pt)
WO (1) WO2013064957A1 (pt)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130315402A1 (en) 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
US9489954B2 (en) * 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
CN109887517B (zh) * 2013-05-24 2023-05-23 杜比国际公司 对音频场景进行解码的方法、解码器及计算机可读介质
UA112833C2 (uk) 2013-05-24 2016-10-25 Долбі Інтернешнл Аб Аудіо кодер і декодер
EP2830334A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830050A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
MY195412A (en) * 2013-07-22 2023-01-19 Fraunhofer Ges Forschung Multi-Channel Audio Decoder, Multi-Channel Audio Encoder, Methods, Computer Program and Encoded Audio Representation Using a Decorrelation of Rendered Audio Signals
US10141004B2 (en) * 2013-08-28 2018-11-27 Dolby Laboratories Licensing Corporation Hybrid waveform-coded and parametric-coded speech enhancement
EP3293734B1 (en) 2013-09-12 2019-05-15 Dolby International AB Decoding of multichannel audio content
EP3074970B1 (en) * 2013-10-21 2018-02-21 Dolby International AB Audio encoder and decoder
US10034117B2 (en) 2013-11-28 2018-07-24 Dolby Laboratories Licensing Corporation Position-based gain adjustment of object-based audio and ring-based channel audio
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
RU2704266C2 (ru) * 2014-10-31 2019-10-25 Долби Интернешнл Аб Параметрическое кодирование и декодирование многоканальных аудиосигналов
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
US9826332B2 (en) * 2016-02-09 2017-11-21 Sony Corporation Centralized wireless speaker system
US9924291B2 (en) 2016-02-16 2018-03-20 Sony Corporation Distributed wireless speaker system
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
US9924286B1 (en) 2016-10-20 2018-03-20 Sony Corporation Networked speaker system with LED-based wireless communication and personal identifier
US9854362B1 (en) 2016-10-20 2017-12-26 Sony Corporation Networked speaker system with LED-based wireless communication and object detection
US10075791B2 (en) 2016-10-20 2018-09-11 Sony Corporation Networked speaker system with LED-based wireless communication and room mapping
US10424307B2 (en) 2017-01-03 2019-09-24 Nokia Technologies Oy Adapting a distributed audio recording for end user free viewpoint monitoring
EP3740950B8 (en) * 2018-01-18 2022-05-18 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
EP3809709A1 (en) * 2019-10-14 2021-04-21 Koninklijke Philips N.V. Apparatus and method for audio encoding
US11443737B2 (en) 2020-01-14 2022-09-13 Sony Corporation Audio video translation into multiple languages for respective listeners

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
US8214221B2 (en) * 2005-06-30 2012-07-03 Lg Electronics Inc. Method and apparatus for decoding an audio signal and identifying information included in the audio signal
ATE542216T1 (de) * 2006-07-07 2012-02-15 Fraunhofer Ges Forschung Vorrichtung und verfahren zum kombinieren mehrerer parametrisch kodierter audioquellen
WO2008039038A1 (en) 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
CN101479787B (zh) * 2006-09-29 2012-12-26 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CA2874454C (en) * 2006-10-16 2017-05-02 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
AU2007312597B2 (en) 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
WO2008069594A1 (en) * 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2595150A3 (en) 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for coding multi-object audio signals
WO2008084427A2 (en) * 2007-01-10 2008-07-17 Koninklijke Philips Electronics N.V. Audio decoder
CA2645915C (en) * 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
RU2452043C2 (ru) 2007-10-17 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудиокодирование с использованием понижающего микширования
EP2212882A4 (en) * 2007-10-22 2011-12-28 Korea Electronics Telecomm SOUND CODING AND DECODING METHOD WITH SEVERAL OBJECTS AND DEVICE THEREFOR
KR101342425B1 (ko) * 2008-12-19 2013-12-17 돌비 인터네셔널 에이비 다중-채널의 다운믹싱된 오디오 입력 신호에 리버브를 적용하기 위한 방법 및 다중-채널의 다운믹싱된 오디오 입력 신호에 리버브를 적용하도록 구성된 리버브레이터
EP2420050B1 (en) * 2009-04-15 2013-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multichannel echo canceller
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
ES2644520T3 (es) 2009-09-29 2017-11-29 Dolby International Ab Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術

Also Published As

Publication number Publication date
EP2751803A1 (en) 2014-07-09
WO2013064957A1 (en) 2013-05-10
RU2014122111A (ru) 2015-12-10
US20140297296A1 (en) 2014-10-02
IN2014CN03413A (pt) 2015-07-03
EP2751803B1 (en) 2015-09-16
CN103890841A (zh) 2014-06-25
CN103890841B (zh) 2017-10-17
JP2014532901A (ja) 2014-12-08
BR112014010062A8 (pt) 2017-06-20
JP6096789B2 (ja) 2017-03-15
US9966080B2 (en) 2018-05-08
BR112014010062A2 (pt) 2017-06-13
RU2618383C2 (ru) 2017-05-03

Similar Documents

Publication Publication Date Title
BR112014010062B1 (pt) Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio
TWI463485B (zh) 音訊信號解碼器或編碼器、用以提供上混信號表示型態或位元串流表示型態之方法、電腦程式及機器可存取媒體
RU2643644C2 (ru) Кодирование и декодирование аудиосигналов
US9761229B2 (en) Systems, methods, apparatus, and computer-readable media for audio object clustering
TWI485699B (zh) 音訊信號訊框中事件槽位的編碼與解碼技術
JP5490143B2 (ja) ダウンミックスオーディオ信号をアップミックスするためのアップミキサー、方法、および、コンピュータ・プログラム
BRPI0816618B1 (pt) método e aparelho para gerar sinal de áudio binaural
BR112016001137B1 (pt) Decodificador de áudio, codificador de áudio, método para fornecer pelo menos quatro sinais de canal de áudio na base de uma representação codificada, e método para fornecer uma representação codificada na base de pelo menos quatro sinais de canal de áudio que usa uma extensão de largura de banda
BR112016001246B1 (pt) Upmix espacial controlado por renderizador
BR112012012097B1 (pt) aparelho para prover uma representação de sinal upmix com base na representação de sinal downmix, aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais, métodos e fluxo de bits representando um sinal de áudio de multicanais utilizando um parâmetro de combinação linear
BRPI0608756A2 (pt) codificador e decodificador de áudio de multicanais, método para codificar um sinal de áudio de n canais, sinal de áudio de multicanais codificado para um sinal de áudio de n canais, meio de armazenagem, transmissor para transmitir um sinal de aúdio de multicanais codificado, receptor para receber um sinal de áudio de multicanais, sistema de transmissão, métodos para transmitir e para receber um sinal de áudio de multicanais codificado, produto de programa de computador, gravador de áudio de multicanais, e, reprodutor de áudio de multicanais
CN107077861B (zh) 音频编码器和解码器
JP6888172B2 (ja) 音場表現信号を符号化する方法及びデバイス
ES2856423T3 (es) Decodificador de señal de audio MPEG-SAOC, codificador de señal de audio MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla descendente usando decodificación MPEG-SAOC, y programa informático que usa un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
BR112017006278B1 (pt) Método para aprimorar o diálogo num decodificador em um sistema de áudio e decodificador
BR112016001141B1 (pt) Codificador de áudio, decodificador de áudio e métodos que usam sinais residuais codificados em conjunto

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06I Publication of requirement cancelled [chapter 6.9 patent gazette]

Free format text: ANULADA A PUBLICACAO CODIGO 6.21 NA RPI NO 2540 DE 10/09/2019 POR TER SIDO INDEVIDA.

B15I Others concerning applications: loss of priority

Free format text: PERDA DA PRIORIDADE US 61/554,007 DE 01/11/2011 REIVINDICADA NO PCT/IB2012/055964, CONFORME AS DISPOSICOES PREVISTAS NA LEI 9.279 DE 14/05/1996 (LPI) ART. 16 7O, ITEM 28 DO ATO NORMATIVO 128/97 E NO ART. 29 DA RESOLUCAO INPI-PR 77/2013. ESTA PERDA SE DEU PELO FATO DE O DEPOSITANTE CONSTANTE DA PETICAO DE REQUERIMENTO DO PEDIDO PCT (?KONINKLIJKE PHILIPS N.V.?) SER DISTINTO DAQUELES QUE DEPOSITARAM A PRIORIDADE REIVINDICADA E NAO FOI APRESENTADO O DOCUMENTO COMPROBATORIO DE CESSAO NO PRAZO LEGAL, CONFORME AS DISPOSICOES PREVISTAS NA LEI 9.279 DE 14/05/1996 (LPI) ART. 16 6O, ITEM 27 DO ATO NORMATIVO 128/97 E NO ART. 2 DA RESOLUCAO INPI-PR 179/2017.

B12F Other appeals [chapter 12.6 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B09Y Publication of grant cancelled [chapter 9.1.2 patent gazette]

Free format text: ANULADA A PUBLICACAO CODIGO 9.1 NA RPI NO 2640 DE 10/08/2021 POR TER SIDO INDEVIDA, TENDO SIDO CONSTATADO QUE ESTA NOTIFICACAO FOI INDEVIDA, UMA VEZ QUE HA UM RECURSO DO REQUERENTE CONTRA A PERDA DE PRIORIDADE AINDA NAO JULGADO.

B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 29/10/2012, OBSERVADAS AS CONDICOES LEGAIS.