BR112016011988B1 - Decodificador, codificador e método de estimativa informada da percepção sonora em sistemas de codificação áudio baseada em objetos - Google Patents

Decodificador, codificador e método de estimativa informada da percepção sonora em sistemas de codificação áudio baseada em objetos Download PDF

Info

Publication number
BR112016011988B1
BR112016011988B1 BR112016011988-6A BR112016011988A BR112016011988B1 BR 112016011988 B1 BR112016011988 B1 BR 112016011988B1 BR 112016011988 A BR112016011988 A BR 112016011988A BR 112016011988 B1 BR112016011988 B1 BR 112016011988B1
Authority
BR
Brazil
Prior art keywords
audio
sound perception
signal
object signals
signals
Prior art date
Application number
BR112016011988-6A
Other languages
English (en)
Other versions
BR112016011988A2 (pt
Inventor
Jouni PAULUS
Sascha Disch
Harald Fuchs
Bernhard Grill
Oliver Hellmuth
Adrian Murtaza
Falko Ridderbusch
Leon Terentiv
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Publication of BR112016011988A2 publication Critical patent/BR112016011988A2/pt
Publication of BR112016011988B1 publication Critical patent/BR112016011988B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

DECODIFICADOR, CODIFICADOR E MÉTODO DE ESTIMATIVA INFORMADA DA PERCEPÇÃO SONORA EM SISTEMAS DE CODIFICAÇÃO ÁUDIO BASEADA EM OBJETOS. É apresentado um decodificador para gerar um sinal de saída áudio que compreende um ou mais canais de saída áudio. O decodificador compreende uma interface receptor (110) para receber um sinal de entrada áudio, que compreende uma pluralidade de sinais de objetos áudio, para receber informação de percepção sonora nos sinais de objetos áudio e para receber informação de representação que indica se um ou mais sinais de objetos áudio deverão ser amplificados ou atenuados. Além disso, o decodificador compreende um processador de sinal (120) para gerar um ou mais canais de saída áudio do sinal de saída áudio. O processador de sinal (120) está configurado para determinar um valor de compensação de percepção sonora dependendo da informação de percepção sonora e dependendo da informação de representação. Além disso, o processador de sinal (120) está configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio, dependendo da informação de representação e dependendo do valor de compensação de percepção sonora. Um ou mais sinais de objetos áudio de bypass são empregues para gerar o sinal de saída áudio. Além disso é apresentado um decodificador.

Description

[1] A presente invenção refere-se à codificação, processamento e descodificação de sinais áudio e particularmente a um decodificador, um codificador e método de estimativa informada da percepção sonora em sistemas de codificação áudio baseada em objetos.
[2] Recentemente têm sido propostas técnicas paramétricas de transmissão de taxa de bit eficiente/armazenamento de cenas áudio compreendendo múltiplos sinais de objetos áudio no domínio da codificação áudio [BCC, JSC, SAOC, SAOC1, SAOC2] e separação informada de fontes [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas procuram reconstruir uma cena áudio ou objeto fonte áudio com base em informação lateral adicional que descreve a cena áudio transmitida/armazenada e/ou os objetos fonte na cena áudio. Esta reconstrução decorre no decodificador, utilizando um esquema de separação informada da fonte. Os objetos reconstruídos podem ser combinados para produzir a cena áudio de saída. Dependendo da forma como os objetos são combinados, a sonoridade perceptual da cena de saída pode variar.
[3] Nas emissões de TV e rádio, os níveis de volume das faixas áudio dos vários programas pode ser normalizados com base em vários aspectos, tais como o nível de sinal de pico ou o nível de sonoridade. Dependendo das propriedades dinâmicas dos sinais, dois sinais com o mesmo nível de pico podem ter um nível completamente diferente de sonoridade perceptível. Nas trocas entre programas ou canais, as diferenças entre a percepção sonora do sinal são muito incómodas e têm vindo a ser uma fonte substancial de queixas da parte do utilizador final no âmbito das emissões.
[4] Na técnica anterior, foi proposto normalizar todos os programas em todos os canais de forma similar a um nível de referência comum, utilizando uma escala baseada na sonoridade perceptual do sinal. Uma recomendação neste sentido, na Europa, é a recomendação R128 [EBU] (doravante designada R128).
[5] A recomendação diz que a "percepção sonora do programa", por ex. a percepção sonora média durante um programa (ou publicidade ou outra entidade significativa) deve corresponder a um nível especificado (com pequenos desvios admissíveis). Com cada vez mais emissoras a respeitar esta recomendação e a normalização necessária, as diferenças de percepção sonora média entre programas e canais deve ser minimizada.
[6] A estimativa da percepção sonora pode ser executada de várias formas. Existem vários modelos matemáticos para estimar a percepção sonora de um sinal áudio. A recomendação EBU R128 baseia-se no modelo apresentado em ITU-R BS.1770 (posteriormente designado BS.1770) (vide [ITU]) para a estimativa da sonoridade.
[7] Como indicado anteriormente, por ex. de acordo com a recomendação EBU R128, a percepção sonora de um programa, por ex. a percepção sonora média ao longo de um programa deve corresponde a um nível especificado com pequenos desvios admissíveis. No entanto, este aspecto levanta problemas significativos quando se executa a renderização de áudio na técnica anterior e que até hoje ainda não tiveram solução. A execução de uma renderização de áudio do lado do decodificador tem um efeito significativo na percepção sonora global/total do sinal de entrada áudio recebido. No entanto, apesar de ser executada a renderização da cena, a percepção sonora total do sinal áudio recebido permanece igual.
[8] Atualmente não existe uma solução específica do lado do decodificador para este problema.
[9] A EP 2 146 522 A1 ( [EP]) refere-se a conceitos para a geração de sinais de saída áudio utilizando meta-dados baseados em objetos. É gerado pelo menos um sinal de saída de áudio representando uma sobreposição de pelo menos dois sinais de objetos áudio diferentes, mas não proporciona uma solução para este problema.
[10] A WO 2008/035275 A2 ( [BRE]) descreve um sistema áudio compreendendo um codificador que codifica objetos áudio em uma unidade codificadora que gera um downmix do sinal áudio e dados paramétricos que representa os vários objetos áudio. O downmix de sinal áudio e dados paramétricos é transmitido para um decodificador que compreende uma unidade decodificadora, a qual gera réplicas aproximadas dos objetos áudio e uma unidade de renderização que gera um sinal de saída a partir dos objetos áudio. O decodificador contém ainda um processador para a geração de dados de modificação codificadores, que é enviado para o codificador. O codificador depois modifica a codificação dos objetos áudio e, em particular, modifica os dados paramétricos em resposta aos dados de modificação da codificação. A abordagem permite a manipulação dos objetos áudio controlada pelo decodificador, mas executada na totalidade ou em parte pelo codificador. Assim, a manipulação pode ser executada nos objetos áudio independentes reais em vez de em réplicas aproximadas, proporcionando assim um melhor desempenho.
[11] A EP 2 146 522 A1 ( [SCH]) apresenta um aparelho para a geração de pelo menos um sinal de saída áudio, representando uma sobreposição de pelo menos dois diferentes objetos áudio, compreende um processador para o processamento de um sinal de entrada áudio para proporcionar uma representação do objeto do sinal de entrada áudio, podendo esta representação do objeto ser gerada por uma aproximação com orientação paramétrica dos objetos originais, utilizando um sinal downmix do objeto. Um manipulador do objeto manipula individualmente objetos, utilizando meta-dados baseados em objetos áudio, remetendo para os objetos áudio individuais para obter objetos áudio manipulados. Os objetos áudio manipulados são misturados utilizando um misturador de objetos para se obter finalmente um sinal de saída áudio com um ou vários sinais do canal, dependendo de uma configuração de renderização específica.
[12] A WO 2008/046531 A1 ( [ENG]) descreve um codificador de objetos áudio para a geração de um objeto codificado utilizando vários objetos áudio, incluindo um gerador de informação downmix para a geração de informação downmix, indicando uma distribuição de vários objetos áudio em pelo menos dois canais downmix, um gerador de parâmetros do objeto áudio para a geração de parâmetros de objeto para os objetos áudio e uma interface de saída para a geração do sinal de saída áudio importado utilizando a informação downmix e os parâmetros de objeto. Um sintetizador áudio utiliza a informação downmix para a geração de dados de saída utilizáveis para a criação de vários canais de saída da configuração de saída áudio predefinida.
[13] Seria desejável possuir uma estimativa precisa da percepção sonora média de saída ou da alteração da percepção sonora média sem demora e, quando o programa não altera ou a cena de renderização não é alterada, a percepção sonora média também deve permanecer estática.
[14] O objeto da presente invenção consiste em proporcionar conceitos melhorados de codificação, processamento e descodificação do sinal áudio. O objeto da presente invenção é solucionado com um decodificador de acordo com a reivindicação 1, por um codificador de acordo com a reivindicação 15, com um sistema de acordo com a reivindicação 18, com um método de acordo com a reivindicação 19, com um método de acordo com a reivindicação 20 e com um programa de computador de acordo com a reivindicação 21.
[15] É apresentada uma forma informada de estimativa da percepção sonora da saída em um sistema de codificação áudio baseada em objetos. Os conceitos fornecidos baseiam-se na informação da percepção sonora dos objetos na mistura áudio a ser fornecida ao decodificador. O decodificador utiliza esta informação conjuntamente com a informação de renderização para estimativa da percepção sonora do sinal de saída. Assim é possível, por exemplo, estimar a diferença de percepção sonora entre o downmix predefinido e a saída renderizada. É então possível compensar esta diferença de forma a obter aproximadamente uma percepção sonora constante à saída, independentemente da informação de renderização. A estimativa da percepção sonora no decodificador decorre de forma totalmente paramétrica e, em termos informáticos, é muito leve e precisa em comparação com os conceitos de estimativa da percepção sonora baseados em sinais.
[16] São apresentados conceitos de obtenção de informação sobre a percepção sonora da cena de saída específica utilizando conceitos puramente paramétricos, o que permite o processamento da percepção sonora sem estimativa explicita da percepção sonora baseada em sinais no decodificador. Além disso, é descrita a tecnologia específica da Codificação de Objeto Áudio Espacial (em inglês, Spatial Audio Object Coding - SAOC) normalizada por MPEG [SAOC], mas os conceitos apresentados podem ser utilizados também em conjunto com outras tecnologias de codificação de objetos áudio.
[17] É apresentado um decodificador para gerar um sinal de saída áudio que compreende um ou mais canais de saída áudio. O decodificador compreende uma interface receptor para receber um sinal de entrada áudio, que compreende uma pluralidade de sinais de objetos áudio, para receber informação de percepção sonora nos sinais de objetos áudio e para receber informação de renderização indicadora se um ou mais sinais de objetos áudio deverá ser amplificados ou atenuados. Além disso, o decodificador compreende um processador de sinal para gerar um ou mais canais de saída áudio do sinal de saída áudio. O processador de sinal está configurado para determinar um valor de compensação de percepção sonora dependendo da informação de percepção sonora e dependendo da informação de renderização. Além disso, o processador de sinal está configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio, dependendo da informação de renderização e dependendo do valor de compensação de percepção sonora.
[18] De acordo com uma realização, o processador de sinal pode ser configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação de renderização e dependendo do valor de compensação da percepção sonora, de tal modo que uma percepção sonora do sinal de saída áudio é igual a uma percepção sonora do sinal de entrada áudio ou de tal modo que a percepção sonora do sinal de saída é mais próxima da percepção sonora do sinal de entrada áudio comparativamente a uma percepção sonora de um sinal áudio modificado que resultaria da modificação de um sinal de entrada áudio ao amplificar ou atenuar os sinais de objetos áudio de acordo com a informação de renderização.
[19] De acordo com outra realização, cada sinal de objetos áudio do sinal de entrada áudio pode ser atribuído a exatamente um grupo de dois ou mais grupos, em que cada dos dois ou mais grupos pode compreender um ou mais sinais de objetos áudio do sinal de entrada áudio, Nesta realização, a interface receptora pode ser configurada para receber um valor de percepção sonora para cada grupo dos dois ou mais grupos da informação de percepção sonora, indicando o referido valor de percepção sonora uma percepção sonora total original de um ou mais sinais de objetos áudio do referido grupo. Além disso, a interface receptora pode ser configurada para receber a informação de renderização indicando quanto a pelo menos um grupo dos dois ou mais grupos se o um ou mais sinais de objetos áudio do referido grupo serão amplificados ou atenuados através da indicação de uma percepção sonora total modificada do um ou mais sinais de objetos áudio do referido grupo. Além disso, em uma realização assim, o processador de sinal pode ser configurado para determinar o valor de compensação de percepção sonora dependendo da percepção sonora total modificada de cada um do referido pelo menos um grupo dos dois ou mais grupos e dependendo da percepção sonora total original de cada um dos dois ou mais grupos. Além disso, o processador de sinal pode ser configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da percepção sonora total modificada de cada um do referido pelo menos um grupo dos dois ou mais grupos e dependendo do valor de compensação da percepção sonora.
[20] Em realizações particulares, pelo menos um grupo dos dois ou mais grupos pode compreender dois ou mais dos sinais de objetos áudio.
[21] Além disso é apresentado um codificador. O codificador compreende uma unidade de codificação baseada em objetos para codificar uma pluralidade de sinais de objetos áudio para obter um sinal áudio codificado que compreende a pluralidade de sinais de objetos áudio. Além disso, o codificador compreende uma unidade de codificação da percepção sonora do objeto para codificar a informação da percepção sonora nos sinais de objetos áudio. A informação da percepção sonora compreende um ou mais valores de percepção sonora, em que cada do ou de mais valores de percepção sonora dependem de um ou mais dos sinais de objetos áudio.
[22] De acordo com uma realização, cada um dos sinais de objetos áudio do sinal áudio codificado pode ser atribuído a exatamente um grupo de dois ou mais grupos, em que cada dos dois ou mais grupos compreende um ou mais dos sinais de objetos áudio do sinal áudio codificado. A unidade codificadora da percepção sonora do objeto pode ser configurada para determinar o um ou mais valores de percepção sonora da informação de percepção sonora através da determinação de um valor de percepção sonora para cada grupo dos dois ou mais grupos, em que o referido valor de percepção sonora do referido grupo indica uma percepção sonora total original do um ou mais sinais de objetos áudio do referido grupo.
[23] Além disso é apresentado um sistema. O sistema compreende um codificador de acordo com uma das realizações já descritas para a codificação de uma pluralidade de sinais de objetos áudio para obter um sinal áudio codificado compreendendo a pluralidade de sinais de objetos áudio e para codificação da informação de percepção sonora nos sinais de objetos áudio. Além disso, o sistema compreende um decodificador de acordo com uma das realizações já descritas para gerar um sinal de saída áudio que compreenda um ou mais canais de saída áudio. O decodificador está configurado para receber o sinal áudio codificado como um sinal de entrada áudio e a informação da percepção sonora. Além disso, o decodificador está configurado para receber ainda a informação de renderização. O decodificador está ainda configurado para determinar um valor de compensação de percepção sonora dependendo da informação de percepção sonora e dependendo da informação de renderização. Além disso, o decodificador está configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação de renderização e dependendo do valor de compensação da percepção sonora.
[24] Além disso, é apresentado método para gerar um sinal de saída áudio que compreende um ou mais canais de saída áudio. O método inclui:
[25] - Receber um sinal de entrada áudio compreendendo uma pluralidade de sinais de objetos áudio.
[26] - Receber informação da percepção sonora sobre os sinais de objetos áudio.
[27] - Receber informação de renderização indicando se um ou mais dos sinais de objetos áudios deverão ser amplificados ou atenuados.
[28] - Determinar um valor de compensação de percepção sonora dependendo da informação de percepção sonora e dependendo da informação de renderização, e
[29] - Gerar o um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio, dependendo da informação de renderização e dependendo do valor de compensação da percepção sonora.
[30] Além disso, é apresentado um método de descodificação. O método inclui:
[31] - Codificar um sinal de entrada áudio compreendendo uma pluralidade de sinais de objetos áudio, e
[32] - Codificar informação da percepção sonora sobre os sinais de objetos áudio, em que a informação de ruído compreende um ou mais valores da percepção sonora, em que cada do ou de mais valores da percepção sonora dependem em um ou mais dos sinais de objetos áudio.
[33] Além disso, é apresentado um programa de computador para implementar o método descrito acima quando executado em um computador ou processador de sinal.
[34] As realizações preferidas são apresentadas nas reivindicações dependentes.
[35] Seguidamente passa-se à descrição mais detalhada das realizações da presente invenção com referência às figuras, nas quais: ilustra um decodificador para gerar um sinal de saída áudio mais canais de saída áudio de acordo com uma ilustra ilustra um sistema de Codificação de Objeto Áudio Espacial compreendendo um codificador SAOC e um decodificador SAOC,
[36] Fig. 1 ilustra um decodificador para gerar um sinal de saída áudio que compreende um ou mais canais de saída áudio de acordo com uma realização,
[37] Fig. 2 ilustra um codificador de acordo com uma realização,
[38] Fig. 3 ilustra um sistema de acordo com uma realização,
[39] Fig. 4 ilustra um sistema de Codificação de Objeto Áudio Espacial compreendendo um codificador SAOC e um decodificador SAOC,
[40] Fig. 5 ilustra um decodificador SAOC compreendendo um decodificador de informação lateral, um separador de objetos e um renderizador,
[41] Fig. 6 ilustra um comportamento das estimativas da percepção sonora do sinal de saída em uma alteração da percepção sonora,
[42] Fig. 7 descreve a estimativa informada da percepção sonora de acordo com uma realização, ilustrando os componentes de um codificador e de um decodificador de acordo com uma realização,
[43] Fig. 8
[44] Fig. 9 uma realização compreende canais de bypass,
[45] Fig. 10 descreve uma primeira ilustração de uma alteração da percepção sonora medida e o resultado da utilização dos conceitos fornecidos para estimar a alteração na percepção sonora de forma paramétrica,
[46] Fig. 11 descreve uma segunda ilustração de uma alteração da percepção sonora medida e o resultado da utilização dos conceitos fornecidos para estimar a alteração na percepção sonora de forma paramétrica, e
[47] Fig. 12 ilustra outra realização para conduzir a compensação da percepção sonora.
[48] Antes de serem descritas as realizações preferidas de forma detalhada, são descritos a estimativa da percepção sonora, Codificação de Objeto Áudio Espacial (abreviatura em inglês SAOC) e Melhoramento do Diálogo (abreviatura do inglês DE).
[49] Descreve-se primeiro a estimativa da percepção sonora.
[50] Como já foi referido, a recomendação R128 EBU baseia-se no modelo apresentado em ITU-R BS.1770 para a estimativa da percepção sonora. Esta escala será empregue como um exemplo, mas os conceitos descritos abaixo podem também ser aplicados para outras medições da percepção sonora.
[51] A operação da estimativa da percepção sonora de acordo com a norma BS.1770 é relativamente simples e baseia-se nos seguintes passos principais [ITU]:
[52] - o sinal de entrada x (ou sinais no caso do sinal multicanal) é filtrado com um filtro K (uma combinação de um filtro shelving e um filtro passa alta) para se obter o(s) sinal/sinais y*.
[53] - é calculada a energia média quadrática z do sinal y*. <
[54] - no caso do sinal multicanal, é aplicada a ponderação do canal G* e são somados os sinais ponderados. A percepção sonora do sinal é então definida como sendo
Figure img0001
[55] com o valor constante c = -0.691. A saída é então expressa nas unidades de "LKFS" (em inglês, Loudness, K-weighted, relative to Full Scale, isto é Percepção sonora, Ponderação-K, relativa à escala total) que é similar à escala de decibéis.
[56] Na fórmula acima, Gi pode ser, por exemplo, igual a 1 para alguns dos canais, enquanto Gi pode, por exemplo, ser 1,41 para outros canais. Por exemplo, se forem considerados um canal esquerdo, um canal direito, um canal central, um canal surround esquerdo e um canal surround direito, as respectivas ponderações Gi podem ser, por exemplo, 1 para o canal esquerdo, direito e central e pode ser, por exemplo, 1,41 para o canal surround esquerdo e para o canal surround direito, ver [ITU].
[57] Como se pode ver, o valor da percepção sonora L está intimamente relacionado com o logaritmo da energia do sinal.
[58] Seguidamente descreve-se a Codificação de Objeto Áudio Espacial.
[59] Os conceitos de codificação áudio baseada em objetos permitem uma considerável flexibilidade do lado do decodificador da cadeia. Um exemplo de um conceito de codificação áudio baseada em objetos é a Codificação de Objeto Áudio Espacial (SAOC).
[60] A fig. 4 ilustra um sistema de Codificação de Objeto Áudio Espacial (SAOC) compreendendo um codificador SAOC 410 e um decodificador SAOC 420.
[61] O codificador SAOC 410 recebe N sinais de objetos áudio S1, ..., SN como entrada. Além disso, o codificador SAOC 410 recebe ainda instruções "informação de mistura D" sobre como estes objetos devem ser combinados para se obter um sinal downmix compreendendo os canais downmix M Xi, ..., XM. O codificador SAOC 410 extrai alguma informação lateral dos objetos e do processo de downmix e esta informação lateral é transmitira e/ou guardada juntamente com os sinais de downmix.
[62] Uma propriedade substancial do sistema SAOC consiste no fato de o sinal downmix X que compreende os canais downmix Xi, ..., XM formar um sinal significativo em termos semânticos. Por outras palavras, é possível ouvir o sinal downmix. Se, por exemplo, o receptor não possuir a funcionalidade do decodificador SAOC, o receptor pode, ainda assim, fornecer o sinal downmix como saída.
[63] A fig. 5 ilustra um decodificador SAOC compreendendo um decodificador de informação lateral 510, um separador de objetos 520 e um renderizador 530. O decodificador SAOC ilustrado pela fig. 5 recebe, por exemplo a partir de um codificador SAOC, o sinal downmix e a informação lateral. O sinal downmix pode ser considerado como um sinal de entrada áudio que compreende os sinais de objetos áudio, já que os sinais de objetos áudio são misturados com o sinal downmix (os sinais de objetos áudio são misturados dentro de um ou mais canais downmix do sinal downmix).
[64] O decodificador SAOC pode, por ex. tentar então reconstruir (virtualmente) os objetos originais, por ex. empregando o separador de objetos 520, por exemplo, utilizando a informação lateral descodificada. Estas reconstruções (virtuais) de objetos 1, , N, por ex. os sinais de objetos áudio reconstruídos, são então combinadas com base na informação de renderização, por ex. uma matriz de renderização R para produzir canais de saída áudio K Y1, ..., YK de um sinal de saída áudio Y.
[65] Em SAOC, é frequente os sinais de objetos áudio serem, por exemplo, reconstruídos, por ex. através do emprego de informação de covariância, por ex. uma matriz de covariância do sinal E, que é transmitida do codificador SAOC para o decodificador SAOC.
[66] Por exemplo, a fórmula seguinte pode ser empregue para reconstruir os sinais de objetos áudio no lado do decodificador: i= GX com G E DH (D E DH) -1
[67] em que N número de sinais de objetos áudio, Nsamples número de amostras consideradas de uns sinais de objetos áudio M número de canais downmix, X sinal áudio downmix, tamanho M x NSamples, D matriz de downmix, tamanho M x N E matriz de covariância do sinal, tamanho N x N definido como E = X XH $ sinais de objetos áudio N com reconstrução paramétrica, tamanho N x NSamples (•)H operador (hermitiano) auto-adjunto que representa a transposição do conjugado de (•).
[68] Depois, a matriz de renderização R pode ser aplicada nos sinais de objetos áudio reconstruídos S para obter os canais de saída áudio do sinal de saída áudio Y, por ex. de acordo com a fórmula: Y = Rs
[69] em que K número dos canais de saída áudio Y1, ..., YK do sinal de saída áudio Y. R matriz de renderização de tamanho K x N Y sinal de saída áudio compreendendo os canais de saída áudio K, tamanho K x NSamples.
[70] Na fig. 5, o processo de reconstrução do objeto, por ex. conduzido pelo separador de objetos 520, é referido com a noção "virtual" ou "opcional", dado que não tem necessariamente de ocorrer, mas a funcionalidade desejada pode ser obtida mediante combinação da reconstrução e as fases de renderização no domínio paramétrico (isto é, combinando as equações).
[71] Por outras palavras, em vez de reconstruir os sinais de objetos áudio utilizando a informação de mistura D e a informação de covariância E primeiro e depois aplicando a informação de renderização R nos sinais de objetos áudio reconstruídos para obter os canais de saída áudio Y1, ..., YK, ambos os passos podem ser conduzidos em um único passo, de forma que os canais de saída áudio Yi, ..., YK são gerados diretamente a partir dos canais downmix.
[72] Por exemplo, pode ser empregue a seguinte fórmula:
Figure img0002
[73] Em princípio, a informação de renderização R pode solicitar qualquer combinação dos sinais de objetos áudio originais. Na prática, contudo, as reconstruções de objetos podem compreender erros de reconstrução e a cena de saída solicitada não tem necessariamente de ser alcançada. Segundo uma regra geral que abrange muitos casos práticos, quanto mais a cena de saída solicitada difere do sinal de downmix, mais serão os erros de reconstrução audíveis.
[74] Segue-se uma descrição do melhoramento do diálogo (abreviatura do inglês DE). A tecnologia SAOC pode, por exemplo, ser empregue para concretizar o cenário. Deve-se ter em atenção que muito embora o nome "Melhoramento de diálogo" sugira uma concentração em sinais orientados para diálogo, o mesmo princípio é aplicado também com outros tipos de sinais.
[75] No cenário DE, os graus de liberdade no sistema são limitados a partir do caso geral.
[76] Por exemplo, os sinais de objetos áudio S1,"., SN S são agrupados (e possivelmente misturados) em dois meta-objetos de um objeto em primeiro S„„ plano (abreviatura do inglês, FGO) FFG0 e um objeto em fundo (abreviatura do inglês, BGO) S BGO .
[77] Além disso, a cena de saída Y1,".,YK Y assemelha-se ao sinal downmix X1,.",XM X X. Mais especificamente, ambos os sinais têm as mesmas dimensionalidades, isto é K XM e o utilizador final só pode controlar os níveis de mistura relativos dos dois meta-objetos FGO e BGO. Para ser mais exato, o sinal downmix é obtido através da mistura de FGO e BGO com os mesmos pesos escalares X X hFGO S FGO + hBGO S BGO ,
[78] e a cena de saída é obtida de forma similar com alguma ponderação escalar do FGO e BGO: Y X gFGO S FGO + gBGO S BGO .
[79] Dependendo dos valores relativos dos pesos de mistura, o equilíbrio entre FGO e BGO pode variar. Por exemplo, com a configuração
Figure img0003
[80] é possível aumentar o nível relativo do FGO na mistura. Se o FGO for o diálogo, esta configuração proporciona uma funcionalidade de melhoramento do diálogo.
[81] Como exemplo de caso de uso, o BGO pode ser os ruídos de um estádio e outros sons de fundo durante um evento desportivo e o FGO é a voz do comentador. A funcionalidade DE permite ao utilizador final amplificar ou atenuar o nível do comentador em relação ao fundo.
[82] As realizações são baseadas na descoberta de que a utilização da tecnologia SAOC (ou similar) em um cenário de emissão permite proporcionar ao utilizador final, funcionalidades de manipulação do sinal ampliadas. São fornecidas mais funcionalidades para além da alteração do canal e ajuste do volume de reprodução.
[83] Acima apresenta-se uma descrição breve de uma possibilidade de emprego da tecnologia DE. Se o sinal de emissão, sendo o sinal downmix para SAOC, é normalizado em termos de nível, por ex. de acordo com a norma R128, os diferentes programas possuem uma percepção sonora média similar quando não é aplicado o processamento (SAOC-) (ou a descrição de renderização for igual à descrição de downmix). No entanto, quando é aplicado algum processamento (SAOC-), o sinal de saída difere do sinal downmix predefinido e a percepção sonora do sinal de saída pode ser diferente da percepção sonora do sinal downmix predefinido. Do ponto de vista do utilizador final, esta situação pode levar a que a percepção sonora do sinal de saída entre canais ou programas possa apresentar novamente os saltos ou diferenças indesejadas. Por outras palavras, as vantagens da normalização aplicadas pela emissora perdem-se em parte.
[84] Este problema não é específico apenas do cenário SAOC ou DE mas pode ocorrer também com outros conceitos de codificação áudio que permitem ao utilizador final interagir com o conteúdo. No entanto, em muitos casos, não causa problema algum se o sinal de saída possuir uma percepção sonora diferente do que o downmix predefinido.
[85] Como já foi dito, uma percepção sonora total de um programa de sinal de entrada áudio deve corresponder a um nível especificado com pequenos desvios admissíveis. No entanto, como já foi enfatizado, esta situação levanta problemas significativos quando a renderização de áudio é conduzida, dado que a renderização tem um efeito significativo na percepção sonora global/total do sinal de entrada áudio recebido. No entanto, apesar de ser executada a renderização da cena, a percepção sonora total do sinal áudio recebido permanece igual.
[86] Uma abordagem consistiria em estimar a percepção sonora de um sinal enquanto este está a ser reproduzido e com um conceito de integração temporal apropriado, podendo a estimativa convergir para a verdadeira percepção sonora média ao fim de algum tempo. O tempo necessário para a convergência, porém, é problemático do ponto de vista do utilizador final. Quando a estimativa da percepção sonora se altera, mesmo sem que sejam aplicadas alterações ao sinal, a compensação de alteração da percepção sonora deve também reagir e alterar o seu comportamento. Este fato iria conduzir a um sinal de saída com percepção sonora média variável no tempo, o que pode dar uma sensação bastante incómoda.
[87] A fig. 6 ilustra um comportamento das estimativas da percepção sonora do sinal de saída em uma alteração da percepção sonora. Entre outros aspectos, é descrita uma estimativa da percepção sonora do sinal de saída com base no sinal, que ilustra o efeito de uma solução como a descrita. A estimativa aborda a estimativa correta com uma certa lentidão. Em vez de uma estimativa da percepção sonora do sinal de saída baseada no sinal, seria preferível uma estimativa informada da percepção sonora do sinal de saída que determina de imediato corretamente a percepção sonora do sinal de saída.
[88] Em particular, na fig. 6 o utilizador introduz, por ex. o nível do objeto de diálogo, altera um instante T aumentando o valor. O verdadeiro nível do sinal de saída, e de forma correspondente a percepção sonora, altera no mesmo instante. Quando a estimativa da percepção sonora do sinal de saída é executada a partir do sinal de saída com algum tempo de integração temporal, a estimativa irá alterar-se gradualmente e atingir o valor correto ao fim de um certo atraso. Durante este atraso, os valores de estimativa estão em alteração e não podem ser empregues com fiabilidade para continuar o processamento do sinal de saída, por ex. para a correção do nível de percepção sonora.
[89] Como já foi referido, seria desejável possuir uma estimativa precisa da percepção sonora média de saída ou da alteração da percepção sonora média sem demora e, quando o programa não altera ou a cena de renderização não é alterada, a percepção sonora média também deve permanecer estática. Por outras palavras, quando é aplicada alguma compensação da alteração da percepção sonora, o parâmetro de compensação só deve alterar-se quando ou o programa se altera ou existe alguma interação com o utilizador.
[90] O comportamento desejado encontra-se ilustrado na ilustração inferior da fig. 6 (estimativa informada da percepção sonora do sinal de saída). A estimativa da percepção sonora do sinal de saída altera-se imediatamente quando é alterada a entrada do utilizador.
[91] A fig. 2 ilustra um codificador de acordo com uma realização.
[92] O codificador compreende uma unidade de codificação 210 baseada em objetos para codificar uma pluralidade de sinais de objetos áudio para obter um sinal áudio codificado que compreende a pluralidade de sinais de objetos áudio.
[93] Além disso, o codificador compreende uma unidade de codificação da percepção sonora do objeto 220 para codificar a informação da percepção sonora nos sinais de objetos áudio. A informação da percepção sonora compreende um ou mais valores de percepção sonora, em que cada do ou de mais valores de percepção sonora dependem de um ou mais dos sinais de objetos áudio.
[94] De acordo com uma realização, cada um dos sinais de objetos áudio do sinal áudio codificado é atribuído a exatamente um grupo de dois ou mais grupos, em que cada dos dois ou mais grupos compreende um ou mais dos sinais de objetos áudio do sinal áudio codificado. A unidade codificadora da percepção sonora do objeto 220 está configurada para determinar o um ou mais valores de percepção sonora da informação de percepção sonora através da determinação de um valor de percepção sonora para cada grupo dos dois ou mais grupos, em que o referido valor de percepção sonora do referido grupo indica uma percepção sonora total original do um ou mais sinais de objetos áudio do referido grupo.
[95] A fig. 1 ilustra um decodificador para gerar um sinal de saída áudio que compreende um ou mais canais de saída áudio de acordo com uma realização.
[96] O decodificador compreende uma interface receptor 110 para receber um sinal de entrada áudio, que compreende uma pluralidade de sinais de objetos áudio, para receber informação de percepção sonora nos sinais de objetos áudio e para receber informação de renderização indicadora se um ou mais sinais de objetos áudio deverão ser amplificados ou atenuados.
[97] Além disso, o decodificador compreende um processador de sinal 120 para gerar um ou mais canais de saída áudio do sinal de saída áudio. O processador de sinal 120 está configurado para determinar um valor de compensação de percepção sonora dependendo da informação de percepção sonora e dependendo da informação de renderização. Além disso, o processador de sinal 120 está configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio, dependendo da informação de renderização e dependendo do valor de compensação de percepção sonora.
[98] De acordo com uma realização, o processador de sinal 110 está configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação de renderização e dependendo do valor de compensação da percepção sonora, de tal modo que uma percepção sonora do sinal de saída áudio é igual a uma percepção sonora do sinal de entrada áudio ou de tal modo que a percepção sonora do sinal de saída é mais próxima da percepção sonora do sinal de entrada áudio comparativamente a uma percepção sonora de um sinal áudio modificado que resultaria da modificação de um sinal de entrada áudio ao amplificar ou atenuar os sinais de objetos áudio de acordo com a informação de renderização.
[99] De acordo com outra realização, cada sinal de objetos áudio do sinal de entrada áudio é atribuído a exatamente um grupo de dois ou mais grupos, em que cada dos dois ou mais grupos pode compreender um ou mais sinais de objetos áudio do sinal de entrada áudio,
[100] Nesta realização, a interface receptora 110 é configurada para receber um valor de percepção sonora para cada grupo dos dois ou mais grupos da informação de percepção sonora, indicando o referido valor de percepção sonora uma percepção sonora total original de um ou mais sinais de objetos áudio do referido grupo. Além disso, a interface receptora 110 é configurada para receber a informação de renderização indicando quanto a pelo menos um grupo dos dois ou mais grupos se o um ou mais sinais de objetos áudio do referido grupo serão amplificados ou atenuados através da indicação de uma percepção sonora total modificada do um ou mais sinais de objetos áudio do referido grupo. Além disso, em uma realização assim, o processador de sinal 120 é configurado para determinar o valor de compensação de percepção sonora dependendo da percepção sonora total modificada de cada um do referido pelo menos um grupo dos dois ou mais grupos e dependendo da percepção sonora total original de cada um dos dois ou mais grupos. Além disso, o processador de sinal 120 é configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da percepção sonora total modificada de cada um do referido pelo menos um grupo dos dois ou mais grupos e dependendo do valor de compensação da percepção sonora.
[101] Em realizações particulares, pelo menos um grupo dos dois ou mais grupos compreende dois ou mais dos sinais de objetos áudio.
[102] Existe uma relação direta entre a energia ei de um sinal de objeto áudio i e a percepção sonora Li do sinal de objeto áudio i de acordo com as fórmulas:
Figure img0004
[103] em que c é um valor constante.
[104] As realizações baseiam-se nas seguintes descobertas: Sinais de objetos áudio diferentes do sinal de entrada áudio podem ter uma percepção sonora diferente e, portanto, uma energia diferente. Se, por ex., um utilizador desejar aumentar a percepção sonora de um dos sinais de objetos áudio, a informação de renderização pode ser ajustada de forma correspondente e o aumento da percepção sonora deste sinal de objeto áudio aumenta a energia deste objeto áudio. Deste modo alcançar-se-ia uma percepção sonora aumentada do sinal de saída áudio. Para manter constante a percepção sonora total, tem de ser executada uma compensação da percepção sonora. Por outras palavras, o sinal áudio modificado que resultaria da aplicação da informação de renderização no sinal de entrada áudio teria de ser ajustado. No entanto, o efeito exato da amplificação de um dos sinais de objetos áudio na percepção sonora total do sinal áudio modificado depende da percepção sonora original do sinal de objeto áudio amplificado, por ex. do sinal de objeto áudio, cuja percepção sonora é aumentada. Se a percepção sonora original deste objeto corresponde a uma energia que era consideravelmente baixa, o efeito na percepção sonora total do sinal de entrada áudio será menor. No entanto, se a percepção sonora original deste objeto corresponde a uma energia que era consideravelmente elevada, o efeito na percepção sonora total do sinal de entrada áudio será significativo.
[105] Podem ser considerados dois exemplos. Em ambos os exemplos, um sinal de entrada áudio compreende dois sinais de objetos áudio e em ambos os exemplos, a aplicação da informação de renderização aumenta a energia de um primeiro dos sinais de objetos áudio em 50 %.
[106] No primeiro exemplo, o primeiro sinal de objeto áudio contribui 20 % e o segundo sinal de objeto áudio contribui 80 % para a energia total do sinal de entrada áudio. No entanto, no segundo exemplo, o primeiro objeto áudio, o primeiro sinal de objeto áudio contribui 40 % e o segundo sinal de objeto áudio contribui 60 % para a energia total do sinal de entrada áudio. Em ambos os exemplos, estas contribuições podem ser derivadas da informação de percepção sonora nos sinais de objetos áudio, dado que existe uma relação direta entre a percepção sonora e a energia.
[107] No primeiro exemplo, um aumento de 50 % da energia do primeiro objeto áudio tem como resultado um sinal áudio modificado que é gerado através da aplicação da informação de renderização no sinal de entrada áudio com uma energia total de 1,5 x 20 % + 80 % = 110 % da energia do sinal de entrada áudio.
[108] No segundo exemplo, um aumento de 50 % da energia do primeiro objeto áudio tem como resultado o sinal áudio modificado que é gerado através da aplicação da informação de renderização no sinal de entrada áudio com uma energia total de 1,5 x 40 % + 60 % = 120 % da energia do sinal de entrada áudio.
[109] Assim, após aplicar a informação de renderização no sinal de entrada áudio, no primeiro exemplo, a energia total do sinal áudio modificado tem de ser reduzida apenas 9 % (10/110) para obter energia igual tanto no sinal de entrada áudio e no sinal de saída áudio, enquanto no segundo exemplo, a energia total do sinal áudio modificado tem de ser reduzida 17 % (20/120). Para este fim, pode ser calculado o valor de compensação da percepção sonora.
[110] Por exemplo, o valor de compensação da percepção sonora pode ser um valor escalar que é aplicado em todos os canais de saída áudio do sinal de saída áudio.
[111] De acordo com uma realização, o processador de sinal é configurado para gerar o sinal áudio modificado, modificando o sinal de entrada áudio ao amplificar ou atenuar os sinais de objetos áudio do sinal de entrada áudio, de acordo com a informação de renderização. Além disso, o processador de sinal é configurado para gerar o sinal de saída áudio, aplicando o valor de compensação de percepção sonora ao sinal áudio modificado, de modo a que a percepção sonora do sinal de saída áudio é igual à percepção sonora do sinal de entrada áudio ou de modo a que a percepção sonora do sinal de saída áudio é mais próxima da percepção sonora do sinal de entrada áudio comparativamente ao sinal áudio modificado.
[112] Por exemplo, no primeiro exemplo acima, o valor de compensação da percepção sonora lcv, pode, por exemplo, ser definido para um valor lcv = 10/11 e um fator de multiplicação de 10/11 pode ser aplicado em todos os canais que resultam da renderização dos canais de entrada áudio, de acordo com a informação de renderização.
[113] Assim, por exemplo, no segundo exemplo acima, o valor de compensação da percepção sonora lcv, pode, por exemplo, ser definido para um valor lcv = 10/12= 5/6, e um fator de multiplicação de 5/6 pode ser aplicado em todos os canais que resultam da renderização dos canais de entrada áudio, de acordo com a informação de renderização.
[114] Noutras realizações, cada um dos sinais de objetos áudio pode ser atribuído a um de entre vários grupos e um valor de percepção sonora pode ser transmitido para cada um dos grupos, indicando um valor de percepção sonora total dos sinais de objetos áudio do referido grupo. Se a informação de renderização especificar que a energia de um dos grupos é atenuada ou amplificada, por ex. amplificada em 50 %, como acima, pode ser calculado um aumento de energia total e pode ser determinado um valor de compensação de percepção sonora, como anteriormente descrito.
[115] Por exemplo, de acordo com uma realização, cada dos sinais de objetos áudio do sinal de entrada áudio ser atribuído a exatamente um grupo de exatamente dois grupos como os dois ou mais grupos. Cada um dos sinais de objetos áudio do sinal de entrada áudio ser atribuído a um grupo de objetos de primeiro plano dos dois grupos exatamente ou a um grupo de objetos de segundo plano dos dois grupos exatamente. A interface receptora 110 é configurada para receber a percepção sonora total original de um ou mais sinais de objetos áudio do grupo de objetos em primeiro plano. Além disso, a interface receptora 110 é configurada para receber a percepção sonora total original de um ou mais sinais de objetos áudio do grupo de objetos em fundo Além disso, a interface receptora 110 é configurada para receber a informação de renderização indicando quanto a pelo menos um grupo dos exatamente dois grupos se o um ou mais sinais de objetos áudio de cada um do referido pelo menos um grupo serão amplificados ou atenuados através da indicação de uma percepção sonora total modificada do um ou mais sinais de objetos áudio do referido grupo.
[116] Em uma realização assim, o processador de sinal 120 é configurado para determinar o valor de compensação de percepção sonora dependendo da percepção sonora total modificada de cada um do referido pelo menos um grupo, dependendo da percepção sonora total original do um ou mais sinais de objetos áudio do grupo de objetos em primeiro plano e dependendo da percepção sonora total original de um ou mais sinais de objetos áudio do grupo de objetos de fundo. Além disso, o processador de sinal 120 é configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da percepção sonora total modificada de cada um do referido pelo menos um grupo e dependendo do valor de compensação da percepção sonora.
[117] De acordo com algumas realizações, cada um dos sinais de objetos áudio é atribuído a um de três ou mais grupos e a interface receptora pode ser configurada para receber um valor de percepção sonora para cada um dos três ou mais grupos, indicando a percepção sonora total dos sinais de objetos áudio do referido grupo.
[118] De acordo com uma realização, para determinar o valor de percepção sonora total de dois ou mais sinais de objetos áudio, por exemplo o valor de energia correspondente ao valor da percepção sonora é determinado para cada sinal de objeto áudio, os valores de energia de todos os valores de percepção sonora são somados para obter uma soma de energia e o valor de percepção sonora correspondente à soma de energia é determinado como o valor de percepção sonora total de dois ou mais sinais de objetos áudio. Por exemplo, as seguintes fórmulas
Figure img0005
[119] podem ser empregues,
[120] Em algumas realizações, os valores da percepção sonora são transmitidos para cada um dos sinais de objetos áudio ou cada um dos sinais de objetos áudio é atribuído a um ou dois ou mais grupos, em que para cada um dos grupos, é transmitido um valor da percepção sonora.
[121] No entanto, em algumas realizações, para um ou mais sinais de objetos áudio ou para um ou mais dos grupos que compreendem sinais de objetos áudio, não é transmitido qualquer valor de percepção sonora. Ao invés, o decodificador pode, por exemplo, assumir que estes sinais de objetos áudio ou grupos de sinais de objetos áudio, para os quais não é transmitido qualquer valor de percepção sonora, possuem um valor de percepção sonora predefinido. O decodificador, por ex., pode basear todas as outras determinações neste valor da percepção sonora pré-definido.
[122] De acordo com uma realização, a interface receptora 110 está configurada para receber um sinal downmix que compreende um ou mais canais downmix como o sinal de entrada áudio, em que um ou mais canais downmix compreendem os sinais de objetos áudio e em que o número dos sinais de objetos áudio é inferior ao número de um ou mais canais downmix. A interface receptora 110 está configurada para receber informação downmix indicando como os sinais de objetos áudio são misturados em um ou mais canais downmix, mais ainda, o processador de sinal 120 está configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação downmix, dependendo da informação de reconstrução do sinal e dependendo do valor da percepção sonora. Em uma realização particular, o processador de sinal 120 pode, por exemplo, ser configurado para calcular o valor de compensação da percepção sonora dependendo da informação downmix.
[123] Por exemplo, a informação downmix pode ser uma matriz downmix. Em realizações, o decodificador pode ser um decodificador SAOC. Em realizações como estas, a interface receptora 110 pode, por ex., ser configurada para receber informação de covariância, por ex., uma matriz de covariância tal como acima descrito.
[124] No que respeita à informação de renderização que indica se um ou mais sinais de objetos áudio devem ser amplificados ou atenuados, deverá ter se em conta, por exemplo, que a informação que indica como um ou mais sinais de objetos áudio devem ser amplificados ou atenuados, é informação de renderização. Por exemplo, uma matriz de renderização R, por ex., uma matriz de renderização de SAOC, é informação de renderização.
[125] A fig. 3 ilustra um sistema de acordo com uma realização.
[126] O sistema compreende um codificador 310 de acordo com uma das realizações acima descritas para codificar uma pluralidade de sinais de objetos áudio para obter um sinal áudio codificado que compreenda uma pluralidade de sinais de objetos áudio.
[127] Mais ainda, o sistema compreende um decodificador 320 de acordo com uma das realizações acima descritas para gerar um sinal de saída áudio que compreenda um ou mais canais de saída áudio. O decodificador 320 é configurado para receber o sinal áudio codificado como um sinal de entrada áudio e para receber a informação da percepção sonora. Mais ainda, o decodificador 320 é configurado para receber ainda informação de renderização. Para além disso, o decodificador 320 é configurado para determinar um valor de compensação de percepção sonora, dependendo da informação da percepção sonora e dependendo da informação de renderização. Mais ainda, o decodificador 320 é configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação de renderização e dependendo do valor de compensação da percepção sonora.
[128] A fig. 7 ilustra a estimativa de percepção sonora informada de acordo com uma realização. À esquerda da corrente de transporte 730, são ilustrados componentes de um codificador de codificação áudio baseado em objetos. Em particular, uma unidade codificadora baseada em objetos 710 (“codificador áudio baseado em objetos”) e uma unidade codificadora da percepção de sonoridade do objeto 720 é ilustrada (“estimativa da percepção sonora do objeto”).
[129] A própria corrente de transporte 730 compreende informação da percepção sonora L, informação downmix D e a saída do codificador áudio baseado em objetos 710 B.
[130] À direita da corrente de transporte 730, são ilustrados componentes de um processador de sinal de um decodificador de codificação áudio baseado em objetos. A interface receptora do decodificador não se encontra ilustrada. São representados um estimador da percepção sonora de saída 740 e uma unidade decodificadora áudio baseada em objetos 750. O estimador da percepção sonora de saída 740 pode ser configurado para determinar o valor de compensação da percepção sonora. A unidade decodificadora áudio baseada em objetos 750 pode ser configurada para determinar um sinal áudio modificado a partir de um sinal áudio, ao ser introduzido no decodificador, aplicando a informação de renderização R. A aplicação do valor de compensação da percepção sonora no sinal áudio modificado para compensar uma alteração total da percepção sonora causada pela renderização não é apresentada na Fig. 7.
[131] A entrada para o codificador consiste nos objetos de entrada S no mínimo. O sistema estima a percepção sonora de cada objeto (ou outra informação relacionada com a percepção sonora, tais como as energias do objeto), por ex., pela unidade codificadora da percepção sonora do objeto 720 e esta informação L é transmitida e/ou armazenada. (É igualmente possível que a percepção sonora dos objetos seja facultada como uma entrada para o sistema e a fase de estimativa dentro do sistema pode ser omitida).
[132] Na realização da Fig. 7, o decodificador recebe, pelo menos, a informação da percepção sonora do objeto, por ex., a informação de renderização R descrevendo a mistura dos objetos para o sinal de saída. Com base nisto, por ex., o estimador da percepção sonora de saída 740 estima a percepção sonora do sinal de saída e faculta esta informação como sua saída.
[133] A informação downmix D pode ser facultada como a informação de renderização, em cujo caso a estimativa da percepção sonora apresenta uma estimativa da percepção sonora do sinal downmix. É igualmente possível apresentar a informação downmix como uma entrada para a estimativa da percepção sonora do objeto e para transmitir e/ou armazenar a mesma ao longo da informação da percepção sonora do objeto. A estimativa da percepção sonora do objeto pode então estimar simultaneamente a percepção sonora do sinal downmix e a saída renderizada e facultar estes dois valores ou suas diferenças como a informação da percepção sonora de saída. O valor de diferença (ou seu inverso) descreve a compensação necessária que deverá ser aplicada no sinal de saída renderizado para tornar a sua percepção sonora semelhante à percepção sonora do sinal downmix. A informação da percepção sonora do objeto pode adicionalmente incluir informação relativa aos coeficientes de correlação entre vários objetos e esta informação de correlação pode ser utilizada na estimativa da percepção sonora de saída para uma estimativa mais exata.
[134] Seguidamente, é descrita uma realização preferida para aplicação de reforço do diálogo.
[135] Na aplicação de reforço do diálogo, tal como acima descrito, os sinais de objeto áudio de entrada são agrupados e parcialmente submetidos a downmix para formar dois meta-objetos, FGO e BGO, os quais podem ser então trivialmente somados para se obter o sinal downmix final.
[136] No seguimento da descrição de SAOC [SAOC], sinais de objeto de entrada N são representados como uma matriz S do tamanho N x NSamples, e a informação downmix como uma matriz D do tamanho M x N. Os sinais downmix podem então ser obtidos como X = DS.
[137] A informação downmix D pode agora ser dividida em duas partes
[138] para os meta-objetos.
[139] Considerando que cada coluna da matriz D corresponde a um sinal de objeto áudio original, as duas matrizes downmix componentes podem ser obtidas definindo as colunas, as quais correspondem ao outro meta-objeto em zero (assumindo que não se encontra presente qualquer objeto original em ambos os meta-objetos). Por outras palavras, as colunas que correspondem ao meta-objeto BGO são definidas para zero DFGO, e vice-versa.
[140] Estas matrizes downmixig descrevem a forma como os dois meta- objetos podem ser obtidos a partir de objetos de entrada, nomeadamente:
Figure img0006
[141] e o downmix atual é simplificado para
Figure img0007
[142] Pode igualmente ser considerado que o decodificador do objeto (por ex., SAOC) tente reconstruir os meta-objetos:
Figure img0008
[143] e a renderização específica de DE pode ser escrita como uma combinação destas duas reconstruções de meta-objetos:
Figure img0009
[144] A estimativa da percepção sonora do objeto recebe os dois meta- objetos SFGO e SBGO como a entrada e estima a percepção sonora de cada um deles: LFGO sendo a percepção sonora (total/geral) de SFGO e LBGO sendo a - . S_ . , , _ _ percepção sonora (total/geral) de BGO . Estes valores da percepção sonora são transmitidos e/ou armazenados.
[145] Como uma alternativa, utilizando um dos meta-objetos, por ex.,o FGO, como referência, é possível calcular a diferença da percepção sonora destes dois objetos, por ex., como
Figure img0010
[146] Este valor único é depois transmitido e/ou armazenado.
[147] A fig. 8 ilustra um codificador de acordo com outra realização. O codificador da fig. 8 compreende um downmixer de um objeto 811 e um estimador de informação lateral do objeto 812. Para além disso, o codificador da fig. 8 compreende ainda uma unidade codificadora da percepção sonora do objeto 820. Mais ainda, o codificador da fig. 8 compreende um misturador de meta-objeto áudio 805.
[148] O codificador da fig. 8 utiliza meta-objetos áudio intermediários como uma entrada para a estimativa da percepção sonora do objeto. Em realizações, o codificador da fig. 8 pode ser configurado para gerar dois meta-objetos áudio. Em outras realizações, o codificador da fig. 8 pode ser configurado para gerar três ou mais meta-objetos áudio.
[149] Entre outros aspectos, os conceitos apresentados proporcionam a nova funcionalidade que consiste na possibilidade de o codificador, por ex., estimar a percepção sonora média de todos os objetos de entrada. Os objetos podem, por ex., ser misturados em um sinal downmix que é transmitido. Os conceitos apresentados proporcionam ainda a nova funcionalidade que consiste na possibilidade de a percepção sonora do objeto e a informação downmix ser, por ex., incluída na informação lateral de codificação do objeto que é transmitida.
[150] O decodificador pode, por ex., utilizar a informação lateral codificadora do objeto para separação (virtual) dos objetos e recombina os objetos utilizando a informação de renderização.
[151] Para além disso, os conceitos apresentados proporcionam a nova funcionalidade segundo a qual a informação downmix pode ser utilizada para estimar a percepção sonora do sinal downmix predefinida, a informação de renderização e a percepção sonora do objeto recebido podem ser utilizados para estimar a percepção sonora média do sinal de saída e/ou a alteração da percepção sonora pode ser estimada a partir destes dois valores. Ou, a informação downmix e de renderização pode ser utilizada para estimar a alteração da percepção sonora a partir do downmix predefinido, outra nova funcionalidade dos conceitos apresentados.
[152] Para além disso, os conceitos apresentados proporcionam a nova funcionalidade segundo a qual a saída do decodificador pode ser modificada para compensar a alteração na percepção sonora de modo a que a percepção sonora média do sinal modificado corresponda à percepção sonora média do downmix predefinido.
[153] É ilustrado, na Fig. 9, uma realização específica relacionada com SAOC-DE. O sistema recebe os sinais do objeto áudio de entrada, a informação downmix e a informação do agrupamento de objetos para meta-objetos. Com base nestes, o misturador de meta-objeto áudio 905 forma os dois meta-objetos SFGO e SBGO. É possível que a porção do sinal que é processado com SAOC não constitua o sinal inteiro. Por exemplo, em uma configuração de canal 5.1, SAOC pode ser implantado em um sub-grupo de canais, como no canal posterior (esquerda, direita e centro) enquanto os outros canais (som à esquerda, som à direita e efeitos de baixa frequência) são enviados, passando o SAOC e entregues como tal. Estes canais não processados por SAOC são assinalados com BYPASS. Os canais de bypass possíveis precisam ser fornecidos para o codificador para uma estimativa mais precisa da informação da percepção sonora.
[154] Os canais de bypass podem ser manuseados de várias formas.
[155] Por exemplo, os canais de bypass podem, por ex., formar um meta- objeto independente. Isto permite definir a renderização de modo a que todos os três meta-objetos sejam representados em escala de forma independente.
[156] Ou, por exemplo, os canais de bypass podem, por ex., ser combinados com um dos outros dois meta-objetos. As definições de renderização desse meta-objeto controlam igualmente a porção do canal de bypass. Por exemplo, no cenário de reforço de diálogo, pode ser significativo combinar os canais de bypass com o meta-objeto de segundo plano.
Figure img0011
[157] Ou, por exemplo, os canais de bypass podem, por ex., ser ignorados.
[158] De acordo com realizações, a unidade de codificação baseada em objetos 210 do codificador é configurada para receber os sinais de objetos áudio, em que cada um dos sinais de objetos áudio é atribuído a exatamente um de exatamente dois grupos, em que cada dos exatamente dois grupos compreende um ou mais dos sinais de objetos áudio. Mais ainda, em que a unidade de codificação baseada em objetos 210 está configurada para downmix os sinais de objetos áudio, sendo compreendida pelos exatamente dois grupos, para obter um sinal downmix que compreenda um ou mais canais áudio downmix como o sinal áudio codificado, em que o número de um ou mais canais downmix é inferior ao número dos sinais de objetos áudio sendo compreendido pelos exatamente dois grupos. A unidade de codificação da percepção sonora do objeto 220 é designada para receber um ou mais sinais de objetos áudio de bypass adicionais, em que cada um ou mais dos sinais de objetos áudio de bypass adicionais é atribuído a um terceiro grupo, em que cada de um ou mais dos sinais de objetos áudio de bypass adicionais não é compreendido pelo primeiro grupo e não é compreendido pelo segundo grupo, em que a unidade de codificação baseada em objetos 210 é configurada para não downmix um ou mais dos sinais de objetos áudio de bypass adicionais com o sinal downmix.
[159] Em uma realização, a unidade de codificação da percepção sonora do objeto 220 é configurada para determinar um primeiro valor de percepção sonora, um Segundo valor de percepção sonora e um terceiro valor de percepção Sonora da informação de percepção sonora, o primeiro valor da percepção sonora indicando uma percepção sonora total de um ou mais sinais de objetos áudio do primeiro grupo, o segundo valor da percepção sonora indicando uma percepção sonora total de um ou mais sinais de objetos áudio do segundo grupo e o terceiro valor da percepção sonora indicando uma percepção sonora total de um ou mais sinais de objetos áudio de bypass adicionais do terceiro grupo. Em uma outra realização, a unidade de codificação da percepção sonora do objeto 220 é configurada para determinar um primeiro valor de percepção sonora e um segundo valor da percepção Sonora da informação da percepção sonora, o primeiro valor da percepção sonora indicando uma percepção sonora total de um ou mais sinais de objetos áudio do primeiro grupo, o segundo valor da percepção sonora indicando uma percepção sonora total de um ou mais sinais de objetos áudio do segundo grupo e de um ou mais sinais de objetos áudio de bypass adicionais do terceiro grupo.
[160] De acordo com uma realização, a interface receptora 110 do decodificador é configurada para receber o sinal downmix. Mais ainda, a interface receptora 110 é configurada para receber um ou mais sinais de objetos áudio de bypass adicionais, em que um ou mais sinais de objetos áudio de bypass adicionais não se encontram misturados com o sinal downmix. Para além disso, a interface receptora 110 está configurada para receber a informação de ruído que indica informação sobre a percepção sonora dos sinais de objetos áudio, os quais se encontram misturados com o sinal downmix e indicam informação sobre a percepção sonora de um ou mais sinais de objetos áudio de bypass adicionais que não se encontram misturados com o sinal downmix. Mais ainda, o processador de sinal 120 é configurado para determinar o valor de compensação da percepção sonora dependendo da informação sobre a percepção Sonora dos sinais de objetos áudio, os quais se encontram misturados com o sinal downmix e que dependem da informação sobre a percepção sonora de um ou mais sinais de objetos áudio de bypass adicionais que não se encontram misturados com o sinal downmix.
[161] A fig. 9 ilustra um codificador e um decodificador de acordo com uma realização relacionada com o SAOC-DE, o qual compreende canais de bypass. Entre outros aspectos, o codificador da fig. 9 inclui um codificador SAOC 902.
[162] Na realização da fig. 9, a combinação possível dos canais bypass com os outros meta-objetos ocorre nos dois blocos de “inclusão de bypass” 913, 914, ... X X X X X™ X — . ..... . . . produzindo os meta-objetos FGO e BGO com as partes definidas dos canais de bypass incluídas.
[163] A percepção sonora LBYPASS, LFGO, e LBGO de ambos estes meta- objetos 'são estimadas nas unidades de estimativa de percepção sonora 921, 922, 923. Esta informação da percepção sonora é depois transformada em uma codificação apropriada em um estimador de informação da percepção sonora de um meta-objeto 925 e depois transmitida e/ou armazenada.
[164] O atual codificador e decodificador operam como esperado, extraindo a informação lateral do objeto dos objetos, criando o sinal downmix X, e transmitindo e/ou armazenando a informação para o decodificador. Os canais de bypass possíveis são transmitidos e/ou armazenados na restante informação para o decodificador.
[165] O decodificador SAOC-DE 945 recebe um valor de ganho, "ganho de Diálogo" como uma entrada do utilizador. Com base nesta entrada e informação downmix recebida, o decodificador SAOC 945 determina a informação de renderização. O decodificador SAOC 945 produz depois a cena de saída renderizada como o sinal Y. Adicionalmente, produz um fator ganho (e um valor ... X„„..„„ de atraso) que deveria ser aplicado nos possíveis sinais de bypass BYPASS.
[166] A unidade de “inclusão de bypass” 955 recebe esta informação juntamente com a cena de saída renderizada e os sinais de bypass e cria o sinal de cena de saída completo. O decodificador SAOC 945 produz igualmente um grupo de valores ganhos de meta-objetos, sendo que a quantidades destes depende do agrupamento de meta-objetos e forma de informação da percepção sonora desejada.
[167] Os valores de ganho são fornecidos para o estimador da percepção sonora de mistura 960, o qual recebe igualmente a informação da percepção sonora do meta-objeto a partir do decodificador.
[168] O estimador da percepção sonora de mistura 960 tem depois capacidade para determinar a informação da percepção sonora desejada, a qual pode incluir, mas sem que tal constitua qualquer limitação, a percepção sonora do sinal downmix, a percepção sonora da cena de saída renderizada e/ou a diferença na percepção sonora entre o sinal downmix e a cena de saída renderizada.
[169] Em algumas realizações, a própria informação da percepção sonora é suficiente, enquanto que em outras realizações, é desejável processa a saída completa dependendo da informação da percepção sonora determinada. Este processamento pode, por exemplo, ser compensação de qualquer diferença possível na percepção sonora entre o sinal downmix e a cena de saída de renderização. Um processamento deste tipo, por ex., por uma unidade de processamento de percepção sonora 970, faria sentido no cenário de transmissão, uma vez que reduziria as alterações na percepção sonora do sinal detectado independentemente da interação do utilizador (definição do "ganho de diálogo" de entrada).
[170] O processamento relacionado com a percepção sonora nesta realização específica compreende uma pluralidade de novas funcionalidades. Entre outros aspectos, o FGO, BGO e os possíveis canais de bypass são pré- misturados na configuração do canal final de modo a que o downmix possa ser realizado ao simplesmente se adicionar os dois sinais pré-misturados conjuntamente (por ex., coeficiente da matriz downmix de 1), a qual constitui uma nova funcionalidade. Mais ainda, como uma nova funcionalidade adicional, é estimada a percepção sonora média do FGO e BGO e é calculada a diferença. Para além disso, os objetos são misturados em um sinal downmix que é transmitido. Mais ainda, como uma nova funcionalidade adicional, a informação da diferença da percepção sonora é incluída na informação lateral que é transmitida (nova). Para além disso, o decodificador utiliza a informação lateral para separação (virtual) dos objetos e recombina os objetos utilizando a informação de renderização, a qual é baseada na informação downmix e no ganho de modificação de entrada do utilizador. Mais ainda, como outra nova funcionalidade, o decodificador utiliza o ganho de modificação e a informação da percepção sonora transmitida para estimar a alteração na percepção sonora média da saída do sistema comparativamente ao downmix pré-definido.
[171] Seguidamente, é facultada uma descrição formal das realizações.
[172] Assumindo que os valores da percepção sonora dos objetos têm um comportamento semelhante aos valores de energia quando se somam os objetos, i.e., os valores da percepção sonora devem ser transformados em domínio linear, aí adicionados e finalmente transformados de novo para o domínio logarítmico. A motivação desta situação através da definição da medida de percepção sonora BS.1770 irá ser agora apresentada (para efeitos de simplicidade, o número de canais é definido para um, mas o mesmo princípio pode ser aplicado a sinais multicanal com cálculos apropriados sobre os canais).
[173] A percepção sonora do ith sinal filtrado por K Zi com a energia quadrática média e é definida como
Figure img0012
[174] em que c e uma constante de deslocamento. Por exemplo, c pode ser -0,691. Deste modo, a energia do sinal pode ser determinada a partir da percepção sonora com
Figure img0013
[175] A energia da soma de N sinais não correlacionados
Figure img0014
Figure img0015
[176] e a percepção sonora deste sinal de soma é então
Figure img0016
[177] Se os sinais não estão não-correlacionados, os coeficientes de correlação Ci j , deverão ser considerados quando se aproxima a energia do sinal de soma como
Figure img0017
[178] em que a energia cruzada e,j entre ith e objetos j é definida como
Figure img0018
[179] em que 1 ,j é o coeficiente de correlação entre os dois objetos i e j. Quando dois objetos estão não-correlacionados, o coeficiente de correlação é igual a 0 e quando os dois objetos são idênticos, o coeficiente de correlação é igual a 1.
[180] Alargando mais o modelo com pesos misturados gi a ser aplicado aos sinais no processo de mistura, i.e.,
Figure img0019
a energia do sinal de soma será
Figure img0020
[181] e a percepção do sinal de mistura pode ser obtido a partir daqui, como anteriormente, com
Figure img0021
[182] A diferença entre a percepção sonora de dois sinais pode ser estimada como
Figure img0022
[183] Se a definição de percepção sonora é agora utilizada como anteriormente, tal pode ser escrito como
Figure img0023
[184] o que pode ser observado como uma função de energias de sinal. Deseja-se agora estimar a diferença de percepção sonora entre duas misturas
Figure img0024
[185] com pesos de mistura possivelmente diferentes gi e h, tal pode ser estimado com
Figure img0025
[186] No caso de os objetos serem não-correlacionados
Figure img0026
Figure img0027
a estimativa de diferença torna-se
Figure img0028
[187] Seguidamente, considera-se codificação diferencial.
[188] É possível codificar os valores de percepção sonora por objeto como diferenças da percepção sonora de um objeto de referência selecionado.
Figure img0029
[189] em que LREF é a percepção sonora do objeto de referência. Esta codificação é benéfica se não forem necessários valores absolutos de percepção sonora, porque é agora necessário transmitir um valor a menos e a estimativa da diferença da percepção sonora pode ser escrita como
Figure img0030
[190] ou no caso de objetos não correlacionados
Figure img0031
[191] Seguidamente é considerado um cenário de reforço de diálogo.
[192] Considerando uma vez mais o cenário de aplicação do reforço de diálogo. A liberdade de definir a informação de renderização no decodificador é apenas limitada na mudança de níveis dos meta-objetos. Vamos ainda assumir que os dois meta-objetos são não correlacionados, i.e., CFGO BGO , = 0 . Se os pesos downmix dos meta-objetos são hFGO e hBGO , e forem renderizados com os ganhos fFGO e fBGO , a percepção sonora da saída relativa ao downmix pré definido é
Figure img0032
[193] Esta é então a compensação necessária se se deseja ter a mesma percepção sonora na saída como no downmix pré-definido.
[194] ΔL(A, B) pode ser considerado como um valor de compensação de percepção sonora que pode ser transmitido pelo processador de sinal 120 do decodificador. ΔL(A, B) pode igualmente ser denominado como um valor de mudança de percepção sonora e, assim, o valor de compensação atual pode ser um valor inverso. Ou é correto utilizar o nome "fator de compensação de percepção sonora" para esta situação também? Deste modo, o valor de compensação de percepção sonora lcv mencionado anteriormente neste documento corresponderia ao valor gDelta abaixo. -AL (A, By
[195] Por exemplo,
Figure img0033
pode ser aplicada como um fator de multiplicação em cada canal de um sinal áudio modificado que resulta da aplicação da informação de renderização no sinal de entrada áudio. Esta equação para gDelta funciona no domínio linear. No domínio logarítmico, a equação seria diferente tal como 1 / ΔL(A, B) e aplicada em concordância.
[196] Se o processo downmix é simplificado de modo a que os meta-objetos possam ser misturados com pesos de unidade para se obter o sinal downmix, i.e.
Figure img0034
, FGO BBGo , e neste momento os ganhos de rendenzação para estes dois objetos são assinalados com gFGO e gBGO. Isto simplifica a equação para a alteração de percepção sonora em
Figure img0035
[197] Uma vez mais, ΔL(A, B) pode ser considerado como um valor de compensação de percepção sonora que é determinado pelo processador de sinal 120.
[198] De modo geral, gFGO pode ser considerado como um ganho de renderização para o objeto de primeiro plano FGO (grupo de objeto de primeiro plano) e gBGO pode ser considerado como um ganho de renderização para o objeto de segundo plano BGO (grupo de objeto de segundo plano).
[199] Tal como anteriormente mencionado, é possível transmitir diferenças de percepção sonora em vez de percepção sonora absoluta. Permitam-nos definir a percepção sonora de referência como a percepção sonora do meta- objeto FGO
Figure img0036
Figure img0037
Agora, a alteração da percepção sonora é
Figure img0038
[200] Também pode ser, tal como no caso do SAOC-DE, que dois meta- objetos não possuam fatores de escala individuais, mas um dos objetos é deixado não modificado enquanto o outro é atenuado para obter o rácio de mistura correta entre os objetos. Nesta definição de renderização, a saída será mais baixa em percepção sonora comparativamente à mistura pré-definida e a mudança na percepção sonora é
Figure img0039
[201] com
Figure img0040
[202] Esta forma é já mais simples a mais agnóstica relativamente à medida de percepção sonora utilizada. O único requisito real é, que os valores de percepção sonora deverão somar no domínio exponencial. É possível transmitir/armazenar valores de energias de sinal em vez de valores de percepção sonora, uma vez que os dois têm uma relação próxima.
[203] Em cada das fórmulas acima, ΔL(A, B) pode ser considerado como um valor de compensação de percepção sonora que pode ser transmitido pelo processador de sinal 120 do decodificador.
[204] Seguidamente, serão considerados casos de exemplo. A precisão dos conceitos facultados é ilustrada através de dois sinais de exemplo. Ambos os sinais têm um downmix 5.1 com o surround e canais LFE contornados pelo processamento SAOC.
[205] São utilizadas duas abordagens principais: uma ("3-períodos") com três meta-objetos: FGO, BGO e canais bypass, por ex.:
Figure img0041
[206] E outra ("2-períodos") com dois meta-objetos, por ex.:
Figure img0042
[207] Na abordagem de 2-períodos, os canais bypass podem, por ex., ser misturados conjuntamente com o BGO para a estimativa de percepção sonora do meta-objeto. A percepção sonora de ambos (ou todos os três) objetos assim como a percepção sonora do sinal downmix são estimadas e os valores são armazenados.
[208] As instruções de renderização são da forma
Figure img0043
[209] e
Figure img0044
[210] para as duas abordagens respectivamente.
[211] Os valores de ganho são, por ex., determinados de acordo com:
Figure img0045
[212] em que o ganho FGO gFGO é variado entre -24 e +24 dB.
[213] O cenário de saída é renderizado, a percepção sonora é medida e a atenuação da percepção sonora do sinal downmix é calculada.
[214] Este resultado é exibido na fig. 10 e fig. 11 com a linha azul com marcadores circulares. A fig. 10 representa uma primeira ilustração e a fig. 11 representa uma segunda ilustração de uma alteração de percepção sonora medida e o resultado de utilizar os conceitos facultados para estimar a alteração na percepção sonora em uma maneira puramente paramétrica.
[215] Seguidamente, a atenuação do downmix é estimada parametricamente empregando valores de percepção sonora de meta-objetos armazenados e o downmix e informação de renderização. A estimativa utilizando percepção sonora de três meta-objetos é ilustrada com a linha verde com marcadores quadrados e a estimativa utilizando a percepção sonora de dois meta-objetos é ilustrada com a linha vermelha com marcadores em estrela.
[216] Pode observar-se nas figuras que as abordagens de 2 períodos e 3- períodos apresentam resultados praticamente idênticos e ambas se aproximam bastante do valor medido.
[217] Os conceitos facultados exibem uma pluralidade de vantagens. Por exemplo, os conceitos facultados permitem estimar a percepção sonora de um sinal de mistura a partir da percepção dos sinais de componentes que formam a mistura. O benefício daí resultante é que a percepção sonora do sinal de componente pode ser estimado de uma vez e a estimativa da percepção sonora do sinal de mistura pode ser obtido parametricamente para qualquer mistura sem necessidade da estimativa de percepção sonora baseada no sinal atual. Isto oferece uma melhoria considerável na eficácia computacional de todo o sistema no qual a estimativa da percepção sonora de várias misturas é necessária. Por exemplo, quando o utilizador final altera as definições de renderização, a estimativa da percepção sonora da saída fica imediatamente disponível.
[218] Em algumas aplicações, tal como quando da adaptação à recomendação EBU R128, a percepção sonora média de todo o programa é importante. Se a estimativa da percepção sonora no receptor, por ex., em um cenário de transmissão, é realizada com base no sinal recebido, a estimativa converge para a percepção sonora média apenas depois de se receber o programa completo. Consequentemente, qualquer compensação da percepção sonora irá ter erros ou exibir variações temporais. Ao se estimar a percepção sonora de objetos de componente como proposto e ao se transmitir a informação da percepção sonora, é possível estimar a percepção sonora de mistura média no receptor sem um atraso.
[219] Caso se pretender que a percepção sonora média do sinal de saída permaneça (aproximadamente) constante independentemente das alterações na informação de renderização, os conceitos facultados permitem determinar um fator de compensação para esta razão. Os cálculos necessários para tal no decodificador são, na sua complexidade computacional, insignificantes e a funcionalidade é, deste modo, possível de ser adicionada a qualquer decodificador.
[220] Existem casos nos quais o nível de percepção sonora absoluta da saída não é importante, mas a importância assenta em determinar a alteração na percepção sonora a partir de uma cena de referência. Em tais casos, os níveis absolutos dos objetos não são importantes, mas os seus níveis relativos são importantes. Tal permite definir um dos objetos como o objeto de referência e representar a percepção sonora dos restantes objetos em relação à percepção sonora deste objeto de referência. Tal oferece alguns benefícios considerando o transporte e/ou armazenamento da informação de percepção sonora.
[221] Primeiro que tudo, não é necessário transportar o nível de percepção sonora de referência. No caso da aplicação dos dois meta-objetos, a quantidade de dados a transmitir é reduzida à metade. O segundo benefício refere-se à quantização possível e representação dos valores de percepção sonora. Considerando que os níveis absolutos dos objetos podem ser quase nada, os valores de percepção sonora absoluta podem igualmente ser quase nada. Os valores de percepção sonora relativa, por outro lado, são assumidos por ter uma média de 0 e uma distribuição mais agradavelmente formada à volta da média. A diferença entre as representações permite definir a grelha de quantização da representação relativa em uma forma com uma precisão potencialmente maior com o mesmo número de bits utilizado para a representação quantificada.
[222] A fig. 12 ilustra outra realização para conduzir compensação de percepção sonora. Na fig. 12, compensação de percepção sonora pode ser conduzida, por ex., para compensar a perda em percepção sonora, para este efeito, por ex., os valores DE_loudness_diff_dialogue (= KFGO) e DE_loudness_diff_background (= KBGO) de DE_control_info podem ser utilizados. Aqui, DE_control_info pode especificar informação de controlo de "Reforço de Diálogo" (DE) Áudio Limpo
[223] A compensação de percepção sonora é conseguida ao se aplicar um valor de ganho “g” no sinal de saída SAOC-DE e os canais submetidos a bypass (no caso de um sinal multicanal).
[224] Na realização da fig. 12, tal é realizado como segue:
[225] Um valor de ganho de modificação de diálogo limitado é utilizado para determinar os ganhos efetivos para o objeto de primeiro plano (FGO, por ex., diálogo) e para o objeto de segundo plano (BGO, por ex., ambiente). Tal é realizado pelo bloco “Mapa de ganhos” 1220, no qual produz os valores de ganho e .
[226] O bloco “Estimador de percepção sonora de saída” 1230 utiliza a informação de percepção sonora e, e os valores de ganho efetivos e para estimar esta alteração possível na percepção sonora comparativamente ao caso downmix pré-definido. A alteração é depois mapeada para o "fator de compensação de percepção sonora", o qual é aplicado nos canais de saída para produzir os "Sinais de Saída" finais.
[227] Os seguintes passos são aplicados para compensação de percepção sonora:
[228] Receber o valor de ganho limitado do decodificador SAOC-DE (tal como definido em cláusula 12.8 “Controlo da gama de modificação para SAOC- DE” [DE]), e determinar os ganhos FGO/BGO aplicados:
[229] Obter a informação de percepção sonora do meta-objeto e .
[230] Calcular a alteração na percepção sonora de saída comparativamente ao downmix predefinido com
Figure img0046
[231] Calcular o ganho de compensação da percepção sonora.
[232] - Calcular os fatores de escala, em que
Figure img0047
canais de saída. Na Fig. 12, o ajuste do ganho é dividido em duas fases: o ganho dos possíveis "canais bypass" é ajustado com mBGO antes de combinar os mesmos com os "canais de saída SAOC-DE ” e depois um ganho comum gA é então aplicado a todos os canais combinados. Isto é apenas uma possível reordenação das operações de ajuste de ganho, enquanto g aqui combina ambas as fases de ajuste de ganho em um ajuste de ganho.
[233] Aplicar os valores de escala nos canais áudio consistindo nos “canais de saída SAOC- DE” SAOC e os possíveis "canais bypass" alinhados no tempo
[234] Aplicar os valores de escala nos canais áudio é conduzido pela unidade de ajuste de ganho 1240.
[235] ΔL como acima calculada pode ser considerada como um valor de compensação de percepção sonora. De modo geral, mFGO indica um ganho de renderização para o objeto de primeiro plano FGO (grupo de objeto de primeiro plano) e mBGO indica um ganho de renderização para o objeto de segundo plano BGO (grupo de objeto de segundo plano).
[236] Embora tenham sido descritos alguns aspectos no contexto de um aparelho, torna-se claro que estes aspectos representam igualmente uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma fase do método ou uma funcionalidade de uma fase do método. Analogamente, aspectos descritos no contexto de uma fase do método representam igualmente uma descrição de um bloco correspondente ou item ou funcionalidade de um aparelho correspondente.
[237] O sinal decomposto inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão, tal como um meio de transmissão sem fios ou um meio de transmissão com fios, tal como Internet.
[238] Dependendo de determinados requisitos de implementação, as realizações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo um disquete, um DVD, um CD, ROM, PROM, EPROM, EEPROM ou uma memória FLASH, com sinais de controlo eletronicamente legíveis armazenados nos mesmos, os quais cooperam (ou têm capacidade de cooperar) com um sistema informático programável de modo a que o método respectivo seja executado.
[239] Algumas realizações, de acordo com a invenção, compreendem um veículo de dados não transitórios com sinais de controlo eletronicamente legíveis, os quais têm capacidade de cooperar com um sistema informático programável, de modo a que um dos métodos presentemente descrito seja executado.
[240] De modo geral, as realizações da presente invenção podem ser implementadas como um produto de programa informático com um código de programa, sendo o código de programa operativo para realizar um dos métodos quando o produto do programa informático correr em um computador. O código de programa pode, por exemplo, ser armazenado em um veículo legível por máquinas.
[241] Outras realizações compreendem o programa informático para realizar um dos métodos presentemente descritos, armazenado em um veículo legível por máquinas.
[242] Por outras palavras, uma realização do método inventivo é, por conseguinte, um programa informático com um código de programa para realizar um dos métodos presentemente descritos, quando o programa informático correr em um computador.
[243] Uma outra realização dos métodos inventivos é, por conseguinte, um veículo de dados (ou um meio de armazenamento digital, ou um meio legível por computador) que compreende, gravados no mesmo, o programa informático para realizar um dos métodos presentemente descritos.
[244] Uma outra realização do método da invenção é, por conseguinte, uma corrente de dados ou uma sequência de sinais que representam o programa informático para realizar um dos métodos presentemente descritos. A corrente de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida via uma conexão de comunicação de dados, por exemplo, através da Internet.
[245] Uma outra realização compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos presentemente descritos.
[246] Uma outra realização compreende um computador que tenha instalado o programa informático para realizar um dos métodos presentemente descritos.
[247] Em algumas realizações, um dispositivo lógico programável (por exemplo, uma matriz de portas de campo programável) pode ser utilizado para realizar algumas das ou todas as funcionalidades dos métodos presentemente descritos. Em algumas realizações, uma matriz de portas de campo programáveis pode cooperar com um microprocessador de modo a realizar um dos métodos presentemente descritos. De modo geral, os métodos são preferencialmente realizados por qualquer aparelho de hardware.
[248] As realizações acima descritas são meramente ilustrativas para os princípios da presente invenção. Compreende-se que modificações e variações das disposições e dos detalhes presentemente descritos serão evidentes para os especialistas na técnica. A intenção é, por conseguinte, limitarmo-nos apenas ao âmbito das reivindicações da patente iminente e não aos detalhes específicos apresentados em forma de descrição e explicação das realizações aqui compreendidas.
[249] Referências [BCC] C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications,” IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003. [EBU] EBU Recommendation R 128 “Loudness normalization and permitted maximum level of audio signals”, Geneva, 2011. [JSC] C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006. [1551] M. Parvaix and L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”, IEEE ICASSP, 2010. [1552] M. Parvaix, L. Girin, J.-M. Brossier: “A watermarking-based method for informed source separation of audio signals with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010. [1553] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: “Informed source separation through spectrogram coding and data embedding”, Signal Processing Journal, 2011. [1554] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source coding meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011. [1555] S. Zhang and L. Girin: “An Informed Source Separation System for Speech Signals”, INTERSPEECH, 2011. [1556] L. Girin and J. Pinel: “Informed Audio Source Separation from Compressed Linear Stereo Mixtures”, AES 42nd International Conference: Semantic Audio, 2011. [ITU] International Telecommunication Union: “Recommendation ITU-R BS.1770-3 - Algorithms to measure audio programme loudness and true- peak audio level”, Geneva, 2012. [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: “From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio”, 22nd Regional UK AES Conference, Cambridge, UK, April 2007. [SAOC2] J. Engdegârd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: “Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding”, 124th AES Convention, Amsterdam 2008. [SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2. [EP] EP 2146522 A1: S. Schreiner, W. Fiesel, M. Neusinger, O. Hellmuth, R. Sperschneider, ”Apparatus and method for generating audio output signals using object based metadata“, 2010. [DE] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC) - Amendment 3, Dialogue Enhancement,” ISO/IEC 23003-2:2010/DAM 3, Dialogue Enhancement. [BRE] WO 2008/035275 A2. [SCH] EP 2 146 522 A1. [ENG] WO 2008/046531 A1.

Claims (21)

1. Decodificador para gerar um sinal de saída áudio que compreende um ou mais canais de saída áudio, caracterizado por o decodificador incluir: uma interface receptora (110) para receber um sinal de entrada áudio que compreende uma pluralidade de sinais de objetos áudio, para receber informação de percepção sonora nos sinais de objetos áudio e para receber informação de renderização que indica como um ou mais sinais de objetos áudio deverão ser amplificados ou atenuados, e um processador de sinal (120) para gerar o um ou mais canais de saída áudio do sinal de saída áudio, em que o processador de sinal (120) está configurado para determinar um valor de compensação da percepção sonora, dependendo da informação sobre a percepção sonora e dependendo da informação de renderização, e em que o processador de sinal (120) está configurado para gerar o um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação de renderização e dependendo do valor de compensação da percepção sonora, em que o processador de sinal (120) está configurado para gerar o um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação de renderização e dependendo do valor de compensação da percepção sonora, de tal modo que uma percepção sonora do sinal de saída áudio é igual a uma percepção sonora do sinal de entrada áudio ou de tal modo que a percepção sonora do sinal de saída áudio é mais próxima da percepção sonora do sinal de entrada áudio do que uma percepção sonora de um sinal áudio modificado que resultaria da modificação do sinal de entrada áudio ao amplificar ou atenuar os sinais de objetos áudio do sinal de entrada áudio, de acordo com a informação de renderização.
2. Decodificador de acordo com a reivindicação 1, caracterizado por o processador de sinal (120) estar configurado para gerar o sinal áudio modificado, modificando o sinal de entrada áudio ao amplificar ou atenuar os sinais de objetos áudio do sinal de entrada áudio, de acordo com a informação de renderização, e por o processador de sinal (120) estar configurado para gerar o sinal de saída áudio, aplicando o valor de compensação de percepção sonora ao sinal áudio modificado, de modo a que a percepção sonora do sinal de saída áudio seja igual à percepção sonora do sinal de entrada áudio, ou de modo a que a percepção sonora do sinal de saída áudio seja mais próxima da percepção sonora do sinal de entrada áudio do que a percepção sonora do sinal áudio modificado.
3. Decodificador de acordo com a reivindicação 1 ou 2, caracterizado por cada sinal de objetos áudio do sinal de entrada áudio ser atribuído a exatamente um grupo de dois ou mais grupos, em que cada um dos dois ou mais grupos compreende um ou mais sinais de objetos áudio do sinal de entrada áudio, por a interface receptora (110) estar configurada para receber um valor de percepção sonora para cada grupo dos dois ou mais grupos como informação de percepção sonora, por o processador de sinal (120) estar configurado para determinar o valor de compensação de percepção sonora dependendo do valor de percepção sonora de cada um dos dois ou mais grupos, e por o processador de sinal (120) estar configurado para gerar o ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo do valor de compensação de percepção sonora.
4. Decodificador de acordo com a reivindicação 3, caracterizado por, pelo menos, um grupo dos dois ou mais grupos compreender dois ou mais dos sinais de objetos áudio.
5. Decodificador de acordo com a reivindicação 1 ou 2, caracterizado por cada um dos sinais de objetos áudio do sinal de entrada áudio ser atribuído a exatamente um grupo de mais de dois grupos, em que cada um dos mais de dois grupos compreende um ou mais dos sinais de objeto áudio do sinal de entrada áudio, por a interface receptora (110) estar configurada para receber um valor da percepção sonora para cada grupo dos mais de dois grupos como a informação da percepção sonora, por o processador de sinal (120) estar configurado para determinar o valor de compensação de percepção sonora dependendo do valor da percepção sonora de cada um dos mais de dois grupos, e por o processador de sinal (120) estar configurado para gerar o um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo do valor de compensação de percepção sonora.
6. Decodificador de acordo com a reivindicação 5, caracterizado por pelo menos um grupo dos mais de dois grupos compreender dois ou mais sinais dos objetos de áudio.
7. Decodificador de acordo com qualquer uma das reivindicações 3 a 6, caracterizado por o processador de sinal (120) estar configurado para determinar o valor de compensação de percepção sonora de acordo com a fórmula
Figure img0048
ou de acordo com a fórmula
Figure img0049
em que ΔL é o valor de compensação de percepção sonora, em que i indica um i-th do sinal do objeto áudio dos sinais do objeto áudio, em que Li é uma percepção sonora do i-th do sinal do objeto áudio, em que gi é um primeiro peso de mistura para o i-th sinal do objeto áudio, em que hi é um segundo peso de mistura para o i-th do sinal do objeto áudio, em que c é um valor constante, e em que N é um número.
8. Decodificador de acordo com qualquer uma das reivindicações 3 a 6, caracterizado por o processador de sinal (120) estar configurado para determinar o valor de compensação de percepção sonora de acordo com a fórmula
Figure img0050
em que ΔL indica o valor de compensação de percepção sonora, em que i indica um i-th do sinal do objeto áudio dos sinais do objeto áudio, em que gi é um primeiro peso de mistura para o i-th sinal do objeto áudio, em que hi é um segundo peso de mistura para o i-th do sinal do objeto áudio, em que N é um número, e em que K é definido de acordo com Ki = £ - £/;/ / , em que Li é uma percepção sonora do i-th do sinal do objeto áudio, e em que LREF é a percepção sonora de um objeto de referência.
9. Decodificador de acordo com a reivindicação 3 ou 4, caracterizado por em que cada um dos sinais de objetos áudio do sinal de entrada áudio é atribuído a exatamente um grupo de exatamente dois grupos como os dois ou mais grupos, em que cada um dos sinais de objetos áudio do sinal de entrada áudio é atribuído a um grupo do objeto de primeiro plano dos exatamente dois grupos ou a um grupo do objeto de segundo plano de exatamente dois grupos, em que a interface receptora (110) está configurada para receber o valor de percepção sonora do grupo do objeto de primeiro plano, em que a interface receptora (110) está configurada para receber o valor de percepção sonora do grupo do objeto de segundo plano, em que o processador de sinal (120) está configurado para determinar o valor de compensação de percepção sonora dependendo do valor de percepção sonora do grupo de objeto de primeiro plano, e dependendo do valor de percepção sonora do objeto de segundo plano, e em que o processador de sinal (120) está configurado para gerar o um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo do valor de compensação de percepção sonora.
10. Decodificador de acordo com a reivindicação 9, caracterizado por o processador de sinal (120) estar configurado para determinar um valor de compensação de percepção sonora de acordo com a fórmula
Figure img0051
em que ΔL indica o valor de compensação de percepção sonora, em que KFGO indica o valor da percepção sonora do grupo de objetos de primeiro plano, em que KBGO indica o valor da percepção sonora do grupo de objetos de segundo plano, em que mFGO indica um ganho de renderização do grupo de objetos de primeiro plano, e em que mBGO indica um ganho de renderização do grupo de objetos de segundo plano.
11. Decodificador de acordo com a reivindicação 9, caracterizado por o processador de sinal (120) estar configurado para determinar um valor de compensação de percepção sonora ΔL de acordo com a fórmula
Figure img0052
em que ΔL indica o valor de compensação de percepção sonora, em que LFGO indica o valor da percepção sonora do grupo de objetos de primeiro plano, em que LBGO indica o valor da percepção sonora do grupo de objetos de segundo plano, em que gFGO indica um ganho de renderização do grupo de objetos de primeiro plano, e em que gBGO indica um ganho de renderização do grupo de objetos de segundo plano.
12. Decodificador de acordo com qualquer uma das reivindicações 1 a 11, caracterizado por a interface receptora (110) estar configurada para receber um sinal downmix compreendendo um ou mais canais downmix como o sinal de entrada áudio, em que o um ou mais canais downmix compreendem os sinais do objeto áudio, e em que o número do um ou mais canais downmix é menor do que o número dos sinais do objeto áudio, em que a interface receptora (110) está configurada para receber informação downmix indicando como os sinais do objeto áudio são misturados no um ou mais canais downmix, e em que o processador de sinal (120) estar configurado para gerar o um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação downmix, dependendo da informação de renderização e dependendo do valor de compensação de percepção sonora.
13. Decodificador de acordo com a reivindicação 12, caracterizado por a interface receptora (110) estar configurada para receber um ou mais sinais do objeto áudio de bypass adicionais, em que o um ou mais sinais do objeto áudio de bypass adicionais não são misturados no sinal downmix, em que a interface receptora (110) está configurada para receber a informação de percepção sonora indicando informação sobre a percepção sonora dos sinais do objeto áudio que são misturados no sinal downmix e indicando informação sobre a percepção sonora de um ou mais sinais do objeto áudio de bypass que não são misturados no sinal downmix, e em que o processador de sinal (120) estar configurado para determinar o valor de compensação de percepção sonora dependendo da informação sobre a percepção sonora dos sinais do objeto áudio que são misturados no sinal downmix, e dependendo da informação sobre a percepção sonora de um ou mais sinais do objeto áudio bypass adicionais que não são misturados no sinal downmix.
14. Decodificador para gerar um sinal de saída áudio que compreende um ou mais canais de saída áudio, caracterizado por o decodificador incluir: uma interface receptora (110) para receber um sinal de entrada áudio que compreende uma pluralidade de sinais de objetos áudio, para receber informação de percepção sonora nos sinais de objetos áudio e para receber informação de renderização que indica se um ou mais sinais de objetos áudio deverão ser amplificados ou atenuados, e um processador de sinal (120) para gerar o um ou mais canais de saída áudio do sinal de saída áudio, em que o processador de sinal (120) está configurado para determinar um valor de compensação da percepção sonora dependendo da informação da percepção sonora e dependendo da informação de renderização, e em que o processador de sinal (120) está configurado para gerar o um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação de renderização e dependendo do valor de compensação da percepção sonora, em que a interface receptora (110) está configurada para receber um sinal downmix, que compreende um ou mais canais downmix como o sinal de entrada áudio, em que o um ou mais canais downmix compreendem os sinais de objetos áudio, e em que o número do um ou mais canais downmix é menor que o número dos sinais de objetos áudio, em que a interface receptora (110) está configurada para receber informação downmix indicando como os sinais de objetos áudio são misturados no um ou mais canais downmix, e em que o processador de sinal (120) está configurado para gerar o um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação downmix, dependendo da informação de renderização e dependendo do valor de compensação da percepção sonora, em que a interface receptora (110) está configurada para receber um ou mais sinais do objeto áudio bypass adicionais, em que o um ou mais sinais do objeto áudio bypass adicionais não estão misturados no sinal downmix, em que a interface receptora (110) está configurada para receber a informação de percepção sonora indicando informação sobre a percepção sonora dos sinais do objeto áudio que são misturados no sinal downmix e indicando informação sobre a percepção sonora do um ou mais sinais do objeto áudio bypass adicionais que não são misturados no sinal downmix, e em que o processador de sinal (120) está configurado para determinar o valor de compensação da percepção sonora dependendo da informação sobre a percepção sonora dos sinais de objetos áudio que estão misturados no sinal downmix, e dependendo da informação sobre a percepção sonora do um ou mais sinais do objeto áudio bypass adicionais que não estão misturados no sinal downmix.
15. Codificador, caracterizado por compreender: uma unidade de codificação baseada em objetos (210; 710) para codificar uma pluralidade de sinais de objetos áudio para obter um sinal áudio codificado que compreende a pluralidade de sinais de objetos áudio e uma unidade de codificação da percepção sonora do objeto (220; 720; 820) para codificar informação da percepção sonora nos sinais de objetos áudio, em que a informação da percepção sonora compreende um ou mais valores de percepção sonora, em que cada um do um ou mais valores de percepção sonora depende de um ou mais dos sinais de objetos áudio, em que cada um dos sinais de objetos áudio do sinal áudio codificado é atribuído a exatamente um grupo dos dois ou mais grupos, em que cada um dos dois grupos compreende um ou mais dos sinais de objetos áudio do sinal áudio codificado, em que pelo menos um grupo dos dois ou mais grupos compreende dois ou mais dos sinais de objeto áudio, em que a unidade de codificação da percepção sonora do objeto (220; 720; 820) está configurada para determinar o um ou mais valores de percepção sonora da informação da percepção sonora, determinando um valor de percepção sonora para cada grupo dos dois ou mais grupos, em que o dito valor da percepção sonora do dito grupo indica uma percepção sonora total do um ou mais sinais do objeto áudio do dito grupo.
16. Codificador caracterizado por compreender, uma unidade de codificação baseada em objetos (210; 710) para codificar uma pluralidade de sinais de objetos áudio para obter um sinal áudio codificado que compreende a pluralidade de sinais de objetos áudio, e uma unidade de codificação da percepção sonora do objeto (220; 720; 820) para codificar informação da percepção sonora nos sinais de objetos áudio, em que a informação da percepção sonora compreende um ou mais valores de percepção sonora, em que cada um do um ou mais valores de percepção sonora depende de um ou mais dos sinais de objetos áudio, em que unidade de codificação baseada em objetos (210; 710) está configurada para receber os sinais de objetos áudio, em que cada um dos sinais de objetos áudio é atribuído a exatamente um de exatamente dois grupos, em que cada um de exatamente dois grupos compreende um ou mais sinais de objetos áudio, em que pelo menos um grupo dos exatamente dois grupos compreende dois ou mais dos sinais do objeto áudio, em que a unidade de codificação com base no objeto (210; 710) está configurada para fazer o downmix dos sinais de objetos áudio, sendo compreendida pelos exatamente dois grupos, para obter um sinal downmix que compreenda um ou mais canais áudio downmix como o sinal áudio codificado, em que o número de um ou mais canais downmix é menor do que o número dos sinais de objetos áudio sendo compreendido pelos exatamente dois grupos, em que a unidade de codificação da percepção sonora do objeto (220; 720; 820) está configurada para receber um ou mais sinais de objetos áudio de bypass adicionais, em que cada um do um ou mais sinais de objetos áudio de bypass adicionais é atribuído a um terceiro grupo, em que cada um do um ou mais sinais de objetos áudio de bypass adicionais não é compreendido pelo primeiro grupo e não é compreendido pelo segundo grupo, em que a unidade de codificação com base no objeto (210; 710) está configurada para não proceder ao downmix do um ou mais sinais de objetos áudio de bypass adicionais no sinal downmix, e em que a unidade de codificação da percepção sonora do objeto (220; 720; 820) está configurada para determinar um primeiro valor da percepção sonora, um segundo valor da percepção sonora e um terceiro valor da percepção sonora da informação da percepção sonora, o primeiro valor da percepção sonora indica uma percepção sonora total de um ou mais sinais de objetos áudio do primeiro grupo, o segundo valor da percepção sonora indica uma percepção sonora total de um ou mais sinais de objetos áudio do segundo grupo e o terceiro valor da percepção sonora indica uma percepção sonora total de um ou mais sinais de objetos áudio de bypass adicionais do terceiro grupo, ou está configurada para determinar um primeiro valor da percepção sonora e um segundo valor da percepção sonora da informação da percepção sonora, o primeiro valor da percepção sonora indicando uma percepção sonora total do um ou mais sinais de objetos áudio do primeiro grupo e o segundo valor da percepção sonora indicando uma percepção sonora total do um ou mais sinais de objetos áudio do segundo grupo e do um ou mais sinais de objetos áudio de bypass adicionais do terceiro grupo.
17. Um sistema que caracterizado por compreender: um codificador (310) que compreende: uma unidade de codificação com base no objeto (210; 710) para codificar uma pluralidade de sinais de objetos áudio para obter um sinal áudio codificado que compreenda a pluralidade de sinais de objetos áudio, e uma unidade de codificação da percepção sonora do objeto (220; 720; 820) para codificar informação de percepção dos sinais do objeto áudio, em que a informação da percepção sonora compreende um ou mais valores de percepção sonora, em que cada um do um ou mais valores de percepção sonora depende de um ou mais dos sinais do objeto áudio, um decodificador (320) de acordo com qualquer uma das reivindicações 1 a 14 para gerar um sinal de saída áudio que compreenda um ou mais canais de saída áudio, em que o decodificador (320) está configurado para receber o sinal áudio codificado como um sinal de entrada áudio e para receber a informação da percepção sonora, em que o decodificador (320) está configurado para receber ainda a informação de renderização, em que o decodificador (320) está configurado para determinar um valor de compensação da percepção sonora dependendo da informação da percepção sonora e dependendo da informação de renderização, e em que o decodificador (320) está configurado para gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação de renderização e dependendo do valor de compensação da percepção sonora.
18. Método para gerar um sinal de saída áudio que compreende um ou mais canais de saída áudio, caracterizado por o método compreender: receber um sinal de entrada áudio compreendendo uma pluralidade de sinais de objetos áudio, receber informação de percepção sonora sobre os sinais do objeto áudio, receber informação de renderização indicando como um ou mais dos sinais de objetos áudios deverão ser amplificados ou atenuados, determinar um valor de compensação da percepção sonora dependendo da informação sobre a percepção sonora e dependendo da informação de renderização, e gerar o um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação de renderização e dependendo do valor de compensação da percepção sonora, em que a geração do um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio é conduzida dependendo da informação de renderização e dependendo do valor de compensação de percepção sonora, de modo que uma percepção sonora do sinal de saída áudio é igual a uma percepção sonora do sinal de entrada áudio, ou de modo que a percepção sonora do sinal de saída áudio está mais próxima da percepção sonora do sinal de entrada áudio do que uma percepção sonora de um sinal áudio modificado que resultaria da modificação do sinal de entrada áudio pela amplificação ou atenuação dos sinais do objeto áudio do sinal de entrada áudio de acordo com a informação de renderização.
19. Método para gerar um sinal de saída áudio que compreende um ou mais canais de saída áudio, caracterizado por o método incluir: recepção de um sinal de entrada áudio compreendendo uma pluralidade de sinais de objetos áudio, em que a recepção do sinal de entrada áudio é conduzida pela recepção de um sinal downmix compreendendo um ou mais canais downmix como o sinal de entrada áudio, em que o um ou mais canais downmix compreendem os sinais do objeto áudio, e em que o número do um ou mais canais downmix é menor do que o número dos sinais do objeto áudio, receber informação de renderização indicando se um ou mais dos sinais de objetos áudios deverão ser amplificados ou atenuados, receber informação downmix indicando como os sinais do objeto áudio são misturados no um ou mais canais downmix, receber um ou mais sinais do objeto áudio bypass adicionais, em que o um ou mais dos sinais do objeto áudio bypass adicionais não são misturados no sinal downmix, receber informação de percepção sonora sobre os sinais do objeto áudio, em que a informação da percepção sonora indica informação sobre a percepção sonora dos sinais do objeto áudio que são misturados no sinal downmix e indica informação sobre a percepção sonora do um ou mais sinais do objeto áudio bypass adicionais que não são misturados no sinal donwmix, e determinar um valor de compensação da percepção sonora dependendo da informação sobre a percepção sonora e dependendo da informação de renderização, em que a determinação do valor de compensação da percepção sonora é conduzida dependendo da informação sobre a percepção sonora dos sinais de objetos áudio que são misturados no sinal downmix, e dependendo da informação sobre a percepção sonora do um ou mais sinais de objeto áudio de bypass adicionais que não são misturados no sinal downmix, e gerar um ou mais canais de saída áudio do sinal de saída áudio a partir do sinal de entrada áudio dependendo da informação downmix, dependendo da informação de renderização e dependendo do valor de compensação da percepção sonora.
20. Método de codificação, caracterizado por compreender: codificação de uma pluralidade de sinais de objetos áudio para obter um sinal áudio codificado compreendendo a pluralidade de sinais do objeto áudio, e determinar a informação da percepção sonora sobre os sinais de objetos áudio, em que a informação de percepção sonora compreende um ou mais valores da percepção sonora, em que cada um do um ou mais valores da percepção sonora depende de um ou mais dos sinais de objetos áudio, em que a determinação do um ou mais valores da percepção sonora da informação de percepção sonora é conduzida pela determinação de um valor de percepção sonora para cada grupo dos dois ou mais grupos, em que o dito valor da percepção sonora do dito grupo indica uma percepção sonora total do um ou mais sinais dos objetos áudio do dito grupo, codificação da informação de percepção sonora sobre os sinais dos objetos áudio, em que cada um dos sinais de objetos áudio do sinal áudio codificado é atribuído a exatamente um de dois ou mais grupos, em que cada um dos dois ou mais grupos compreende um ou mais dos sinais de objetos áudio do sinal áudio codificado, em que pelo menos um grupo dos dois ou mais grupos compreende dois ou mais dos sinais do objeto áudio.
21. Método para codificação, caracterizado por compreender: receber os sinais do objeto áudio, em que cada um dos sinais do objeto áudio é atribuído a exatamente um grupo de exatamente dois grupos, em que cada um dos exatamente dois grupos compreende um ou mais dos sinais do objeto áudio, em que pelo menos um grupo dos exatamente dois grupos compreende dois ou mais dos sinais do objeto áudio, codificação da pluralidade de sinais de objetos áudio para obter um sinal áudio codificado compreendendo a pluralidade de sinais de objetos áudio pela realização do downmix dos sinais de objetos áudio, sendo compreendida pelos exatamente dois, para obter um sinal downmix compreendendo um ou mais canais áudio downmix como o sinal áudio codificado, em que o número do um ou mais canais downmix é menor do que o número dos sinais de objetos áudio sendo compreendido pelos exatamente dois grupos, determinar informação da percepção sonora dos sinais do objeto áudio, em que a informação da percepção sonora compreende um ou mais valores de percepção sonora, em que cada um do um ou mais valores de percepção sonora depende de um ou mais dos sinais do objeto áudio, determinando um primeiro valor de percepção sonora, um segundo valor de percepção sonora e um terceiro valor de percepção sonora, o primeiro valor de percepção sonora indicando uma percepção sonora total de um ou mais sinais do objeto áudio do primeiro grupo, o segundo valor de percepção sonora indicando uma percepção sonora total do um ou mais sinais do objeto áudio do segundo grupo, e o terceiro valor de percepção sonora indicando uma percepção sonora total do um ou mais sinais do objeto áudio bypass adicionais do terceiro grupo, ou determinando um primeiro valor de percepção sonora, um segundo valor de percepção sonora, o primeiro valor de percepção sonora indicando uma percepção sonora total de um ou mais sinais do objeto áudio do primeiro grupo, e o segundo valor de percepção sonora indicando uma percepção sonora total do um ou mais sinais do objeto áudio do segundo grupo e do um ou mais sinais do objeto áudio bypass adicionais do terceiro grupo, codificação da informação de percepção sonora sobre os sinais do objeto áudio, receber um ou mais sinais de objetos áudio de bypass adicionais, em que cada um do um ou mais sinais de objetos áudio de bypass adicionais é atribuído a um terceiro grupo, em que cada um ou mais sinais de objetos áudio de bypass adicionais não é compreendido pelo primeiro grupo e não é compreendido pelo segundo grupo, e não realizar o downmixing de um ou mais sinais de objetos áudio no sinal downmix.
BR112016011988-6A 2013-11-27 2014-11-27 Decodificador, codificador e método de estimativa informada da percepção sonora em sistemas de codificação áudio baseada em objetos BR112016011988B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13194664.2A EP2879131A1 (en) 2013-11-27 2013-11-27 Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
EP13194664.2 2013-11-27
PCT/EP2014/075787 WO2015078956A1 (en) 2013-11-27 2014-11-27 Decoder, encoder and method for informed loudness estimation in object-based audio coding systems

Publications (2)

Publication Number Publication Date
BR112016011988A2 BR112016011988A2 (pt) 2017-08-08
BR112016011988B1 true BR112016011988B1 (pt) 2022-09-13

Family

ID=49683543

Family Applications (2)

Application Number Title Priority Date Filing Date
BR112015019958-5A BR112015019958B1 (pt) 2013-11-27 2014-11-27 Descodificador, codificador e método de estimativa informada da percepção sonora empregando sinais de objetos de áudio de bypass em sistemas de codificação de áudio baseada em objetos
BR112016011988-6A BR112016011988B1 (pt) 2013-11-27 2014-11-27 Decodificador, codificador e método de estimativa informada da percepção sonora em sistemas de codificação áudio baseada em objetos

Family Applications Before (1)

Application Number Title Priority Date Filing Date
BR112015019958-5A BR112015019958B1 (pt) 2013-11-27 2014-11-27 Descodificador, codificador e método de estimativa informada da percepção sonora empregando sinais de objetos de áudio de bypass em sistemas de codificação de áudio baseada em objetos

Country Status (19)

Country Link
US (8) US9947325B2 (pt)
EP (3) EP2879131A1 (pt)
JP (2) JP6218928B2 (pt)
KR (2) KR101852950B1 (pt)
CN (4) CN105874532B (pt)
AR (2) AR098558A1 (pt)
AU (2) AU2014356467B2 (pt)
BR (2) BR112015019958B1 (pt)
CA (2) CA2931558C (pt)
ES (2) ES2666127T3 (pt)
HK (1) HK1217245A1 (pt)
MX (2) MX350247B (pt)
MY (2) MY196533A (pt)
PL (2) PL3074971T3 (pt)
PT (2) PT3074971T (pt)
RU (2) RU2672174C2 (pt)
TW (2) TWI569259B (pt)
WO (2) WO2015078964A1 (pt)
ZA (1) ZA201604205B (pt)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
ES2709117T3 (es) * 2014-10-01 2019-04-15 Dolby Int Ab Codificador y decodificador de audio
JP6564068B2 (ja) * 2015-02-02 2019-08-21 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化されたオーディオ信号を処理するための装置および方法
KR102465286B1 (ko) 2015-06-17 2022-11-10 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
AU2016279775A1 (en) * 2015-06-17 2018-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Loudness control for user interactivity in audio coding systems
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
CN112218229B (zh) 2016-01-29 2022-04-01 杜比实验室特许公司 用于音频信号处理的系统、方法和计算机可读介质
CN105741835B (zh) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
EP4322551A3 (en) * 2016-11-25 2024-04-17 Sony Group Corporation Reproduction apparatus, reproduction method, information processing apparatus, information processing method, and program
US11200882B2 (en) * 2017-07-03 2021-12-14 Nec Corporation Signal processing device, signal processing method, and storage medium for storing program
JP7123134B2 (ja) * 2017-10-27 2022-08-22 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. デコーダにおけるノイズ減衰
US11330370B2 (en) 2018-02-15 2022-05-10 Dolby Laboratories Licensing Corporation Loudness control methods and devices
EP3550561A1 (en) 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
EP3588988B1 (en) * 2018-06-26 2021-02-17 Nokia Technologies Oy Selective presentation of ambient audio content for spatial audio presentation
US11544032B2 (en) * 2019-01-24 2023-01-03 Dolby Laboratories Licensing Corporation Audio connection and transmission device
CN113366865B (zh) * 2019-02-13 2023-03-21 杜比实验室特许公司 用于音频对象聚类的自适应响度规范化
KR20220025107A (ko) * 2019-06-14 2022-03-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 매개변수 인코딩 및 디코딩
EP4022606A1 (en) * 2019-08-30 2022-07-06 Dolby Laboratories Licensing Corporation Channel identification of multi-channel audio signals
KR102390643B1 (ko) * 2019-10-10 2022-04-27 가우디오랩 주식회사 오디오 라우드니스 메타데이터 생성 방법 및 이를 위한 장치
US20220270626A1 (en) 2021-02-22 2022-08-25 Tencent America LLC Method and apparatus in audio processing
CN117837173A (zh) * 2021-08-27 2024-04-05 北京字跳网络技术有限公司 用于音频渲染的信号处理方法、装置和电子设备

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ZA921988B (en) * 1991-03-29 1993-02-24 Sony Corp High efficiency digital data encoding and decoding apparatus
US5699479A (en) * 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
CA2301547C (en) * 1997-09-05 2006-06-06 Lexicon 5-2-5 matrix encoder and decoder system
US7415120B1 (en) * 1998-04-14 2008-08-19 Akiba Electronics Institute Llc User adjustable volume control that accommodates hearing
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
EP1360798B1 (en) * 2001-02-06 2014-10-01 Polycom Israel Ltd. Control unit for multipoint multimedia/audio conference
US6852151B2 (en) * 2002-06-03 2005-02-08 Siemens Vdo Automotive Inc. Air cleaner and resonator assembly
US7631483B2 (en) * 2003-09-22 2009-12-15 General Electric Company Method and system for reduction of jet engine noise
JP5106115B2 (ja) * 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
JP4728031B2 (ja) * 2005-04-15 2011-07-20 株式会社日立製作所 リモートコピーペアの移行を行うシステム
KR100885700B1 (ko) * 2006-01-19 2009-02-26 엘지전자 주식회사 신호 디코딩 방법 및 장치
RU2426180C2 (ru) * 2006-04-04 2011-08-10 Долби Лэборетериз Лайсенсинг Корпорейшн Расчет и регулировка воспринимаемой громкости и/или воспринимаемого спектрального баланса звукового сигнала
JP5281575B2 (ja) * 2006-09-18 2013-09-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオオブジェクトのエンコード及びデコード
RU2407072C1 (ru) * 2006-09-29 2010-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
PL2068307T3 (pl) * 2006-10-16 2012-07-31 Dolby Int Ab Udoskonalony sposób kodowania i odtwarzania parametrów w wielokanałowym kodowaniu obiektów poddanych procesowi downmiksu
JP5302207B2 (ja) * 2006-12-07 2013-10-02 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
TWI443647B (zh) 2007-02-14 2014-07-01 Lg Electronics Inc 用以將以物件為主之音訊信號編碼與解碼之方法與裝置
RU2394283C1 (ru) * 2007-02-14 2010-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
WO2008120933A1 (en) * 2007-03-30 2008-10-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
US7825322B1 (en) 2007-08-17 2010-11-02 Adobe Systems Incorporated Method and apparatus for audio mixing
EP2238589B1 (en) * 2007-12-09 2017-10-25 LG Electronics Inc. A method and an apparatus for processing a signal
KR101596504B1 (ko) * 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
WO2010109918A1 (ja) * 2009-03-26 2010-09-30 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
WO2011061174A1 (en) * 2009-11-20 2011-05-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
US9111528B2 (en) * 2009-12-10 2015-08-18 Reality Ip Pty Ltd Matrix decoder for surround sound
RU2559899C2 (ru) 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
KR101615776B1 (ko) * 2010-05-28 2016-04-28 한국전자통신연구원 상이한 분석 단계를 사용하는 다객체 오디오 신호의 부호화 및 복호화 장치 및 방법
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
JP6185457B2 (ja) * 2011-04-28 2017-08-23 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
US9952576B2 (en) 2012-10-16 2018-04-24 Sonos, Inc. Methods and apparatus to learn and share remote commands
WO2014088328A1 (ko) * 2012-12-04 2014-06-12 삼성전자 주식회사 오디오 제공 장치 및 오디오 제공 방법
CN104885151B (zh) * 2012-12-21 2017-12-22 杜比实验室特许公司 用于基于感知准则呈现基于对象的音频内容的对象群集
CN203134365U (zh) * 2013-01-21 2013-08-14 杜比实验室特许公司 用于利用响度处理状态元数据处理音频的音频解码器
PL2901449T3 (pl) * 2013-01-21 2018-05-30 Dolby Laboratories Licensing Corp Koder i dekoder audio z metadanymi głośności i granicy programu
JP6192813B2 (ja) * 2013-05-24 2017-09-06 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
CN105531759B (zh) * 2013-09-12 2019-11-26 杜比实验室特许公司 用于下混合音频内容的响度调整
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
EP3127109B1 (en) * 2014-04-01 2018-03-14 Dolby International AB Efficient coding of audio scenes comprising audio objects

Also Published As

Publication number Publication date
RU2651211C2 (ru) 2018-04-18
CN105144287B (zh) 2020-09-25
TW201535353A (zh) 2015-09-16
US10497376B2 (en) 2019-12-03
US20180197554A1 (en) 2018-07-12
US11875804B2 (en) 2024-01-16
US10891963B2 (en) 2021-01-12
CN105874532B (zh) 2020-03-17
US20200058313A1 (en) 2020-02-20
CN112151049B (zh) 2024-05-10
US20210118454A1 (en) 2021-04-22
US20160254001A1 (en) 2016-09-01
TWI569260B (zh) 2017-02-01
TW201525990A (zh) 2015-07-01
WO2015078964A1 (en) 2015-06-04
MX2015013580A (es) 2016-02-05
AU2014356467A1 (en) 2016-06-09
BR112016011988A2 (pt) 2017-08-08
EP2879131A1 (en) 2015-06-03
US11423914B2 (en) 2022-08-23
US9947325B2 (en) 2018-04-17
EP2941771A1 (en) 2015-11-11
JP2016520865A (ja) 2016-07-14
ES2629527T3 (es) 2017-08-10
CA2900473C (en) 2018-01-30
KR101852950B1 (ko) 2018-06-07
AU2014356467B2 (en) 2016-12-15
MY196533A (en) 2023-04-19
KR101742137B1 (ko) 2017-05-31
RU2015135181A (ru) 2017-02-27
PL2941771T3 (pl) 2017-10-31
BR112015019958B1 (pt) 2021-12-14
CN111312266A (zh) 2020-06-19
CN111312266B (zh) 2023-11-10
EP3074971B1 (en) 2018-02-21
MX358306B (es) 2018-08-14
US10699722B2 (en) 2020-06-30
AU2014356475B2 (en) 2016-08-18
US20220351736A1 (en) 2022-11-03
AR098558A1 (es) 2016-06-01
CA2900473A1 (en) 2015-06-04
MX2016006880A (es) 2016-08-19
AU2014356475A1 (en) 2015-09-03
AR099360A1 (es) 2016-07-20
CA2931558C (en) 2018-11-13
RU2016125242A (ru) 2018-01-09
MY189823A (en) 2022-03-10
EP2941771B1 (en) 2017-03-29
US11688407B2 (en) 2023-06-27
US20150348564A1 (en) 2015-12-03
JP2017502324A (ja) 2017-01-19
BR112015019958A2 (pt) 2017-07-18
KR20150123799A (ko) 2015-11-04
MX350247B (es) 2017-08-31
JP6346282B2 (ja) 2018-06-20
PT2941771T (pt) 2017-06-30
TWI569259B (zh) 2017-02-01
CN112151049A (zh) 2020-12-29
EP3074971A1 (en) 2016-10-05
ES2666127T3 (es) 2018-05-03
CA2931558A1 (en) 2015-06-04
KR20160075756A (ko) 2016-06-29
US20200286496A1 (en) 2020-09-10
CN105144287A (zh) 2015-12-09
HK1217245A1 (zh) 2016-12-30
US20230306973A1 (en) 2023-09-28
PT3074971T (pt) 2018-05-25
RU2672174C2 (ru) 2018-11-12
JP6218928B2 (ja) 2017-10-25
ZA201604205B (en) 2017-11-29
CN105874532A (zh) 2016-08-17
WO2015078956A1 (en) 2015-06-04
PL3074971T3 (pl) 2018-07-31

Similar Documents

Publication Publication Date Title
BR112016011988B1 (pt) Decodificador, codificador e método de estimativa informada da percepção sonora em sistemas de codificação áudio baseada em objetos
BR112012007138B1 (pt) Decodificador de sinal de áudio, codificador de sinal de áudio, método para prover uma representação de mescla ascendente de sinal, método para prover uma representação de mescla descendente de sinal e fluxo de bits usando um valor de parâmetro comum de correlação intra- objetos
BR112015017094B1 (pt) Aparelho e método para codificação de objeto de áudio espacial empregando objetos ocultos para manipulação da mistura de sinal

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 27/11/2014, OBSERVADAS AS CONDICOES LEGAIS