BR122018072508B1 - Codificação paramétrica conjunta de fontes de áudio - Google Patents
Codificação paramétrica conjunta de fontes de áudio Download PDFInfo
- Publication number
- BR122018072508B1 BR122018072508B1 BR122018072508-7A BR122018072508A BR122018072508B1 BR 122018072508 B1 BR122018072508 B1 BR 122018072508B1 BR 122018072508 A BR122018072508 A BR 122018072508A BR 122018072508 B1 BR122018072508 B1 BR 122018072508B1
- Authority
- BR
- Brazil
- Prior art keywords
- audio
- source signals
- parameters
- source
- signals
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/13—Application of wave-field synthesis in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
Abstract
o seguinte cenário de codificação é abordado: diversos sinais de fonte de áudio precisam ser transmitidos ou armazenados para fins de mixagem de síntese de campo de onda, sinais surround de multicanais ou sinais estéreos após a decodificação dos sinais de fonte. a técnica proposta oferece significativo ganho de codificação ao se realizar a codificação conjunta dos sinais de fonte em comparação à codificação separada destes, mesmo quando nenhuma redundância estiver presente entre os sinais de fonte. isto é possível considerando as propriedades estatísticas dos sinais de fonte, as propriedades das técnicas de mixagem e a audição espacial. a soma dos sinais de fonte é transmitida com as propriedades estatísticas dos sinais de fonte que predominantemente determinam os cues espaciais perceptivelmente importantes dos canais de áudio finais mixados. os sinais de fonte são recuperados no receptor, de modo que suas propriedades estatísticas se aproximem das propriedades correspondentes dos sinais de fonte originais. avaliações subjetivas indicam que a alta qualidade de áudio é obtida utilizando-se o esquema proposto.
Description
[001] Em um problema de codificação geral, temos diversos sinais de fonte (mono) sk(n) (1 <i <M) e um vetor de descrição de cena S(n), onde n é o índice de tempo. O vetor de descrição de cena contém parâmetros, por exemplo posições de fonte (virtuais), larguras de fonte e parâmetros acústicos, por exemplo, parâmetros de espaço (virtuais). A descrição de cena pode ser invariável no tempo ou pode mudar no decorrer do tempo. Os sinais de fonte e a descrição de cena são codificados e transmitidos para um decodificador. Os sinais de fonte codificados, Pi(n) são sucessivamente mixados em função da descrição de cena, JP (n), para gerar síntese de campo de onda, sinais de multicanais ou sinais estéreos em função do vetor de descrição de cena. Os sinais de saída do decodificador são
denominados | •Üi (n) | (0 <i <N) . | Deve | ser observado | que o | vetor | de |
descrição de | cena | S(n) pode | não ser transmitido, | porém | pode | ser | |
determinado | no decodificador. | Neste | documento, o | termo | “sinal | de |
áudio estéreo” sempre se refere a sinais de áudio estéreos de dois canais.
[002] ISO/IEC MPEG-4 aborda o cenário de codificação descrito. Define a descrição de cena e utiliza, para cada sinal de fonte (“natural”), um codificador de áudio mono separado, por exemplo, um codificador de áudio AAC. No entanto, quando uma cena complexa com várias fontes precisar ser mixada, a taxa de bits se torna alta, ou seja, a taxa de bits aumenta com o número de fontes. A codificação de um sinal de fonte com alta qualidade requer aproximadamente 60 - 90 kb/s.
Petição 870190003565, de 11/01/2019, pág. 4/32
2/29 [003] Anteriormente, abordamos um caso especial do problema de codificação descrito [1] [2] com um esquema denominado Binaural Cue Coding (BCC) para Flexible Rendering. Ao transmitir somente a soma de determinados sinais de fonte mais as informações colaterais de baixa taxa de bits, a baixa taxa de bits é alcançada. No entanto, os sinais de fonte não podem ser recuperados no decodificador e o esquema foi limitado à geração de sinal surround estéreo e de multicanais. Também, foi somente utilizada uma mixagem simplista baseada na amplitude e variação gradual de retardo. Assim, a direção das fontes poderia ser controlada, porém nenhum outro atributo de imagem espacial de audição. Outra limitação desse esquema foi sua limitada qualidade de áudio. Em especial, uma diminuição da qualidade de áudio conforme o número de sinais de fonte aumenta.
[004] O documento [1], (Binaural Cue Coding, Estéreo
Paramétrico, MP3 Surround, MPEG Surround) abrange o caso onde N canais de áudio são codificados e N canais de áudio com cues similares e então os canais de áudio originais são decodificados. As informações colaterais transmitidas incluem parâmetros de cue intercanais relacionados às diferenças entre os canais de entrada.
[005] | Os canais | de sinais | de áudio | estéreo | e de | |
multicanais | contêm mixagens | de sinais | de | fontes de áudio e são | assim | |
diferentes, | em termos de | natureza, | dos | sinais de | fonte de | áudio |
puros. Os sinais de áudio | estéreo e | de | multicanais | são mixados de |
modo que, quando reproduzidos em um sistema de playback apropriado, o ouvinte perceberá uma imagem espacial de audição (“estágio de som”) conforme é capturado pela configuração de gravação ou designado pelo engenheiro de gravação durante a mixagem. Diversos esquemas para codificação conjunta para os canais de um sinal de
Petição 870190003565, de 11/01/2019, pág. 5/32
3/29 áudio estéreo ou de multicanais foram anteriormente propostos.
SUMÁRIO DA INVENÇÃO [006] O objetivo da invenção é prover um método para transmitir diversos sinais de fonte enquanto se utiliza uma mínima largura de banda. Na maioria dos métodos conhecidos, o formato de playback (por exemplo, estéreo, 5.1) é predefinido e tem uma influência direta sobre o cenário de codificação. O stream de áudio no lado do decodificador deve utilizar somente este formato de playback predefinido, portanto vinculando o usuário a um cenário de playback predefinido (por exemplo, estéreo).
[007] A invenção proposta codifica N sinais de fonte de áudio, tipicamente não canais de um sinal estéreo ou de multicanais, mas sim sinais independentes, por exemplo diferentes sinais de fala ou instrumento. As informações colaterais transmitidas incluem parâmetros estatísticos referentes aos sinais de fonte de áudio de entrada.
[008] A invenção proposta decodifica M canais de áudio com cues diferentes dos sinais de fonte de áudio originais. Esses diferentes cues são tanto implicitamente sintetizados aplicando-se um mixador ao sinal de soma recebido. O mixador é controlado em função das informações de fonte estatísticas recebidas e dos parâmetros de formato de áudio recebidos (ou localmente determinados) e dos parâmetros de mixagem. Alternativamente, esses diferentes cues são explicitamente computados em função das informações de fonte estatísticas recebidas e dos parâmetros de formato de áudio recebidos (ou localmente determinados) e dos parâmetros de mixagem. Esses cues computados são utilizados para controlar o decodificador da técnica anterior (Binaural Cue Coding, Estéreo Paramétrico, MPEG Surround) para sintetizar os canais de
Petição 870190003565, de 11/01/2019, pág. 6/32
4/29 saída dado o sinal de soma recebido.
[009] O esquema proposto para codificação conjunta de sinais de fonte de áudio é o primeiro de seu gênero. É projetado para codificação conjunta de sinais de fonte de áudio. Os sinais de fonte de áudio são geralmente sinais de áudio mono que não são adequados para playback em um sistema de áudio estéreo ou de multicanais. Para facilitar, a seguir, os sinais de fonte de áudio são geralmente denominados sinais de fonte.
[0010] Os sinais de fonte de áudio primeiro precisam ser mixados em sinais de áudio estéreo, de multicanais ou de síntese de campo de onda antes do playback. Um sinal de fonte de áudio pode ser um único instrumento ou locutor, ou a soma de diversos instrumentos e locutores. Outro tipo de sinal de fonte de áudio é um sinal de áudio mono capturado com um microfone de ponto durante um concerto. Os sinais de fonte de áudio são geralmente armazenados em gravadores de múltiplas faixas ou em sistemas de gravação em disco rígido.
[0011] O esquema reivindicado de codificação conjunta de sinais de fonte de áudio é baseado somente na transmissão da soma dos sinais de fonte de áudio, m
s(n) = Σ si(n) , (1) z=1 [0012] ou de uma soma ponderada dos sinais de fonte. Opcionalmente, a soma ponderada pode ser realizada com diferentes pesos em diferentes sub-bandas e os pesos podem ser adaptados ao tempo. A soma com equalização, conforme descrita no Capítulo 3.3.2 em [1], também pode ser aplicada. A seguir, quando nos referimos à soma ou sinal de soma, sempre nos referimos a uma geração de sinal por (1) ou gerado conforme descrito. Além do sinal de soma, são transmitidas informações colaterais. A soma e as informações
Petição 870190003565, de 11/01/2019, pág. 7/32
5/29 colaterais representam o stream de áudio emitido. Opcionalmente, o sinal de soma é codificado utilizando um codificador de áudio mono convencional. Esse stream pode ser armazenado em um arquivo (CD, DVD, disco rígido) ou transmitido ao receptor. As informações colaterais representam as propriedades estatísticas dos sinais de fonte que são os fatores mais importantes que determinam os cues espaciais perceptuais dos sinais de saída do mixador. Será mostrado que essas propriedades estão temporalmente desenvolvendo envelopes espectrais e funções de autocorrelação. Aproximadamente 3 kb/s de informações colaterais são transmitidos por sinal de fonte. No receptor, os sinais de fonte >0i(n) (1 d i 1 M) são recuperados com as propriedades estatísticas anteriormente mencionadas aproximando as correspondentes propriedades dos sinais de fonte originais e do sinal de soma.
BREVE DESCRIÇÃO DOS DESENHOS [0013] A invenção será mais bem compreendida graças às
Figuras anexadas nas quais:
[0014] - A figura transmissão de cada sinal de para futuro processamento, [0015] - A figura 2 mostra um esquema no qual a fonte é realizada independentemente mostra diversas fontes transmitidas como sinal de soma mais informações colaterais,
[0016] | - A figura 3 mostra um diagrama de blocos de um |
esquema | de Binaural Cue Coding (BCC), |
[0017] | - A figura 4 mostra um mixador para geração de |
sinais estéreos com base em vários sinais de fonte,
[0018] | - A figura 5 mostra a dependência entre ICTD, ICLD |
e ICC e | o potencial de sub-banda do sinal de fonte, |
[0019] | - A figura 6 mostra o processo de geração de |
Petição 870190003565, de 11/01/2019, pág. 8/32
6/29 informações colaterais,
[0020] | - A | figura 7 | mostra | o processo | de estimativa | dos |
parâmetros | de LPC de | cada sinal | de fonte, | |||
[0021] | - A | figura 8 | mostra | o processo | de recriação | dos |
sinais de | fonte a partir de um | sinal de | soma, | |||
[0022] | - A | figura 9 | mostra um esquema | alternativo para a | ||
geração de | cada sinal | a partir | do sinal | de soma, | ||
[0023] | - A | figura 10 | mostra | um mixador | para a geração | de |
sinais estéreos com base no sinal de soma, [0024] - A figura 11 mostra um algoritmo de variação gradual de amplitude impedindo que os níveis de fonte dependam dos parâmetros de mixagem, [0025] - A figura 12 mostra uma matriz de alto-falantes de um sistema de playback de síntese de campo de onda,
[0026] | - A | figura | 13 | mostra | como | recuperar | uma | estimativa |
dos sinais de | fonte | no receptor pelo | processamento | de | downmix dos | |||
canais transmitidos, | ||||||||
[0027] | - A | figura | 14 | mostra | como | recuperar | uma | estimativa |
dos sinais de fonte no receptor pelo processamento dos canais transmitidos.
II. | DEFINIÇÕES, NOTAÇÃO | E VARIÁVEIS | |
[0028] | Seguem as notações e | variáveis utilizadas neste | |
documento: | |||
[0029] | n | índice de tempo; | |
[0030] | i | canal de áudio ou índice de fonte; | |
[0031] | d | índice de retardo; | |
[0032] | M | número de sinais | de fonte de entrada do |
codificador; | |||
[0033] | N | número de canais de | saída do decodificador; |
Petição 870190003565, de 11/01/2019, pág. 9/32
7/29
0034] | (n) | sinais | de | fonte | originais | mixados; |
0035] | x (n) | sinais | de | saída | mixados do | decodificador; |
0036] | si (n) | sinais | de | fonte de | entrada do |
codificador;
[0037]
X (n) sinais de fonte transmitidos também chamados de pseudo-sinais de fonte;
[0038] s(n) sinal de soma transmitido;
[0039] yt (n) sinal de áudio de canal L;
(sinal de áudio a ser remixado);
um sinal de sub-banda de st (n) (similarmente definido para outros sinais) { ~2(n) } estimativa de curto prazo de ~ 2(n) (similarmente definido para outros sinais) f
[0041] | ICLD | diferença de nível intercanais; |
[0042] | ICTD | diferença de tempo intercanais; |
[0043] | ICC | coerência intercanais; |
[0044] | □L(n) | ICLD estimada de sub-banda; |
[0045] | □ (n) | ICTD estimada de sub-banda; |
[0046] | c (n) | ICC estimada de sub-banda; |
[0047] | ~ (n) | potencial relativo de sub-banda de fonte; |
[0048] | ai, bi | fatores de escala do mixador; |
[0049] | Ci, di | retardos do mixador; |
[0050] | □Li , □(n) | nível do mixador e diferença de |
tempo; | ||
[0051] | Gi ganho | de fonte do mixador; |
III. CODIFICAÇÃO CONJUNTA DE SINAIS DE FONTE DE | ||
ÁUDIO | ||
[0052] | Primeiro, | é descrito o Binaural Cue Coding (BCC), |
uma técnica de codificação paramétrica de áudio de multicanais.
Petição 870190003565, de 11/01/2019, pág. 10/32
8/29
Então, é demonstrado que com a mesma percepção na qual o BCC se baseia, pode-se propor um algoritmo para codificação conjunta dos sinais de fonte para um cenário de codificação.
A. Binaural Cue Coding (BCC) [0053] Um esquema BCC [1] [2] para codificação de áudio de multicanais é mostrado na figura abaixo. O sinal de áudio de entrada de multicanais é downmixado em um canal único. Em vez da codificação e transmissão de informações sobre todos os formatos de onda de canal, somente o sinal downmixado é codificado (com um codificador convencional de áudio mono) e transmitido. Além disso, as “diferenças de canal de áudio” perceptivelmente motivadas são estimadas entre os canais de áudio originais e também transmitidas ao decodificador. O decodificador gera seus canais de saída de modo que as diferenças de canal de áudio se aproximem das correspondentes diferenças de canal de áudio do sinal de áudio original.
[0054] A localização da soma implica que as diferenças de canal de áudio perceptivelmente relevantes para um par de canais de sinal de alto-falante são a diferença de tempo intercanais (ICTD) e a diferença de nível intercanais (ICLD). A ICTD e a ICLD podem estar relacionadas à direção percebida dos eventos de audição. Outros atributos de imagem espacial de audição, por exemplo, largura de fonte aparente e envolvimento do ouvinte, podem estar relacionados à coerência interaural (IC) . Para pares de alto-falante na frente ou atrás de um ouvinte, a coerência interaural está, de modo geral, diretamente relacionada à coerência intercanais (ICC) que é então considerada como uma terceira medida de diferença de canal de áudio pela BCC. A ICTD, a ICLD e a ICC são estimadas em sub-bandas em função de tempo. Tanto as resoluções espectral como temporal utilizadas são motivadas pela percepção.
Petição 870190003565, de 11/01/2019, pág. 11/32
9/29
B. Codificação Paramétrica Conjunta de Fontes de
Áudio [0055] Um decodificador BCC é capaz de gerar um sinal de áudio de multicanais com qualquer imagem espacial de audição utilizando um sinal mono e sintetizando, em intervalos regulares, um cue específico único de ICTD, ICLD e ICC por sub-banda e par de canais. O bom desempenho dos esquemas BCC para uma ampla faixa de material de áudio [vide 1] implica que a imagem espacial de audição percebida é amplamente determinada pela ICTD, ICLD e ICC. Portanto, em vez de exigir sinais de fonte St (n) limpos como entrada do mixador na Figura 1, apenas exigimos pseudo-sinais de fonte *£> (n) com a propriedade de resultarem em ICTD, ICLD e ICC similares na saída do mixador como no caso de fornecimento dos reais sinais de fonte ao mixador. Há três objetivos para a geração de *£> (n) :
[0056] Se Si (n) for fornecido a um mixador, os canais de saída do mixador terão aproximadamente os mesmos cues espaciais (ICLD, ICTD, ICC) como se St (n) fosse fornecido ao mixador.
[0057] q(n) deve ser gerado com a menor quantidade de informação possível sobre os sinais de fonte originais S(n) (pois o objetivo é ter informações colaterais de baixa taxa de bits) .
[0058] q(n) são gerados a partir do sinal de soma transmitido S(n) de modo que uma quantidade mínima de distorção de sinal seja introduzida.
[0059] Para derivar o esquema proposto, estamos considerando um mixador estéreo (M = 2). Outra simplificação do caso geral é que somente a amplitude e variação gradual de retardo são aplicados para mixagem. Se os sinais de fonte discretos estivessem disponíveis no decodificador, um sinal estéreo seria mixado conforme mostrado na Figura 4, ou seja,
Petição 870190003565, de 11/01/2019, pág. 12/32
10/29 [0060] contém apenas
M
X1(n) = Σ AS (n - CI )
1=1
Nesse caso, o vetor direções de fonte que m
X2(n) = Σ BS (n - Di ) (2) i=1 de descrição determinam os de cena S(n) parâmetros de mixagem,
C2, [0061] observado que,
M(n) di , d2, onde d ( ã1 , a2, d )d aMf b1 (3)D a transposição de para os parâmetros de mixagem, , b2, um vetor.
ignoramos o
Deve ser índice de tempo para maior conveniência de notação.
[0062]
Parâmetros mais convenientes de controle do mixador são a diferença de tempo e nível, di e □ Li, que estão relacionados a ai, bi, ci, e di_ por ai
GÍ/20
I = bi
V1+10λΓ/10
10(Gí+ALi )/20 α
Ci max {-di, 0} di max {di, 0} (4) [0063] onde
Gi é um fator de ganho de fonte em dB.
saída
A seguir, estamos computando
ICTD,
ICLD e ICC da estéreo do mixador em função dos sinais de fonte de entrada si (n) .
fonte
S] (n)
As expressões obtidas indicarão quais propriedades de sinal de determinam ICTD, ICLD e ICC (com os parâmetros de mixagem).
são então gerados de modo que as propriedades de sinal de fonte identificado se aproximem das propriedades correspondentes dos sinais de fonte originais.
B.1 ICTD, ICLD e ICC da saída do mixador [0065] Os cues são estimados em sub-bandas e em função do tempo. A seguir, assume-se que os sinais de fonte St (n) são média zero e mutuamente independentes. Um par de sinais de sub-banda da saída do mixador (2) é denominado Xj(n) e X2(n) . Deve ser observado
Petição 870190003565, de 11/01/2019, pág. 13/32
11/29 que, para maior simplicidade de notaçao, estamos utilizando o mesmo índice de tempo n para sinais de domínio de tempo e de domínio de sub-banda. Também, nenhum índice de sub-banda é utilizado e a análise/processamento descrita é aplicada a cada sub-banda independentemente. O potencial de sub-banda dos dois sinais de saída do mixador é
E { ~i2(n) } = m
Σ B e{s, 3w)i (=1 [0066] onde ~ (n) é um m 2
Σa( E{s2(n))} E { X2(n) } = (=1 (5) sinal de sub-banda de fonte S( (n) e
E{.} denota expectativa de curto prazo, ou seja, n+K /2-1
E { S2 (n) } = — Σ S2(n) K n-K/2 (6) onde K determina o comprimento da média de movimento. Deve ser observado que os valores banda E { ~s 2 '(n) } representam, para cada sinal de potencial de fonte, o de subenvelope espectral em função do tempo. A ICLD, CL(n), é
ΣΜ1 B E{s2(n))}
ΣΜ1 af E{s2(n))}
TL(n) = 10 log10 (7) [0068]
Para determinar ICTD e ICC, determina-se a funçao de correlaçao cruzada normalizada,
E{x1(n)x2(n + d)} ^E{x2(n)} E{x2(n + d)} □ (n, d) [0069]
A ICC, c (n) c(n) , é computada de acordo com max □ (n,d) d
(9)
Para a computação da ICTD, h(n), a localização do maior pico no eixo de retardo é computada,
C(n) = arg max □(n,d) d (10) [0071]
Agora a questão é como a função de correlação
Petição 870190003565, de 11/01/2019, pág. 14/32
12/29 cruzada normalizada pode ser computada em função dos parâmetros de mixagem.
[0072] □ (n, d)
Com (2), (8) pode ser escrito como
Σμ E{aibi~(n - ci ) * i(n - di + d)}
(11) que é equivalente a □ (n, d)
ΣΜ ~ i=1 abiE{~si Ο)}Φι<Adi - T) ^(ΣΜ α,2 E{s2(n)|){XM1b2 E{J2(n)}) (12) [0073] onde a função de autocorrelação normalizada □(n,e) □ (n, e)
E{s, (n)s, (n + e)}
E{sf(n)} (13) [0074] e di = di - Ci. Deve ser observado que, para computar (12) dado (11), assumiu-se que os sinais são fixos em amplo sentido dentro da faixa considerada de retardos, ou seja,
Ε { ~2(n) } = E { ~2(n - Ci) }
E { ~2(n) } = E { ~i2(n - d,) } □ { (n)s,(n + c, - d, + d)} } = □ { s , (n - Ci) s , (n - di + d)} [0075] Um exemplo numérico de dois sinais de fonte, ilustrando a dependência entre ICTD, ICLD e ICC e o potencial de sub-banda de fonte, é mostrado na Figura 5. Os painéis superior, intermediário e inferior da Figura 5 mostram CL(n), C (n) e c(n), respectivamente, em função da razão do potencial de sub-banda dos dois sinais de fonte, a = □ { íj 2(n) } / (□ {S2(n) } + □ { s^(n) }), para diferentes parâmetros de mixagem (4) □Li , □ Li , Ci e d2. Deve ser observado que, quando somente uma fonte tiver potencial na subbanda (a = 0 ou a = 1), então □L (n) e d(n) computados são iguais aos parâmetros de mixagem (□Li , 0L2 , C1 , C2) .
B.2 Informações colaterais necessárias
Petição 870190003565, de 11/01/2019, pág. 15/32
13/29 [0076] A ICLD (7) depende dos parâmetros de mixagem (air blr c±, di) e do potencial de sub-banda de curto prazo das fontes, □ { ~2(n) } (6). A função de correlação cruzada normalizada de subbanda □(n,d) (12), que é necessária para a computação de ICTD (10) e ICC (9), depende de □ { ~ 2(n) } e adicionalmente da função de autocorrelação normalizada de sub-banda, □i(n, e) (13), para cada sinal de fonte. O máximo de □ (n,d) fica na faixa minI{CI} dd <maxI{CI}. Para a fonte i com o parâmetro Ci = di - ci do mixador, a faixa correspondente para a qual a propriedade de sub-banda de sinal de fonte □i(n, e) (13) é necessária é min {e2 } - ci < e <max {e2 } - ci (14) [0077] Uma vez que os cues ICTD, ICLD e ICC dependem das propriedades de sub-banda de sinal de fonte □ { ~2(n) } e □i (n, e) na faixa (14), a princípio essas propriedades de sub-banda de sinal de fonte precisam ser transmitidas como informações colaterais.
Assumimos que qualquer outro tipo de mixador (por exemplo, mixador com efeitos, mixador de síntese de campo de onda/convolutor, etc.) possui propriedades similares e, dessa forma, essas informações colaterais são úteis também quando outros mixadores que não aquele descrito são utilizados. Para reduzir a quantidade de informações colaterais, seria possível armazenar um conjunto de funções de autocorrelação predefinidas no decodificador e somente transmitir índices para escolha daquelas que correspondem mais precisamente às propriedades do sinal de fonte. Uma primeira versão de nosso algoritmo assume que dentro da faixa (14) □i(n, e) = 1 e assim (12) é computado utilizando somente os valores de potencial de sub-banda (6) como informações colaterais. Os dados mostrados na Figura 5 foram computados assumindo □i(n, e) = 1.
[0078]
Para reduzir a quantidade de informações
Petição 870190003565, de 11/01/2019, pág. 16/32
14/29 colaterais, a faixa dinâmica relativa dos sinais de fonte é limitada. Em cada tempo, para cada sub-banda, o potencial da fonte mais forte é selecionado. Achamos suficiente reduzir o limite do potencial correspondente de sub-banda de todas as outras fontes a um valor de 24 dB menor que o potencial de sub-banda mais forte. Assim, a faixa dinâmica do quantificador pode ser limitada a 24 dB.
[0079] Assumindo que os sinais de fonte são independentes, o decodificador pode computar a soma do potencial de sub-banda de todas as fontes como □ { s (n) } . Assim, a princípio, é suficiente transmitir ao decodificador somente os valores de potencial de subbanda de M - 1 fontes, enquanto o potencial de sub-banda da fonte remanescente pode ser computado localmente. Dada essa idéia, a taxa de informações colaterais pode ser discretamente reduzida pela transmissão do potencial de sub-banda de fontes com índices 2 d i < M em relação ao potencial da primeira fonte, ~ E{~2(n)} □ Pi (n) = 10 logiQ ~2 . (15) E{s2(n)} [0080] Deve ser observado que a limitação de faixa dinâmica conforme descrito anteriormente é realizada antes de (15). Como alternativa, os valores de potencial de sub-banda poderiam ser normalizados em relação ao potencial de sub-banda do sinal de soma, em vez da normalização em relação ao potencial de sub-banda (15) de uma fonte. Para uma freqüência de amostragem de 44,1 kHz, utilizamos 20 sub-bandas e transmitimos para cada sub-banda □ ~i(n) (2 < i < M) aproximadamente a cada 12 ms. Vinte sub-bandas correspondem à metade da resolução espectral do sistema auditivo (uma sub-banda tem duas vezes a largura das “larguras de banda críticas”). Experimentos informais indicam que somente discretas melhoras sejam realizadas utilizando mais de 20 sub-bandas, por exemplo, 40 sub-bandas. O
Petição 870190003565, de 11/01/2019, pág. 17/32
15/29 número de sub-bandas e as larguras de banda de sub-banda são escolhidos de acordo com o tempo e a resolução de freqüência do sistema auditivo. Uma baixa implementação de qualidade do esquema requer pelo menos três sub-bandas (baixa, média e alta freqüências).
[0081] De acordo com uma configuração em particular, as
sub-bandas | possuem | diferentes | larguras | de | banda, | sub-bandas em |
menores freqüências | possuem | menor largura | de | banda que | as sub-bandas | |
em maiores | freqüências. | |||||
[0082] | Os | valores | de | potencial | relativo são | quantificados |
com um esquema similar ao quantificador ICLD descrito em [2], resultando em uma taxa de bits de aproximadamente 3(M -1) kb/s. A Figura 6 ilustra o processo de geração de informações colaterais (corresponde ao bloco de “Geração de Informações Colaterais” na Figura 2).
[0083] A taxa de informações colaterais pode ser adicionalmente reduzida analisando-se a atividade de cada sinal de fonte e transmitindo somente as informações colaterais associadas à fonte se for ativo.
[0084] Em vez da transmissão dos valores de potencial de sub-banda □ { ~ Xn) } como informações estatísticas, outras informações que representam os envelopes espectrais dos sinais de fonte poderiam ser transmitidas. Por exemplo, os parâmetros de codificação preditiva linear (LPC) poderiam ser transmitidos ou os outros parâmetros correspondentes, por exemplo, parâmetros de filtro de malha ou parâmetros de par espectral de linha (LSP). O processo de estimativa dos parâmetros de LPC de cada sinal de fonte é ilustrado na Figura 7.
B.3 Computação de Q (n) [0085] A Figura 8 ilustra o processo que é utilizado para
Petição 870190003565, de 11/01/2019, pág. 18/32
16/29 recriar os sinais de fonte, dado o sinal de soma (1). Esse processo faz parte do bloco de Síntese na Figura 2. Os sinais de fonte individuais são recuperados pela classificação de cada sub-banda do sinal de soma com gi(n) e pela aplicação de um filtro de descorrelação com resposta de impulso ~ (n) (
hi ( n), hi(n)
Ε{~ 2(n)}~~Ί s (n) (gi (n)
S (n)) hi (n)
E{s 2(n)} (16) [0086] onde * é o operador de convolução
S 2(n) } é computado com as informações colaterais por
I Δρι(n)
1/^1 + Σ·-210 10 para i =
E{~2(n) } linear e ou
Δρι (n) 10 E{s2(n)} caso contrário (17)
Como filtros de descorrelação hi(n) , filtros comb complementares, filtros do tipo all-pass, retardos ou filtros com respostas de impulso aleatório podem ser utilizados. O objetivo do processo de descorrelação é reduzir a correlação entre os sinais enquanto não modifica a maneira que os formatos individuais de onda são percebidos. Diferentes técnicas de descorrelação levam a diferentes artefatos. Filtros comb complementares causam coloração.
Todas as técnicas descritas estão espalhando a energia dos transientes no decorrer do tempo, causando artefatos como préecos”
Devido ao seu potencial de artefatos, as técnicas de descorrelação devem ser aplicadas ao mínimo possível. A próxima seção descreve técnicas e estratégias que requerem menor processamento de descorrelação que a simples geração de sinais independentes SI(n) .
Um esquema alternativo de geração dos sinais
S)· (n) é mostrado na Figura 9. Primeiro, o espectro de s(n) é nivelado por
Petição 870190003565, de 11/01/2019, pág. 19/32
17/29 computação do erro de predição linear e(n) . A seguir, devido aos filtros de LPC estimados no codificador flf os filtros do tipo allpole correspondentes são computados como a transformada z inversa de
Ft (z) =
- z~1F, (z) [0089]
Os filtros all-pole resultantes, f , representam o envelope espectral dos sinais de fonte. Se outras informações colaterais que não os parâmetros de LPC forem transmitidas, os parâmetros de LPC primeiro precisam ser computados em função das informações colaterais. Assim como no outro esquema, os filtros de descorrelação h± são utilizados para produzir sinais de fonte independentes.
IV. IMPLEMENTAÇÕES CONSIDERANDO AS RESTRIÇÕES PRÁTICAS [0090] Na primeira parte desta seção, é apresentado um exemplo de implementação utilizando um esquema de síntese BCC como um mixador estéreo ou de multicanais. Isto é particularmente interessante uma vez que esse esquema de síntese do tipo BCC faz parte de um padrão ISO/IEC MPEG futuro, denominado “codificação de áudio espacial” . Os sinais de fonte q (n) não são explicitamente computados neste caso, resultando em menor complexidade computacional. Também, esse esquema oferece o potencial de melhor qualidade de áudio, pois é necessária uma descorrelação efetivamente menor que no caso em que os sinais de fonte q (n) são explicitamente computados.
[0091] A segunda parte dessa seção discute aspectos quando o esquema proposto é aplicado com qualquer mixador e nenhum processamento de descorrelação é aplicado. Esse esquema é de menor complexidade que um esquema com processamento de descorrelação,
Petição 870190003565, de 11/01/2019, pág. 20/32
18/29 porém pode ter outras desvantagens conforme será discutido.
[0092] Idealmente, poderia ser desejado aplicar um processamento de descorrelação de modo que o >9 (n) gerado pudesse ser considerado independente. No entanto, uma vez que o processamento de descorrelação é problemático em termos de introdução de artefatos, poderia ser desejado aplicar um processamento de descorrelação ao mínimo possível. A terceira parte dessa seção discute como a quantidade de processamento de descorrelação problemático pode ser reduzida ao mesmo tempo que se obtém benefícios como se o 9 (n) gerado fosse independente.
A. Implementação sem computação explícita de >9 (n) [0093] A mixagem é diretamente aplicada ao sinal de soma transmitido (1) sem computação explícita de 9(n) · Um esquema de síntese BCC é utilizado para esse propósito. A seguir, estamos considerando o caso estéreo, porém todos os princípios descritos também podem ser aplicados para a geração de sinais de áudio de multicanais.
[0094] Um esquema de síntese BCC estéreo (ou um esquema estéreo paramétrico”), aplicado para processamento do sinal de soma (1), é mostrado na Figura 10. Seria desejado que o esquema de síntese BCC gerasse um sinal que é percebido similarmente como o sinal de saída de um mixador conforme mostrado na Figura 4. Isso ocorre quando a ICTD, ICLD e ICC entre os canais de saída do esquema de síntese BCC são similares aos cues correspondentes que aparecem entre os canais de sinal da saída do mixador (4).
[0095] As mesmas informações colaterais que aquelas anteriormente descritas no esquema mais geral são utilizadas, permitindo que o decodificador compute os valores de potencial de sub-banda de curto prazo □ { ~ 2(n) } das fontes. Dado □ { > 2(n) }, os
Petição 870190003565, de 11/01/2019, pág. 21/32
19/29 fatores de ganho gi e g2 na Figura 10 são computados como gi (n)
ΣΜ afEtf(n)} g2 (n)
Σ1B E{~ 2(n)}
V E{~2(n)}
E{~2(n)} (18) de modo que o potencial de sub-banda de saída
ICLD (7) sejam os mesmos que para o mixador na Figura 4. A ICTD
E (n) é computada de acordo com (10), determinando os retardos Di e D2 na
Figura 10,
Di(n) = max{ -E (n) , o} D2(n) = max{ E (n) , 0}(19) [0097] A ICC c(n) é computada de acordo com (9) determinando o processamento de descorrelação na Figura 10. O processamento de descorrelação (síntese de ICC) é descrito em [1]. As vantagens da aplicação do processamento de descorrelação aos canais de saída do mixador em comparação à aplicação deste para geração de Sj (n) independente são:
[0098]
Geralmente, o número de sinais de fonte M é maior que o número de canais de saída de áudio N. Assim, o número de canais de áudio independentes que precisa ser gerado é menor ao se descorrelacionar os N canais de saída em vez da descorrelação dos M sinais de fonte.
[0099] Geralmente, os N canais de saída de áudio estão correlacionados (ICC > 0) e menor processamento de descorrelação pode ser aplicado do que seria necessário para gerar M ou N canais independentes.
[00100]
Devido ao menor processamento de descorrelação, uma melhor qualidade de áudio é esperada.
[00101] Uma melhor qualidade de áudio é esperada quando os parâmetros do mixador são restringidos de modo que af + bf = 1, ou seja, G2 = 0 dB. Nesse caso, o potencial de cada fonte no sinal de soma transmitido (1) é o mesmo que o potencial da mesma fonte no
Petição 870190003565, de 11/01/2019, pág. 22/32
20/29 sinal de saída mixado do decodificador. O sinal de saída do decodificador (Figura 10) é o mesmo como se o sinal de saída do mixador (Figura 4) fosse codificado e decodificado por um codificador/decodificador BCC nesse caso.
Assim, uma qualidade similar também pode ser esperada.
[00102]
O decodificador pode não somente determinar a direção na qual cada fonte deve aparecer, mas também o ganho de cada fonte pode ser variado. O ganho é aumentado escolhendo-se a2 + b2 > 1
G > 0 dB) e reduzido escolhendo-se a2 +b2 < 1 (G± < 0 dB).
B. Sem o uso de processamento de descorrelação [00103] A restrição da técnica anteriormente descrita é que a mixagem é realizada com um esquema de síntese BCC. Poderia-se imaginar a implementação não somente da síntese de ICTD, ICLD e ICC, mas adicionalmente o processamento de efeitos dentro da síntese BCC.
[00104] No entanto, pode ser desejado que os mixadores e processadores de efeitos existentes possam ser utilizados. Isto também inclui os mixadores de síntese de campo de onda (geralmente denominados convolutores). Para utilizar os mixadores e processadores de efeitos existentes, os q (n) são computados explicitamente e utilizados como se fossem sinais de fonte originais.
[00105] Ao não aplicar nenhum processamento de descorrelação (h±(n) = ü(n) em (16)), uma boa qualidade de áudio também pode ser alcançada. Este é um compromisso entre os artefatos introduzidos devido ao processamento de descorrelação e artefatos devido ao fato de que os sinais de fonte q (n) estão correlacionados. Quando nenhum processamento de descorrelação é utilizado, a imagem espacial de audição resultante pode sofrer instabilidade [1]. Porém o mixador pode auto-introduzir alguma descorrelação quando
Petição 870190003565, de 11/01/2019, pág. 23/32
21/29 reverberadores ou outros efeitos são utilizados e, assim, há menos necessidade de processamento de descorrelação.
[00106] Se q (n) forem gerados sem processamento de descorrelação, o nível das fontes depende da direção para a qual elas são mixadas em relação às outras fontes. Substituindo-se o algoritmo de variação gradual de amplitude nos mixadores existentes por um algoritmo que compensa essa dependência de nível, o efeito negativo de dependência de alto volume sobre os parâmetros de mixagem pode ser evitado. Um algoritmo de amplitude de compensação de nível é mostrado na Figura 11 que tem como objetivo compensar a dependência de nível de fonte dos parâmetros de mixagem. Devido aos fatores de ganho de um algoritmo de variação gradual de amplitude convencional (por exemplo, a Figura 4), os pesos na Figura
11, a e bt são computados por
ΣΜι al E{s2(n)} ai (n) = ,, ^{<ΣΜ1 Ai.
~ (n))2}
ΣΜBE{~ (n)}
Bi(n) = 2 )|ε{(Ση bi?i(n))2} (20)
Deve ser observado que são computados de modo que o potencial de sub-banda de saída seja mesmo como se q (n) fossem independentes em cada sub-banda.
c.
Reduzindo a quantidade de processamento de descorrelação [00108] Conforme anteriormente mencionado, a geração de q (n) independente é problemática. Aqui, as estratégias são descritas para aplicação de menor processamento de descorrelação, enquanto efetivamente obtém-se um efeito similar como se os (n) fossem independentes.
[00109]
Considere, por exemplo, um sistema de síntese de
Petição 870190003565, de 11/01/2019, pág. 24/32
22/29 campo de onda conforme mostrado na Figura 12. As posições de fonte virtuais desejadas para s1, s2, ..., s6 (M = 6) são indicadas. Uma estratégia para computar .5] (n) (16) sem gerar M sinais totalmente independentes é:
[00110] | Gerar | grupos de | índices de | fonte correspondentes | às | ||
fontes próximas | entre | si. | Por | exemplo, na | Figura 8, | esses grupos | |
poderiam ser: {1} | , {2, | 5}, | {3} e | {4, 6}. | |||
[00111] | Em cada | tempo | em cada | sub-banda, | selecionar | o |
índice de fonte da fonte mais forte, imax = max E{s (n)} (21) i
[00112] Não aplicar nenhum processamento de descorrelação para a parte dos índices de fonte do grupo contendo imax, ou seja, hi (n) = □ (n).
[00113] 3. Para cada outro grupo, escolher o mesmo hi(n) dentro do grupo.
[00114] O algoritmo descrito modifica as componentes de sinal mais forte least. Além disso, o número de diferentes hi(n) que são utilizados é reduzido. Isso é uma vantagem, pois a descorrelação é mais fácil quanto menos canais independentes precisarem ser gerados. A técnica descrita também é aplicável quando os sinais de áudio estéreo ou de multicanais são mixados.
V. ESCALABILIDADE EM TERMOS DE QUALIDADE E TAXA DE BITS [00115] O esquema proposto transmite somente a soma de todos os sinais de fonte, que pode ser codificada com um codificador de áudio mono convencional. Quando nenhuma compatibilidade mono regressiva é necessária e a capacidade está disponível para transmissão/armazenamento de mais que uma forma de onda de áudio, o esquema proposto pode ser classificado para uso com mais de um canal
Petição 870190003565, de 11/01/2019, pág. 25/32
23/29 de transmissão. Isto é implementado pela geração de vários sinais de soma com diferentes subconjuntos dos referidos sinais de fonte, ou seja, para cada subconjunto de sinais de fonte, o esquema de codificação proposto é aplicado individualmente. Espera-se que a qualidade de áudio melhore conforme o número de canais de áudio transmitidos aumenta, pois menos canais independentes precisam ser gerados por descorrelação de cada canal transmitido (em comparação ao caso de um canal transmitido).
VI. COMPATIBILIDADE REGRESSIVA COM OS FORMATOS DE
ÁUDIO ESTÉREO E SURROUND EXISTENTES [00116] Considerar o seguinte cenário de disponibilização de áudio. Um cliente obtém um sinal surround estéreo ou de multicanais de qualidade máxima (por exemplo, por meio de um CD de áudio, DVD ou loja de música on-line, etc.). O objetivo é disponibilizar opcionalmente ao cliente a flexibilidade de gerar um mix customizado do conteúdo de áudio obtido sem comprometer a qualidade padrão de playback estéreo/surround.
[00117] Isto é implementado ao se disponibilizar ao cliente (por exemplo, como opção de compra em uma loja de música on-line) um stream de bits de informações colaterais que permite a computação de q (n) em função do referido sinal de áudio estéreo ou de multicanais. O algoritmo de mixagem do cliente é então aplicado ao q (n). Na seqüência, duas possibilidades de computação de q (n), dados os sinais de áudio estéreo ou de multicanais, são descritas.
A. Estimativa da soma dos sinais de fonte no receptor [00118] A forma mais direta de utilizar o esquema de codificação proposto com uma transmissão de áudio estéreo ou de multicanais é ilustrada na Figura 13, onde yi(n) (1 < i < L) são os L
Petição 870190003565, de 11/01/2019, pág. 26/32
24/29 canais do referido sinal de áudio estéreo ou de multicanais. O sinal de soma das fontes é estimado pela downmixagem dos canais transmitidos para um canal único de áudio. A downmixagem é realizada pela computação da soma dos canais y±(n) (1 < i < L), ou técnicas mais sofisticadas podem ser aplicadas.
[00119] Para melhor desempenho, recomenda-se que o nível dos sinais de fonte seja adaptado antes da estimativa de □ { ~2(n) } (6), de modo que a razão de potencial entre os sinais de fonte se aproxime da razão de potencial com a qual as fontes são contidas no referido sinal estéreo ou de multicanais. Nesse caso, o downmix dos canais transmitidos é uma estimativa relativamente boa da soma das fontes (1) (ou uma versão classificada desta).
[00120] Um processo automatizado pode ser utilizado para ajustar o nível das entradas do sinal de fonte do codificador s2 (n) antes da computação das informações colaterais. Esse processo, de forma adaptada ao tempo, estima o nível no qual cada sinal de fonte é contido no referido sinal estéreo ou de multicanais. Antes da computação das informações colaterais, o nível de cada sinal de
fonte | é então, | de | forma | adaptada ao tempo, | ajustado | de | modo que seja | |
igual | ao nível | no | qual | a fonte é | contida | no sinal | de | áudio estéreo |
ou de | multicanais. | |||||||
B | Utilizando | os | canais | transmitidos |
individualmente [00121] A Figura 14 mostra uma diferente implementação do esquema proposto com transmissão de sinal surround estéreo ou de multicanais. Aqui, os canais transmitidos não são downmixados, porém utilizados individualmente para a geração dos q(n) . De forma mais geral, os sinais de sub-banda de q (n) são computados por
Petição 870190003565, de 11/01/2019, pág. 27/32
25/29 l
~ (n) = ht (n) * (g. (ν)Σ Wl (ν)~ι (n)) (22) l=1 [00122] onde wL (n) são as combinações lineares específicas de determinação de pesos das sub-bandas dos canais transmitidos. As combinações lineares são escolhidas de modo que .£> (n) já sejam descorrelacionadas o máximo possível. Assim, nenhum ou somente um baixo processamento de descorrelação precisa ser aplicado, o que é favorável conforme anteriormente discutido.
VII. APLICAÇÕES [00123] Já mencionamos diversas aplicações dos esquemas de codificação propostos. Aqui, resumimos e mencionamos algumas outras aplicações.
A. Codificação de áudio para mixagem [00124] Sempre que sinais de fonte de áudio precisarem ser armazenados ou transmitidos antes da mixagem em sinais de áudio estéreos, de multicanais ou de síntese de campo de onda, o esquema proposto pode ser aplicado. Com a técnica anterior, um codificador de áudio mono seria aplicado a cada sinal de fonte independentemente, resultando em uma taxa de bits que se classifica com o número de fontes. O esquema de codificação proposto pode codificar um alto número de sinais de fonte de áudio com um único codificador de áudio mono mais informações colaterais de taxa de bits relativamente baixa. Conforme descrito na Seção V, a qualidade de áudio pode ser melhorada utilizando-se mais que um canal transmitido se houver disponibilidade de memória/capacidade.
B. Remixagem com metadados [00125] Conforme descrito na Seção VI, os sinais de áudio estéreo e de multicanais existentes podem ser remixados com a ajuda de informações colaterais adicionais (ou seja, metadados). Em vez
Petição 870190003565, de 11/01/2019, pág. 28/32
26/29 de somente vender conteúdo de áudio mixado estéreo e multicanais otimizado, os metadados podem ser vendidos permitindo assim que um usuário faça a remixagem de sua música estéreo e de multicanais. Isto pode ser utilizado, por exemplo, para atenuar os vocais em uma canção para karaokê ou para atenuar instrumentos específicos para que um instrumento seja tocado com a música.
[00126] Mesmo que o armazenamento não seja um problema, o esquema descrito seria muito atraente para permitir a mixagem customizada da música, já que é provável que a indústria fonográfica nunca deseje revelar as gravações de múltiplas faixas. O risco de uso abusivo é muito alto. O esquema proposto permite a capacidade de remixagem sem revelar as gravações de múltiplas faixas.
[00127] Além disso, assim que os sinais estéreos ou de multicanais são remixados, ocorre um certo grau de redução da qualidade, tornando a distribuição ilegal de remixes menos atraente.
c. Conversão de estéreo/multicanais em síntese de campo de onda [00128] Outra aplicação do esquema descrito na Seção VI é descrita a seguir. O áudio estéreo e de multicanais (por exemplo, surround 5.1) que acompanha filmes pode ser estendido para a síntese de campo de onda pela adição de informações colaterais. Por exemplo, Dolby AC-3 (áudio em DVD) pode ser estendido para áudio de codificação de compatibilidade regressiva 5.1 para sistemas de síntese de campo de onda, ou seja, som de playback surround 5.1 de DVDs em tocadores convencionais e som de síntese de campo de onda em uma nova geração de tocadores que suporta o processamento das informações colaterais.
VIII. AVALIAÇÕES SUBJETIVAS [00129] Implementamos um decodificador de tempo real dos
Petição 870190003565, de 11/01/2019, pág. 29/32
27/29 algoritmos propostos na Seção IV-A e IV-B. Um banco de filtro STFT baseado em FFT é utilizado. Um FFT de 1024 pontos e uma janela STFT com tamanho de 768 (com padding zero) são utilizados. Os coeficientes espectrais são agrupados de modo que cada grupo represente o sinal com uma largura de banda igual a duas vezes a largura de banda retangular equivalente (ERB). A audição informal revelou que a qualidade de áudio não melhorou notavelmente ao se escolher uma maior resolução de freqüência. Uma menor resolução de freqüência é favorável, pois resulta na transmissão de menos parâmetros.
[00130] Para cada fonte, a amplitude/variação gradual de retardo e o ganho podem ser ajustados individualmente. O algoritmo foi utilizado para codificação de várias gravações de áudio de múltiplas faixas com 12 a 14 faixas.
[00131] O decodificador permite a mixagem surround 5.1 utilizando um mixador de variação gradual da amplitude baseada em vetores (VBAP). A direção e o ganho de cada sinal de fonte podem ser ajustados. O software permite a comutação do tipo on-the-fly entre a mixagem do sinal de fonte codificado e a mixagem dos sinais de fonte originais discretos.
[00132] A audição casual geralmente revela pouca ou nenhuma diferença entre a mixagem dos sinais codificados ou dos sinais de fonte originais se, para cada fonte, um ganho G± igual a zero dB for utilizado. Quanto mais os ganhos de fonte são variados, mais artefatos ocorrem. Uma leve amplificação e atenuação das fontes (por exemplo, até ± 6 dB) ainda é satisfatória. Um cenário crítico ocorre quando todas as fontes são mixadas em um lado e somente uma única fonte no lado oposto. Nesse caso, a qualidade de áudio pode ser reduzida, dependendo da mixagem específica e dos sinais de fonte.
Petição 870190003565, de 11/01/2019, pág. 30/32
28/29
IX. CONCLUSÕES [00133] Foi proposto um esquema de codificação para codificação conjunta de sinais de fonte de áudio, por exemplo, os canais de uma gravação de múltiplas faixas. O objetivo não é codificar os formatos de onda do sinal de fonte com alta qualidade, caso no qual a codificação conjunta proporcionaria mínimo ganho de codificação uma vez que as fontes de áudio são geralmente independentes. O objetivo é que, quando os sinais de fonte codificados são mixados, um sinal de áudio de alta qualidade é obtido. Considerando as propriedades estatísticas dos sinais de fonte, as propriedades dos esquemas de mixagem e a audição espacial, foi demonstrado que uma melhora significativa do ganho de codificação é obtida por meio da codificação conjunta dos sinais de fonte.
[00134] A melhora no ganho de codificação ocorre devido ao fato de que somente uma forma de onda de áudio é transmitida.
[00135] Além disso, são transmitidas informações colaterais que representam as propriedades estatísticas dos sinais de fonte que são os fatores relevantes que determinam a percepção espacial do sinal final mixado.
[00136] A taxa de informações colaterais é de aproximadamente 3 kbs por sinal de fonte. Qualquer mixador pode ser aplicado com os sinais de fonte codificados, ou seja, mixadores estéreos, de multicanais ou de síntese de campo de onda.
[00137] É uma forma direta classificar o esquema proposto para maiores taxas de bits e qualidade por meio da transmissão de mais que um canal de áudio. Além disso, uma variação do esquema foi proposta, a qual permite a remixagem do referido sinal de áudio estéreo ou de multicanais (e mesmo a alteração do formato de áudio,
Petição 870190003565, de 11/01/2019, pág. 31/32
29/29 a saber, estéreo para multicanais ou síntese de campo de onda). [00138] As aplicações do esquema proposto são múltiplas.
Por exemplo, MPEG-4 poderia ser estendido com o esquema proposto para reduzir a taxa de bits quando mais que um “objeto de áudio natural” (sinal de fonte) precisar ser transmitido. Também, o esquema proposto oferece uma representação compacta do conteúdo para sistemas de síntese de campo de onda. Conforme mencionado, os sinais estéreos ou de multicanais existentes poderiam ser complementados com informações colaterais para permitir que o usuário faça a remixagem dos sinais a seu gosto.
REFERÊNCIAS [00139] [1] C. Faller, Parametric Coding of Spatial Audio,
Ph.D. thesis, Swiss Federal Institute of Technology Lausanne (EPFL), 2004, Ph.D. Thesis No. 3062.
[00140] [2] C. Faller and F. Baumgarte, Binaural Cue
Coding - Part II: Schemes and applications, IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
Claims (4)
1. Método para sintetizar uma pluralidade de canais de áudio, caracterizado por compreende:
recuperação de um fluxo de áudio pelo menos um sinal de soma representando uma soma de sinais de fonte, recuperação da informação estatística do fluxo de áudio sobre um ou mais sinais de fonte, recebimento do fluxo de áudio, ou determinar localmente, parâmetros descrevendo parâmetros de mistura de fonte, em que o formato de áudio de saída é um formato de áudio de saída estéreo, computação dos parâmetros do mixer de saída da informação estatística recebida, e os parâmetros de mistura de fonte, e sintetização da pluralidade de canais de áudio de pelo menos um sinal de soma com base nos parâmetros do mixer de saída computados, em que a computação dos parâmetros do mixer de saída dos compreende o cálculo dos fatores de ganho e o valor de coerência intercanal (ICC) para o formato de áudio de saída estéreo.
2/4 uma função de frequência e tempo da pluralidade de sinais de fonte.
2. Método, de acordo com a reivindicação 1, caracterizado pela informação estatística representa envelopes espectrais dos sinais de fonte, envelopes espectrais de um ou mais sinais de fonte compreendem parâmetros de filtro de malha ou parâmetros espectrais de linha, ou uma potência relativa como
Petição 870180146986, de 31/10/2018, pág. 82/91
3/4 subfaixa.
9. Método, de acordo com a reivindicação 1, caracterizado pela informação estatística ainda incluir funções de autocorrelação.
10. Método, de acordo com a reivindicação 2, caracterizado pelos envelopes espectrais serem representados como parâmetros de codificação preditiva linear.
11. Método, de acordo com a reivindicação 3, caracterizado pelas dicas computadas serem diferença de nível, diferença de tempo, ou coerência para diferentes frequências e instantes de tempo.
12. Aparelho disposto para sintetizar uma pluralidade de canais de áudio, o aparelho caracterizado por compreender:
meios para recuperação de um fluxo de áudio pelo menos um sinal de soma representando uma soma de sinais de fonte;
meios para recuperação da informação estatística do fluxo de áudio sobre um ou mais sinais de fonte;
meios para recebimento do fluxo de áudio, ou determinar localmente, parâmetros descrevendo um formato de áudio de saída e misturar parâmetros;
meios para computação parâmetros do mixer de saída da informação estatística recebida, e os parâmetros de mistura de fonte; e meios para sintetizar a pluralidade de canais de áudio pelo menos do sinal de soma com base nos parâmetros do
Petição 870180146986, de 31/10/2018, pág. 84/91
3. Método, de acordo com a reivindicação 2, caracterizado pela etapa de computação dos parâmetros do mixer de saída compreender as dicas de computação da pluralidade de canais de áudio e computação dos parâmetros do mixer de saída usando as dicas computadas da pluralidade de canais de áudio.
4. Método, de acordo com a reivindicação 1, caracterizado pelos canais de áudio serem sintetizados em um domínio de subfaixa de um banco de filtro.
5. Método, de acordo com a reivindicação 4, caracterizado por um número e larguras de banda do domínio de subfaixa serem determinados de acordo com uma resolução espectral e temporal de um sistema auditivo humano.
caracterizado pelas subfaixas no domínio de subfaixa ter diferentes larguras de banda, e subfaixas em frequências inferiores ter larguras de banda menores do que as subfaixas em frequências mais altas.
8. Método, de acordo com a reivindicação 4, caracterizado por uma transformada de Fourier de tempo curto com base no banco de filtro ser utilizada e coeficientes espectrais serem combinados para formar grupos de coeficientes espectrais de modo que cada grupo de coeficientes espectrais forme uma
Petição 870180146986, de 31/10/2018, pág. 83/91
4/4 mixer de saída computados, em que a computação dos parâmetros do mixer de saída dos compreende o cálculo dos fatores de ganho e o valor de coerência intercanal (ICC) para o formato de áudio de saída estéreo.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP05101055A EP1691348A1 (en) | 2005-02-14 | 2005-02-14 | Parametric joint-coding of audio sources |
EP051010551 | 2005-02-14 | ||
PCT/EP2006/050904 WO2006084916A2 (en) | 2005-02-14 | 2006-02-13 | Parametric joint-coding of audio sources |
BRPI0607166-0A BRPI0607166B1 (pt) | 2005-02-14 | 2006-02-13 | Codificação paramétrica conjunta de fontes de áudio |
Publications (1)
Publication Number | Publication Date |
---|---|
BR122018072508B1 true BR122018072508B1 (pt) | 2019-07-16 |
Family
ID=34938725
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR122018072505-2A BR122018072505B1 (pt) | 2005-02-14 | 2006-02-13 | Codificação paramétrica conjunta de fontes de áudio |
BRPI0607166-0A BRPI0607166B1 (pt) | 2005-02-14 | 2006-02-13 | Codificação paramétrica conjunta de fontes de áudio |
BR122018072508-7A BR122018072508B1 (pt) | 2005-02-14 | 2006-02-13 | Codificação paramétrica conjunta de fontes de áudio |
BR122018072501-0A BR122018072501B1 (pt) | 2005-02-14 | 2006-02-13 | Codificação paramétrica conjunta de fontes de áudio |
BR122018072504-4A BR122018072504B1 (pt) | 2005-02-14 | 2006-02-13 | Codificação paramétrica conjunta de fontes de áudio |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR122018072505-2A BR122018072505B1 (pt) | 2005-02-14 | 2006-02-13 | Codificação paramétrica conjunta de fontes de áudio |
BRPI0607166-0A BRPI0607166B1 (pt) | 2005-02-14 | 2006-02-13 | Codificação paramétrica conjunta de fontes de áudio |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR122018072501-0A BR122018072501B1 (pt) | 2005-02-14 | 2006-02-13 | Codificação paramétrica conjunta de fontes de áudio |
BR122018072504-4A BR122018072504B1 (pt) | 2005-02-14 | 2006-02-13 | Codificação paramétrica conjunta de fontes de áudio |
Country Status (18)
Country | Link |
---|---|
US (12) | US8355509B2 (pt) |
EP (4) | EP1691348A1 (pt) |
JP (2) | JP5179881B2 (pt) |
KR (1) | KR100924577B1 (pt) |
CN (2) | CN102123341B (pt) |
AT (1) | ATE531035T1 (pt) |
AU (3) | AU2006212191B2 (pt) |
BR (5) | BR122018072505B1 (pt) |
CA (2) | CA2707761C (pt) |
ES (2) | ES2374434T3 (pt) |
HK (2) | HK1107723A1 (pt) |
IL (1) | IL185192A (pt) |
MX (1) | MX2007009559A (pt) |
NO (1) | NO338701B1 (pt) |
PL (1) | PL1844465T3 (pt) |
RU (1) | RU2376654C2 (pt) |
TR (1) | TR201811059T4 (pt) |
WO (1) | WO2006084916A2 (pt) |
Families Citing this family (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
CN101151658B (zh) * | 2005-03-30 | 2011-07-06 | 皇家飞利浦电子股份有限公司 | 多声道音频编码和解码方法、编码器和解码器 |
WO2007004833A2 (en) | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
KR101218776B1 (ko) * | 2006-01-11 | 2013-01-18 | 삼성전자주식회사 | 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체 |
CN101410891A (zh) | 2006-02-03 | 2009-04-15 | 韩国电子通信研究院 | 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置 |
US20090177479A1 (en) * | 2006-02-09 | 2009-07-09 | Lg Electronics Inc. | Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof |
EP1853092B1 (en) * | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
US8027479B2 (en) * | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
ES2623226T3 (es) * | 2006-07-04 | 2017-07-10 | Dolby International Ab | Unidad de filtro y procedimiento de generación de respuestas al impulso de filtro de subbanda |
RU2407227C2 (ru) * | 2006-07-07 | 2010-12-20 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Концепция для объединения множества параметрически кодированных аудиоисточников |
RU2407072C1 (ru) * | 2006-09-29 | 2010-12-20 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов |
US20100040135A1 (en) * | 2006-09-29 | 2010-02-18 | Lg Electronics Inc. | Apparatus for processing mix signal and method thereof |
EP2071564A4 (en) | 2006-09-29 | 2009-09-02 | Lg Electronics Inc | METHOD AND DEVICES FOR CODING AND DECODING OBJECT-BASED AUDIO SIGNALS |
JP5232791B2 (ja) | 2006-10-12 | 2013-07-10 | エルジー エレクトロニクス インコーポレイティド | ミックス信号処理装置及びその方法 |
KR100891665B1 (ko) | 2006-10-13 | 2009-04-02 | 엘지전자 주식회사 | 믹스 신호의 처리 방법 및 장치 |
MY145497A (en) * | 2006-10-16 | 2012-02-29 | Dolby Sweden Ab | Enhanced coding and parameter representation of multichannel downmixed object coding |
BRPI0715312B1 (pt) | 2006-10-16 | 2021-05-04 | Koninklijke Philips Electrnics N. V. | Aparelhagem e método para transformação de parâmetros multicanais |
EP2092516A4 (en) * | 2006-11-15 | 2010-01-13 | Lg Electronics Inc | METHOD AND APPARATUS FOR AUDIO SIGNAL DECODING |
EP2095365A4 (en) * | 2006-11-24 | 2009-11-18 | Lg Electronics Inc | METHOD FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS AND APPARATUS THEREOF |
JP5081250B2 (ja) * | 2006-12-01 | 2012-11-28 | エルジー エレクトロニクス インコーポレイティド | 命令入力装置及び方法、メディア信号のユーザインタフェース表示方法及びその具現装置、並びにミックス信号処理装置及びその方法 |
CN101632117A (zh) | 2006-12-07 | 2010-01-20 | Lg电子株式会社 | 用于解码音频信号的方法和装置 |
EP2122613B1 (en) | 2006-12-07 | 2019-01-30 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
CN101578656A (zh) * | 2007-01-05 | 2009-11-11 | Lg电子株式会社 | 用于处理音频信号的装置和方法 |
CN101542596B (zh) * | 2007-02-14 | 2016-05-18 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
EP2115739A4 (en) | 2007-02-14 | 2010-01-20 | Lg Electronics Inc | METHODS AND APPARATUSES FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS |
WO2008106680A2 (en) * | 2007-03-01 | 2008-09-04 | Jerry Mahabub | Audio spatialization and environment simulation |
US8463413B2 (en) | 2007-03-09 | 2013-06-11 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
KR20080082917A (ko) | 2007-03-09 | 2008-09-12 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 이의 장치 |
WO2008114984A1 (en) * | 2007-03-16 | 2008-09-25 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
US8612237B2 (en) * | 2007-04-04 | 2013-12-17 | Apple Inc. | Method and apparatus for determining audio spatial quality |
AU2008243406B2 (en) | 2007-04-26 | 2011-08-25 | Dolby International Ab | Apparatus and method for synthesizing an output signal |
ES2593822T3 (es) * | 2007-06-08 | 2016-12-13 | Lg Electronics Inc. | Método y aparato para procesar una señal de audio |
US9118805B2 (en) | 2007-06-27 | 2015-08-25 | Nec Corporation | Multi-point connection device, signal analysis and device, method, and program |
JP5556175B2 (ja) | 2007-06-27 | 2014-07-23 | 日本電気株式会社 | 信号分析装置と、信号制御装置と、そのシステム、方法及びプログラム |
US8295494B2 (en) * | 2007-08-13 | 2012-10-23 | Lg Electronics Inc. | Enhancing audio with remixing capability |
AU2008295723B2 (en) | 2007-09-06 | 2011-03-24 | Lg Electronics Inc. | A method and an apparatus of decoding an audio signal |
GB2453117B (en) | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
KR101464977B1 (ko) * | 2007-10-01 | 2014-11-25 | 삼성전자주식회사 | 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치 |
WO2009050896A1 (ja) * | 2007-10-16 | 2009-04-23 | Panasonic Corporation | ストリーム合成装置、復号装置、方法 |
US8527282B2 (en) | 2007-11-21 | 2013-09-03 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
JP2009128559A (ja) * | 2007-11-22 | 2009-06-11 | Casio Comput Co Ltd | 残響効果付加装置 |
EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
CN101547265B (zh) * | 2008-10-20 | 2014-07-30 | 华为终端有限公司 | 一种3d音频会议的信号处理方法、设备以及系统 |
WO2010045869A1 (zh) * | 2008-10-20 | 2010-04-29 | 华为终端有限公司 | 一种3d音频信号处理的方法、系统和装置 |
JP5603339B2 (ja) | 2008-10-29 | 2014-10-08 | ドルビー インターナショナル アーベー | 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護 |
KR101137361B1 (ko) * | 2009-01-28 | 2012-04-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
MX2011009660A (es) | 2009-03-17 | 2011-09-30 | Dolby Int Ab | Codificacion estereo avanzada basada en una combinacion de codificacion izquierda/derecha o media/lateral seleccionable de manera adaptable y de codificacion estereo parametrica. |
GB2470059A (en) * | 2009-05-08 | 2010-11-10 | Nokia Corp | Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter |
CN102804808B (zh) * | 2009-06-30 | 2015-05-27 | 诺基亚公司 | 用于呈现空间音频的方法及装置 |
CN102792378B (zh) * | 2010-01-06 | 2015-04-29 | Lg电子株式会社 | 处理音频信号的设备及其方法 |
EP2485213A1 (en) | 2011-02-03 | 2012-08-08 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Semantic audio track mixer |
TW202339510A (zh) | 2011-07-01 | 2023-10-01 | 美商杜比實驗室特許公司 | 用於適應性音頻信號的產生、譯碼與呈現之系統與方法 |
CA2971002A1 (en) | 2011-09-18 | 2013-03-21 | Touchtunes Music Corporation | Digital jukebox device with karaoke and/or photo booth features, and associated methods |
CN103050124B (zh) | 2011-10-13 | 2016-03-30 | 华为终端有限公司 | 混音方法、装置及系统 |
KR20130093783A (ko) * | 2011-12-30 | 2013-08-23 | 한국전자통신연구원 | 오디오 객체 전송 장치 및 방법 |
US10844689B1 (en) | 2019-12-19 | 2020-11-24 | Saudi Arabian Oil Company | Downhole ultrasonic actuator system for mitigating lost circulation |
JP6174129B2 (ja) | 2012-05-18 | 2017-08-02 | ドルビー ラボラトリーズ ライセンシング コーポレイション | パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム |
CN102695116B (zh) * | 2012-05-30 | 2015-06-03 | 蒋憧 | 一种声音采集、处理和再现方法 |
CN104782145B (zh) | 2012-09-12 | 2017-10-13 | 弗劳恩霍夫应用研究促进协会 | 为3d音频提供增强的导引降混性能的装置及方法 |
EP2898506B1 (en) | 2012-09-21 | 2018-01-17 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
CN104956689B (zh) * | 2012-11-30 | 2017-07-04 | Dts(英属维尔京群岛)有限公司 | 用于个性化音频虚拟化的方法和装置 |
TWI618050B (zh) * | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於音訊處理系統中之訊號去相關的方法及設備 |
KR20230144652A (ko) | 2013-03-28 | 2023-10-16 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링 |
KR102332968B1 (ko) * | 2013-04-26 | 2021-12-01 | 소니그룹주식회사 | 음성 처리 장치, 정보 처리 방법, 및 기록 매체 |
EP2830052A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension |
EP2830047A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
KR102484214B1 (ko) * | 2013-07-31 | 2023-01-04 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱 |
EP2879131A1 (en) | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
EP3127110B1 (en) | 2014-04-02 | 2018-01-31 | Dolby International AB | Exploiting metadata redundancy in immersive audio metadata |
RU2571921C2 (ru) * | 2014-04-08 | 2015-12-27 | Общество с ограниченной ответственностью "МедиаНадзор" | Способ фильтрации бинауральных воздействий в аудиопотоках |
CN104036788B (zh) * | 2014-05-29 | 2016-10-05 | 北京音之邦文化科技有限公司 | 音频文件的音质识别方法及装置 |
CN105336333B (zh) * | 2014-08-12 | 2019-07-05 | 北京天籁传音数字技术有限公司 | 多声道声音信号编码方法、解码方法及装置 |
BR112017008015B1 (pt) * | 2014-10-31 | 2023-11-14 | Dolby International Ab | Métodos e sistemas de decodificação e codificação de áudio |
CN112802496A (zh) | 2014-12-11 | 2021-05-14 | 杜比实验室特许公司 | 元数据保留的音频对象聚类 |
CN106033671B (zh) * | 2015-03-09 | 2020-11-06 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
EP3285257A4 (en) | 2015-06-17 | 2018-03-07 | Samsung Electronics Co., Ltd. | Method and device for processing internal channels for low complexity format conversion |
KR102636396B1 (ko) * | 2015-09-25 | 2024-02-15 | 보이세지 코포레이션 | 스테레오 사운드 신호를 1차 및 2차 채널로 시간 영역 다운 믹싱하기 위해 좌측 및 우측 채널들간의 장기 상관 차이를 이용하는 방법 및 시스템 |
US11152014B2 (en) | 2016-04-08 | 2021-10-19 | Dolby Laboratories Licensing Corporation | Audio source parameterization |
US10224042B2 (en) | 2016-10-31 | 2019-03-05 | Qualcomm Incorporated | Encoding of multiple audio signals |
US10424307B2 (en) * | 2017-01-03 | 2019-09-24 | Nokia Technologies Oy | Adapting a distributed audio recording for end user free viewpoint monitoring |
JP6787183B2 (ja) * | 2017-02-28 | 2020-11-18 | ヤマハ株式会社 | 音制御装置及び方法 |
EP3622509B1 (en) * | 2017-05-09 | 2021-03-24 | Dolby Laboratories Licensing Corporation | Processing of a multi-channel spatial audio format input signal |
EP3949179A1 (en) | 2019-04-05 | 2022-02-09 | TLS Corp. | Distributed audio mixing |
CN113096672B (zh) * | 2021-03-24 | 2022-06-14 | 武汉大学 | 一种应用于低码率下的多音频对象编解码方法 |
Family Cites Families (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4544919A (en) * | 1982-01-03 | 1985-10-01 | Motorola, Inc. | Method and means of determining coefficients for linear predictive coding |
JPH0650439B2 (ja) * | 1986-07-17 | 1994-06-29 | 日本電気株式会社 | マルチパルス駆動形音声符号化器 |
JP2659605B2 (ja) * | 1990-04-23 | 1997-09-30 | 三菱電機株式会社 | 音声復号化装置及び音声符号化・復号化装置 |
US5764779A (en) * | 1993-08-25 | 1998-06-09 | Canon Kabushiki Kaisha | Method and apparatus for determining the direction of a sound source |
US5651090A (en) * | 1994-05-06 | 1997-07-22 | Nippon Telegraph And Telephone Corporation | Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor |
US5712437A (en) * | 1995-02-13 | 1998-01-27 | Yamaha Corporation | Audio signal processor selectively deriving harmony part from polyphonic parts |
JP2766466B2 (ja) * | 1995-08-02 | 1998-06-18 | 株式会社東芝 | オーディオ方式、その再生方法、並びにその記録媒体及びその記録媒体への記録方法 |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
DE19632734A1 (de) * | 1996-08-14 | 1998-02-19 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zum Generieren eines Mehrton-Signals aus einem Mono-Signal |
US5912976A (en) * | 1996-11-07 | 1999-06-15 | Srs Labs, Inc. | Multi-channel audio enhancement system for use in recording and playback and methods for providing same |
US5886276A (en) * | 1997-01-16 | 1999-03-23 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for multiresolution scalable audio signal encoding |
US6131084A (en) | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
US6005948A (en) * | 1997-03-21 | 1999-12-21 | Sony Corporation | Audio channel mixing |
JPH11109995A (ja) * | 1997-10-01 | 1999-04-23 | Victor Co Of Japan Ltd | 音響信号符号化器 |
SE519552C2 (sv) * | 1998-09-30 | 2003-03-11 | Ericsson Telefon Ab L M | Flerkanalig signalkodning och -avkodning |
US6188987B1 (en) * | 1998-11-17 | 2001-02-13 | Dolby Laboratories Licensing Corporation | Providing auxiliary information with frame-based encoded audio information |
JP4610087B2 (ja) * | 1999-04-07 | 2011-01-12 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | 損失のない符号化・復号へのマトリックス改良 |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
TW510143B (en) * | 1999-12-03 | 2002-11-11 | Dolby Lab Licensing Corp | Method for deriving at least three audio signals from two input audio signals |
US6351733B1 (en) | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US7212872B1 (en) * | 2000-05-10 | 2007-05-01 | Dts, Inc. | Discrete multichannel audio with a backward compatible mix |
SE0001926D0 (sv) * | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
SE519985C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US7292901B2 (en) * | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US20100042406A1 (en) * | 2002-03-04 | 2010-02-18 | James David Johnston | Audio signal processing using improved perceptual model |
EP1500084B1 (en) * | 2002-04-22 | 2008-01-23 | Koninklijke Philips Electronics N.V. | Parametric representation of spatial audio |
ATE354161T1 (de) * | 2002-04-22 | 2007-03-15 | Koninkl Philips Electronics Nv | Signalsynthese |
JP4013822B2 (ja) * | 2002-06-17 | 2007-11-28 | ヤマハ株式会社 | ミキサ装置およびミキサプログラム |
KR100981699B1 (ko) * | 2002-07-12 | 2010-09-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
KR20050021484A (ko) | 2002-07-16 | 2005-03-07 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
WO2004028204A2 (en) * | 2002-09-23 | 2004-04-01 | Koninklijke Philips Electronics N.V. | Generation of a sound signal |
EP1552724A4 (en) | 2002-10-15 | 2010-10-20 | Korea Electronics Telecomm | METHOD FOR GENERATING AND USING A 3D AUDIOSCENCE WITH EXTENDED EFFICIENCY OF SOUND SOURCE |
US7243064B2 (en) * | 2002-11-14 | 2007-07-10 | Verizon Business Global Llc | Signal processing of multi-channel data |
US20040117186A1 (en) * | 2002-12-13 | 2004-06-17 | Bhiksha Ramakrishnan | Multi-channel transcription-based speaker separation |
US20040176950A1 (en) * | 2003-03-04 | 2004-09-09 | Docomo Communications Laboratories Usa, Inc. | Methods and apparatuses for variable dimension vector quantization |
WO2005031704A1 (en) * | 2003-09-29 | 2005-04-07 | Koninklijke Philips Electronics N.V. | Encoding audio signals |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7725324B2 (en) * | 2003-12-19 | 2010-05-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Constrained filter encoding of polyphonic signals |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
SE0400997D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Efficient coding of multi-channel audio |
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
CN1954362B (zh) * | 2004-05-19 | 2011-02-02 | 松下电器产业株式会社 | 音频信号编码装置及音频信号解码装置 |
US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
US20060009274A1 (en) * | 2004-07-08 | 2006-01-12 | Richard Finocchio | Method of playing a game of roulette |
TWI393121B (zh) * | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式 |
JP4963962B2 (ja) * | 2004-08-26 | 2012-06-27 | パナソニック株式会社 | マルチチャネル信号符号化装置およびマルチチャネル信号復号装置 |
US20060048226A1 (en) * | 2004-08-31 | 2006-03-02 | Rits Maarten E | Dynamic security policy enforcement |
DE102004043521A1 (de) * | 2004-09-08 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes |
DE102004049347A1 (de) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
SE0402652D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
SE0402650D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
US7787631B2 (en) * | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
EP1691348A1 (en) | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
ATE521143T1 (de) * | 2005-02-23 | 2011-09-15 | Ericsson Telefon Ab L M | Adaptive bitzuweisung für die mehrkanal- audiokodierung |
RU2007143418A (ru) * | 2005-05-25 | 2009-05-27 | Конинклейке Филипс Электроникс Н.В. (Nl) | Кодирование с предсказанием многоканального сигнала |
WO2007004833A2 (en) * | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
EP2122613B1 (en) * | 2006-12-07 | 2019-01-30 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
US9111525B1 (en) * | 2008-02-14 | 2015-08-18 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Apparatuses, methods and systems for audio processing and transmission |
US8332229B2 (en) * | 2008-12-30 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte. Ltd. | Low complexity MPEG encoding for surround sound recordings |
EP2875511B1 (en) * | 2012-07-19 | 2018-02-21 | Dolby International AB | Audio coding for improving the rendering of multi-channel audio signals |
-
2005
- 2005-02-14 EP EP05101055A patent/EP1691348A1/en not_active Withdrawn
-
2006
- 2006-02-13 EP EP08015073A patent/EP1995721A1/en not_active Withdrawn
- 2006-02-13 AT AT06708241T patent/ATE531035T1/de not_active IP Right Cessation
- 2006-02-13 BR BR122018072505-2A patent/BR122018072505B1/pt active IP Right Grant
- 2006-02-13 BR BRPI0607166-0A patent/BRPI0607166B1/pt active IP Right Grant
- 2006-02-13 MX MX2007009559A patent/MX2007009559A/es active IP Right Grant
- 2006-02-13 RU RU2007134215/09A patent/RU2376654C2/ru active
- 2006-02-13 BR BR122018072508-7A patent/BR122018072508B1/pt active IP Right Grant
- 2006-02-13 EP EP06708241A patent/EP1844465B1/en active Active
- 2006-02-13 CA CA2707761A patent/CA2707761C/en active Active
- 2006-02-13 BR BR122018072501-0A patent/BR122018072501B1/pt active IP Right Grant
- 2006-02-13 WO PCT/EP2006/050904 patent/WO2006084916A2/en active Application Filing
- 2006-02-13 CA CA2597746A patent/CA2597746C/en active Active
- 2006-02-13 EP EP10179108.5A patent/EP2320414B1/en active Active
- 2006-02-13 TR TR2018/11059T patent/TR201811059T4/tr unknown
- 2006-02-13 ES ES06708241T patent/ES2374434T3/es active Active
- 2006-02-13 CN CN2011100613628A patent/CN102123341B/zh active Active
- 2006-02-13 PL PL06708241T patent/PL1844465T3/pl unknown
- 2006-02-13 JP JP2007554579A patent/JP5179881B2/ja active Active
- 2006-02-13 KR KR1020077018381A patent/KR100924577B1/ko active IP Right Grant
- 2006-02-13 AU AU2006212191A patent/AU2006212191B2/en active Active
- 2006-02-13 CN CN2006800047285A patent/CN101133441B/zh active Active
- 2006-02-13 ES ES10179108.5T patent/ES2682073T3/es active Active
- 2006-02-13 BR BR122018072504-4A patent/BR122018072504B1/pt active IP Right Grant
-
2007
- 2007-07-24 NO NO20073892A patent/NO338701B1/no unknown
- 2007-08-10 US US11/837,123 patent/US8355509B2/en active Active
- 2007-08-12 IL IL185192A patent/IL185192A/en active IP Right Grant
- 2007-12-07 HK HK07113398.4A patent/HK1107723A1/xx unknown
-
2009
- 2009-02-04 AU AU2009200407A patent/AU2009200407B2/en active Active
-
2010
- 2010-10-27 AU AU2010236053A patent/AU2010236053B2/en active Active
-
2011
- 2011-12-14 HK HK11113485.2A patent/HK1159392A1/xx unknown
-
2012
- 2012-07-11 JP JP2012155121A patent/JP5638037B2/ja active Active
- 2012-08-22 US US13/591,255 patent/US9668078B2/en active Active
-
2016
- 2016-11-08 US US15/345,569 patent/US10339942B2/en active Active
-
2018
- 2018-10-29 US US16/172,935 patent/US10657975B2/en active Active
- 2018-10-29 US US16/172,938 patent/US10643628B2/en active Active
- 2018-10-29 US US16/172,939 patent/US10650835B2/en active Active
- 2018-10-29 US US16/172,941 patent/US10643629B2/en active Active
-
2020
- 2020-04-08 US US16/843,338 patent/US11495239B2/en active Active
-
2022
- 2022-08-11 US US17/886,170 patent/US11621006B2/en active Active
- 2022-08-11 US US17/886,173 patent/US11621007B2/en active Active
- 2022-08-11 US US17/886,162 patent/US11621005B2/en active Active
- 2022-08-11 US US17/886,177 patent/US11682407B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11621005B2 (en) | Parametric joint-coding of audio sources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 16/07/2019, OBSERVADAS AS CONDICOES LEGAIS. (CO) 10 (DEZ) ANOS CONTADOS A PARTIR DE 16/07/2019, OBSERVADAS AS CONDICOES LEGAIS |