BR112014003663A2 - matrizes de mixagem ideal e uso de descorrelacionadores no processamento de áudio espacial - Google Patents
matrizes de mixagem ideal e uso de descorrelacionadores no processamento de áudio espacial Download PDFInfo
- Publication number
- BR112014003663A2 BR112014003663A2 BR112014003663-2A BR112014003663A BR112014003663A2 BR 112014003663 A2 BR112014003663 A2 BR 112014003663A2 BR 112014003663 A BR112014003663 A BR 112014003663A BR 112014003663 A2 BR112014003663 A2 BR 112014003663A2
- Authority
- BR
- Brazil
- Prior art keywords
- matrix
- covariance
- signal
- mixing
- properties
- Prior art date
Links
- 238000012545 processing Methods 0.000 title abstract description 13
- 238000002156 mixing Methods 0.000 claims abstract description 101
- 239000011159 matrix material Substances 0.000 claims description 287
- 239000000203 mixture Substances 0.000 claims description 83
- 238000000034 method Methods 0.000 claims description 45
- 238000009472 formulation Methods 0.000 claims description 30
- 229910052700 potassium Inorganic materials 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 19
- 230000006872 improvement Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims description 4
- 101100194817 Caenorhabditis elegans rig-6 gene Proteins 0.000 claims 1
- 241000183024 Populus tremula Species 0.000 claims 1
- 239000008186 active pharmaceutical agent Substances 0.000 claims 1
- 235000008429 bread Nutrition 0.000 claims 1
- 239000013256 coordination polymer Substances 0.000 claims 1
- 210000003734 kidney Anatomy 0.000 claims 1
- 150000003839 salts Chemical class 0.000 claims 1
- 239000002699 waste material Substances 0.000 claims 1
- 229910052698 phosphorus Inorganic materials 0.000 description 14
- 238000009792 diffusion process Methods 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 11
- 239000000243 solution Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000003321 amplification Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 210000002370 ICC Anatomy 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011049 filling Methods 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000010988 intraclass correlation coefficient Methods 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/18—Selecting circuits
- G10H1/183—Channel-assigning means for polyphonic instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Amplifiers (AREA)
Abstract
MATRIZES DE MIXAGEM IDEAL E USO DE DESCORRELACIONADORES NO PROCESSAMENTO DE ÁUDIO ESPACIAL
Um aparelho para gerar um sinal de saída de áudio com dois ou mais canais de saída de áudio de um sinal de entrada de áudio com dois canais de entrada de áudio ou mais é fornecido. O aparelho compreende um provedor (110) e um processador de sinal ( 120) . O provedor ( 110) é adaptado para fornecer as primeiras propriedades de covariância do sinal de entrada de áudio. O processador de sinal (120) é adaptado para gerar o sinal de saída de áudio aplicando uma regra de mixagem em, pelo menos, dois de dois canais de entrada de áudio ou mais. O processador de sinal ( 120) é configurado para determinar a regra de mixagem com base nas primeiras propriedades de covariância do sinal de entrada de áudio e com base nas segundas propriedades de covariância do sinal de saída de áudio,
as segundas propriedades de covariância diferentes das primeiras propriedades de covariância
Description
i 1/45 - “MATRIZES DE MIXAGEM IDEAL E USO DE DESCORRELACIONADORES NO PROCESSAMENTO DE ÁUDIO ESPACIAL”.
DESCRIÇÃO A presente invenção refere-se ao processamento do sinal de áudio e, em particular, a um aparelho e um método que emprega matrizes de mixagem ideal e, além disso, ao uso de descorrelacionadores no processamento de áudio espacial. O processamento de áudio se torna mais e mais importante. No processamento perceptual de áudio espacial, uma suposição típica é a de que o aspecto espacial de um som reproduzido por um alto-falante é determinado especialmente pelas energias e as dependências alinhadas pelo tempo entre os canais de áudio nas faixas de frequência perceptuais. Isso é encontrado na observação que estas características, quando reproduzidas nos 15º alto-falantes, transferem em diferenças de nível interaural, diferenças de tempo interaural e coerências interaurais, que são os sinais binaurais da percepção espacial. A partir deste conceito, vários métodos de processamento espaciais surgiram, incluindo upmixing, vide
[1] C. Faller, “Multiple-Loudspeaker Playback of Stereo Signals”, Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006, e microfonia espacial, vide, por exemplo,
[2] V. Pulkki, “Spatial Sound Reproduction with Directional Audio Coding”, Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007; e
[3] C. Tournery, C. Faller, F. Kuúuch, JJ. Herre, “Converting Stereo Microphone Signals Directly to MPEG Surround”,
| 3/45 = tipicamente sinais do microfone de primeira ordem, que são por meios da mixagem, posição da amplitude e decorrelação processada para perceptualmente aproximar um campo de som medido. No upmixing (vide [1]), os canais de entrada estéreo são, novamente, como função de tempo e frequência distribuídos de forma adaptativa a uma configuração surround.
É um objetivo da presente invenção fornecer conceitos melhorados para gerar a partir de um conjunto de canais de entrada um conjunto de canais de saída com propriedades definidas. O objetivo da presente invenção é solucionado por um aparelho de acordo com a reivindicação 1, por um método, de acordo com a reivindicação 25 e por um programa de computador, de acordo com a reivindicação 26.
Um aparelho para gerar um sinal de saída de áudio 15º com dois ou mais canais de saída de áudio a partir um sinal de entrada de áudio com dois ou mais canais de entrada de áudio é fornecido. O aparelho compreende um provedor e um processador de sinal. O provedor é adaptado para fornecer primeiras propriedades de covariância do sinal de entrada de áudio. O processador de sinal é adaptado para gerar oO sinal de saída de áudio aplicando uma regra de mixagem em, pelo menos, dois dos dois canais de entrada de áudio ou mais. O processador de sinal é configurado para determinar a regra de mixagem com base nas primeiras propriedades de covariância do sinal de entrada de áudio e com base nas segundas propriedades de covariância do sinal de saída de áudio, as segundas propriedades de covariância diferentes das primeiras propriedades de covariância.
Por exemplo, as energias do canal e as
| 4/45 - dependências alinhadas pelo tempo podem ser expressas pela parte real da matriz de covariância do sinal, por exemplo, nas faixas de frequência perceptuais. A seguir, um conceito geralmente aplicável para processar o som espacial neste domínio é apresentado. O conceito compreende uma solução de mixagem adaptativa para atingir dadas propriedades de covariância alvo (as segundas propriedades de covariância), por exemplo, uma dada matriz de covariância alvo, pelo melhor uso dos componentes independentes nos canais de entrada. Em uma aplicação, meios podem ser fornecidos para injetar a quantidade necessária da energia de som descorrelacionada, quando o alvo não é obtido de outra forma. Este conceito é robusto em sua função e pode ser aplicado em vários casos de uso. As propriedades de covariância alvo podem, por exemplo, ser fornecidas por um usuário. Por exemplo, um aparelho de acordo com 15º uma utilização pode ter meios de modo que um usuário possa inserir as propriedades de covariância.
De acordo com uma aplicação, O provedor pode ser adaptado para fornecer as primeiras propriedades de covariância, caracterizado pelas primeiras propriedades de covariância terem um primeiro estado para uma primeira posição de tempo-frequência e, em que as primeiras propriedades de covariância têm um segundo estado, diferente do primeiro estado, para uma segunda posição de tempo-frequência, diferente da primeira posição de tempo- frequência. O provedor não necessariamente precisa realizar a análise para obter as propriedades de covariância, mas pode fornecer estes dados de um armazenamento, uma entrada do usuário ou de fontes semelhantes.
Em outra aplicação, O processador de sinal pode i 5/45 - ser adaptado para determinar a regra de mixagem com base nas segundas “propriedades de covariância, em que as segundas propriedades de covariância têm um terceiro estado para uma terceira posição de tempo-frequência e, em que as segundas propriedades de covariância têm um quarto estado, diferente do terceiro estado para uma quarta posição de tempo-frequência, diferente da terceira posição de tempo-frequência.
De acordo com outra aplicação, O processador de sinal é adaptado para gerar o sinal de saída de áudio aplicando a regra de mixagem de modo que cada um de dois ou mais canais de saída de áudio depende de cada um de dois ou mais canais de entrada de áudio.
Em outra aplicação, O processador de sinal pode ser adaptado para determinar a regra de mixagem de modo que uma 15º medição de erro seja reduzida.
Uma medição de erro pode, por exemplo, ser um sinal de diferença absoluta entre um sinal de saída de referência e um sinal de saída real.
Em uma aplicação, uma medição de erro pode, por exemplo, ser uma medição dependendo de | yres =yl1? caracterizado por y ser o sinal de saída de áudio, em que Yrer = Qx, em que x especifica o sinal de entrada de áudio e em que Q é uma matriz de mapeamento, que pode ser específica da aplicação, de modo que yr. especifica um sinal de saída de áudio alvo de referência.
De acordo com outra aplicação, O processador de
| 6/45 ú sinal pode ser adaptado para determinar a regra de mixagem de modo que e=E [|lyer—x1?] seja reduzido, caracterizado por E ser um operador de expectativa, em que Yre É um ponto de referência definido e em que y é o sinal de saída de áudio.
De acordo com outra aplicação, O processador de sinal pode ser configurado para determinar a regra de mixagem determinando as segundas propriedades de covariância, caracterizado pelo processador de sinal poder ser configurado para determinar as segundas propriedades de covariância com base nas primeiras propriedades de covariância.
De acordo com outra aplicação, O processador de sinal pode ser adaptado para determinar uma matriz de mixagem como a regra de mixagem, caracterizado pelo processador de sinal poder ser adaptado para determinar a matriz de mixagem com base nas primeiras propriedades de covariância e com base nas segundas propriedades de covariância.
Em outra aplicação, o provedor pode ser adaptado para analisar as primeiras propriedades de covariância determinando uma primeira matriz de covariância do sinal de entrada de áudio e caracterizado pelo processador de sinal poder ser configurado para determinar a regra de mixagem com base em uma segunda matriz de covariância do sinal de saída de áudio como as segundas propriedades de covariância.
De acordo com outra aplicação, O provedor pode ser adaptado para determinar a primeira matriz de covariância de modo que cada valor da diagonal da primeira matriz de covariância
| 7/45 - possa indicar uma energia de um dos canais de entrada de áudio e de modo que cada valor da primeira matriz de covariância que não é um valor da diagonal possa indicar uma correlação intercanal entre um primeiro canal de entrada de áudio e um segundo canal de entrada de áudio diferente.
De acordo com outra aplicação, O processador de sinal pode ser configurado para determinar a regra de mixagem com base na segunda matriz de covariância, caracterizado por cada valor da diagonal da segunda matriz de covariância poder indicar uma energia de um dos canais de saída de áudio e em que cada valor da segunda matriz de covariância que não é um valor da diagonal possa indicar uma correlação intercanal entre um primeiro canal de saída de áudio e um segundo canal de saída de áudio.
De acordo com outra aplicação, O processador de sinal pode ser adaptado para determinar a matriz de mixagem de modo que: M=K,PK; de modo que K KT =C, K,K; =C, caracterizado por M ser a matriz de mixagem, em que C, é a primeira matriz de covariância, em que C, é a segunda matriz de covariância, em que K” é uma primeira matriz transposta de uma primeira matriz decomposta K,., em que K, é uma segunda matriz transposta de uma segunda matriz decomposta K,, em que K7 é uma matriz inversa da primeira matriz decomposta K, e em que P é uma primeira matriz unitária.
Em outra aplicação, O processador de sinal pode
. ser adaptado para determinar a matriz de mixagem de modo que M=K,PK; caracterizado por Pp=WwW em que U' é uma terceira matriz transposta de uma segunda matriz unitária U, em que V é uma terceira matriz unitária, em que USVT = KIQTK, em que Q' é uma quarta matriz transposta da matriz de downmix Q, em que V” é uma quinta matriz transposta da terceira matriz unitária V e, em que S é uma matriz diagonal.
De acordo com outra aplicação, O processador de sinal é adaptado para determinar uma matriz de mixagem como a regra de mixagem, caracterizado pelo processador de sinal ser 15º adaptado para determinar a matriz de mixagem com base nas primeiras propriedades de covariância e com base nas segundas propriedades de covariância, em que o provedor é para fornecer ou analisar as primeiras propriedades de covariância determinando uma primeira matriz de covariância do sinal de entrada de áudio e, em que o processador de sinal é configurado para determinar a regra de mixagem com base em uma segunda matriz de covariância do sinal de saída de áudio como as segundas propriedades de covariância, em que processador de sinal é configurado para modificar, pelo menos, alguns valores da diagonal de uma matriz diagonal S, quando os valores da matriz diagonal S, são zero ou menores do que uma valor limite predeterminado, de modo que os valores sejam maiores do que ou iguais ao valor limite, em que o processador de sinal é adaptado para determinar a matriz de mixagem com base na matriz i 9/45 : diagonal.
Entretanto, o valor limite não precisa ser necessariamente predeterminado, mas pode ainda depender de uma função.
Em outra aplicação, O processador de sinal é configurado para modificar, pelo menos, alguns valores da diagonal da matriz diagonal S,, caracterizado por K, =U,S,Vie, em que C,=K, KT , em que C, é a primeira matriz de covariância, em que S, é a matriz diagonal, em que U, é uma segunda matriz, vi é uma terceira matriz transposta e em que Ki é uma quarta matriz transposta da quinta matriz K,.. As matrizes V, e U, podem ser matrizes unitárias.
De acordo com outra aplicação, O processador de sinal é adaptado para gerar o sinal de saída de áudio aplicando a regra de mixagem em, pelo menos, dois dos dois canais de entrada 15º de áudio ou mais para obter um sinal intermediário y=Mx e adicionando um sinal residual r ao sinal intermediário para obter o sinal de saída de áudio.
Em outra aplicação, O processador de sinal é adaptado para determinar a matriz de mixagem com base em uma matriz de ganho diagonal G e uma matriz intermediária M, de modo que M'=GM, caracterizada pela matriz de ganho diagonal ter o valor G(i,i) = fa à Cy(i,) onde O, =MC,M" r 2 em que M' é a matriz de mixagem, em que G é a matriz de ganho diagonal e em que M é à matriz intermediária, em que C, é a segunda matriz de covariância e em que M' «é uma quinta i 10/45 . matriz transposta da matriz M.
As aplicações preferenciais da presente invenção serão explicadas com referência às figuras em que: A Figura 1 ilustra um aparelho para gerar um sinal de saída de áudio com dois ou mais canais de saída de áudio de um sinal de entrada de áudio com dois ou mais canais de entrada de áudio de acordo com uma aplicação, A Figura 2 descreve um processador de sinal de acordo com uma aplicação, A Figura 3 mostra um exemplo para aplicar uma combinação linear de vetores L e R para atingir um novo conjunto de vetor R' e L', A Figura 4 ilustra um diagrama em blocos de um aparelho de acordo com outra aplicação, A Figura 5 mostra um diagrama que descreve um sinal de microfone de coincidência estéreo no codificador Surround MPEG de acordo com uma aplicação, A Figura 6 descreve um aparelho de acordo com outra utilização referente ao nível de correção/ICC downmix para um codificador SAM-para-MPS, A Figura 7 descreve um aparelho de acordo com uma utilização para uma melhoria para pequenas matrizes de microfone espaçadas, A Figura 8 ilustra um aparelho de acordo com outra utilização para melhoria cega da qualidade do som espacial na reprodução estéreo ou multicanal, A Figura 9 ilustra a melhoria das configurações estreitas do alto-falante,
: 11/45 . A Figura 10 descreve um a utilização que fornece a interpretação da Codificação de Áudio Direcional com base em um sinal de microfone em formato B, A Figura 11 ilustra a tabela 1 que mostra exemplos numéricos de uma aplicação, e A Figura 12 descreve a lista 1 que mostra uma implementação Matlab de um método de acordo com uma aplicação.
A Figura 1 ilustra um aparelho para gerar um sinal de saída de áudio com dois ou mais canais de saída de áudio de um sinal de entrada de áudio com dois ou mais canais de entrada de áudio de acordo com uma aplicação.
O aparelho compreende um provedor 110 e um processador de sinal 120. O provedor 110 é adaptado para receber o sinal de entrada de áudio com dois ou mais canais de entrada de áudio.
Além disso, o provedor 110 é adaptado 15º para analisar as primeiras propriedades de covariância do sinal de entrada de áudio.
O provedor 110 é ainda adaptado para fornecer as primeiras propriedades de covariância ao processador de sinal 120. O processador de sinal 120 é ainda adaptado para receber o sinal de entrada de áudio.
O processador de sinal 120 é ainda adaptado para gerar o sinal de saída de áudio aplicando uma regra de mixagem em, pelo menos, dois dos dois canais de entrada ou mais do sinal de entrada de áudio.
O processador de sinal 120 é configurado para determinar a regra de mixagem com base nas primeiras propriedades de covariância do sinal de entrada de áudio e com base nas segundas propriedades de covariância do sinal de saída de áudio, as segundas propriedades de covariância diferente das primeiras propriedades de covariância.
A Figura 2 ilustra um processador de sinal de
. acordo com uma aplicação.
O processador de sinal compreende uma unidade de formulação da matriz de mixagem ideal 210 e uma unidade de mixagem 220. A unidade de formulação da matriz de mixagem ideal 210 formula uma matriz de mixagem ideal.
Para isso, a unidade de formulação da matriz de mixagem ideal 210 utiliza as primeiras propriedades de covariância 230 (por exemplo, propriedades de covariância de entrada) de um sinal de entrada de áudio da faixa de frequência estéreo ou multicanal conforme recebido, por exemplo, por um provedor 110 da utilização da Figura 1. Além disso, a unidade de formulação da matriz de mixagem ideal 210 determina a matriz de mixagem com base nas segundas propriedades de covariância 240, por exemplo, uma matriz de covariância alvo, que pode ser dependente do pedido.
A matriz de mixagem ideal que é formulada pela unidade de formulação da matriz de mixagem ideal 15º 210 pode ser utilizada como uma matriz de mapeamento de canal.
A matriz de mixagem ideal pode então ser fornecida à unidade de mistura 220. A unidade de mistura 220 se aplica à matriz de mixagem ideal na entrada da faixa de frequência estéreo ou multicanal para obter uma saída da faixa de frequência estéreo ou multicanal do sinal de saída de áudio.
O sinal de saída de áudio tem as segundas propriedades de covariância desejadas
(propriedades de covariância alvo). Para explicar as aplicações da presente invenção em mais detalhes, as definições são introduzidas.
Agora, os sinais de entrada e saída complexos com média zero x;(t,f) e y;(t,f) são definidos, caracterizado por t ser o índice de tempo, em que fé o índice de frequência, em que i é o índice do canal de entrada e em que j é o índice do canal de saída.
Além disso, os vetores do
| 13/45 . sinal do sinal de entrada de áudio x e do sinal de saída de áudio y são definidos: m(1,f) n(t,f) n.n| oo | mts = | sado | pet, f) nf) (1) onde N, e N, são o número total de canais de entrada e saída. Além disso, N = max (N,, N.) e sinais preenchidos por O de dimensão igual são definidos: tn =| geo | (N=Nx)x1 o tnsi=| 5 |. (N—Ny)x1 Os sinais preenchidos por zero podem ser utilizados na formulação até quando a solução derivada for estendida a diferentes comprimentos do vetor.
Conforme foi explicado acima, a medição amplamente utilizada para descrever o aspecto espacial de um som multicanal é a combinação das energias do canal e as dependências alinhadas pelo tempo. Estas propriedades são compreendidas na 15º parte real das matrizes de covariância, definido como: C, = E [Re[xx"]] [(6)) C,=E [Re(yy")] Na equação (3) e a seguir, E[] é o operador de expectativa, Re() é o operador da parte real e x" e y" são as transposições conjugadas de x e y. O operador de expectativa E[] é um operador matemático. Nas aplicações práticas é substituído por uma estimativa como uma média sobre um determinado intervalo de tempo. Seguindo as seções, o uso do termo matriz de covariância se i 14/45 " refere a esta definição de valor real. C, e C, são simétricas e semidefinida positiva e, assim, as matrizes reais K, e K, podem ser definidas, de modo que: C,=K,KT C,=K,KI. o Estas “decomposições podem ser obtidas, por exemplo, utilizando a Decomposição de Cholesky ou a Decomposição Eigen, vide, por exemplo,
[7] Golub, G.H. and Van Loan, C.F., “Matrix computations”, Johns Hopkins Univ Press, 1996.
Deve ser observado que há um número infinito de decomposições que realizam a equação (4). Para qualquer matriz ortogonal P, e P,, as matrizes K,P, e K,P, também realizam a condição desde que KP.P TKT=KKT=C, KPPTKT=KKI=CO0,, o OS o i nos casos de estéreo utilizados, a matriz de covariância é geralmente dada na forma das energias do canal e a correlação intercanal (ICC | inter-channel correlation), por exemplo, em [1, 3, 4). Os valores da diagonal de C, são as energias do canal e o ICC entre os dois canais é ICO, e: a (6) 4/Cx(1,1)Cx(2,2) e correspondentemente para C,. Os índices nos parênteses denotam a linha e a coluna da matriz. A definição restante é a matriz de mapeamento determinada pela utilização Q, que compreende a informação, cujos canais de entrada devem ser utilizados na composição de cada canal i 15/45 & de saída. Com Q pode-se definir um sinal de referência Jrer = Qx. O) A matriz de mapeamento Q pode compreender mudanças na dimensionalidade e escala, combinação e reorganização dos canais. Devido à definição de preenchimento zero dos sinais, Q é aqui uma matriz quadrada N * N que pode compreender zero fileiras e colunas. Alguns exemplos de Q são: - Melhoria espacial: Q = II, nas aplicações, onde a saída deve ser o mais parecida com a entrada.
- Downmixing: Q é uma matriz de downmix.
- Síntese espacial dos sinais do microfone de primeira ordem: Q pode ser, por exemplo, uma matriz de mixagem do microfone Ambisonic, que significa que yr.: é um conjunto de sinais de microfone virtual.
A seguir, é formulado como gerar um sinal y a partir de um sinal x, com uma restrição que y tem a matriz de covariância definida pela utilização Cy. A utilização também define uma matriz de mapeamento Q que dá um ponto de referência para a otimização. O sinal de entrada x tem a matriz de covariância medida C,.. Conforme definido, os conceitos propostos para realizar esta transformação estão utilizando principalmente um conceito de apenas mixagem ideal dos canais, pois utilizar os —descorrelacionadores tipicamente compreende a qualidade do sinal e depois, pela injeção de energia descorrelacionada quando o objetivo não é de outra forma obtido.
A relação entrada-saída de acordo com estes i 16/45 “ conceitos pode ser escrita como y=Mx+r (8) onde M é uma matriz de mixagem real de acordo com o conceito primário e r é um sinal residual de acordo com o conceito secundário.
A seguir, conceitos são propostos para a modificação da matriz de covariância.
Primeiro, a tarefa de acordo com o conceito primário é solucionada apenas pela mixagem cruzada dos canais de entrada. A equação (8) então simplifica para y=Mx. (9) Das equações (3) e (9), uma tem C, = E [Re(yy]] o = E [Re(Mxx"M']] = MC,M. Das equações (5) e (10) segue que 's K,P,P, K! = MK,.P.P/ KIM! a do qual um conjunto de soluções para M que realiza a equação (10) segue M=RKPP/K, - KPK, 112) A condição para estas soluções é que Ki existe. A matriz ortogonal P = P, Pié o parâmetro livre restante.
A seguir, é descrito como uma matriz P fornece uma matriz ideal M. De todos M na equação (12), busca-se um que produza uma saída mais próxima ao ponto de referência definido Yrert, isto é, que reduza e=E Ulyrer = 311º] (13a) isto é, que reduza e=E[|lyec-ylº] = E [1Qx— Mx|º]. (13)
& Agora, um sinal w é definido, de modo que E[Reltww")] = II. w possa ser escolhido de modo que x = Kw, desde que E[Refxx")] = ElRefK,ww"K7)] = K,E[Refww" KT (14) =KKT=C,. Então, segue-se que Mx = MK,w=K,Pw. (15) A equação (13) pode ser escrita como e=E[|Qx- Mx|º*] = E [|QK,w-K,Pw|º] . = E [I(QK,-K,P)wl"] = E [W'(QK,-K,P)(QK,-K,P)w]. De E[Relww')] = [I, pode ser prontamente mostrado para uma matriz simétrica real A que E[lw' Aw] = tr(A), que é O traço da matriz. Segue que a equação (16) toma a forma e=tr[(QK, -K,P)(QK.-K,P)). 1, Para traços da matriz, pode ser prontamente 15º confirmado que tr(A + B) =tr(A) +tr(B) tr(A) =tr(A”) Tr tr(P' AP) =tr(A). (18) Utilizando estas propriedades, a equação (17) toma a forma e=tr(KIQ'QK,) +tr(KTK,)
TA —2tr(K;Q' K,P). (19) Apenas o último termo depende de P. O problema de otimização é assim
P= argmine = argmax[tr(KT Q'K,P)). (20) Pode ser prontamente mostrado para uma matriz diagonal não negativa S e qualquer matriz ortogonal P, que Ss tr(S) > tr(SP;). (21, Assim, definindo a decomposição do valor singular USV = KI QK, onde S é não negativo e diagonal e U e V são ortogonais, segue que tr(S) > tr(SV"PU) =tr(USVTPUU”) ão =mrxoTep O para qualquer ortogonal P. A igualdade é válida para 3) pelo qual este P produz o máximo de tr (KI Q'K,P) e o mínimo da medição de erro na equação (13).
Um aparelho de acordo com uma utilização determina uma matriz de mixagem ideal M, de modo que um erro seja reduzido. Deve-se observar que as propriedades de covariância do sinal de entrada de áudio e do sinal de saída de áudio podem variar para diferentes posições de tempo-frequência. Para isso, um provedor de um aparelho de acordo com uma utilização é adaptada para analisar as propriedades de covariância do canal de entrada de áudio que pode ser diferente para diferentes posições de tempo- frequência. Além disso, o processador de sinal de um aparelho de acordo com uma utilização é adaptada para determinar uma regra de mixagemy por exemplo, uma matriz de mixagem M com base nas segundas propriedades de covariância do sinal de saída de áudio, caracterizado pelas segundas propriedades de covariância poderem
| 19/45 e ter diferentes valores para diferentes posições de tempo- frequência.
Como a matriz de mixagem determinada M é aplicada em cada um dos canais de entrada de áudio do sinal de entrada de áudio e, como cada um dos canais de saída de áudio resultantes do sinal de saída de áudio pode assim depender de cada um dos canais de entrada de áudio, um processador de sinal de um aparelho de acordo com uma utilização é portanto adaptada para gerar o sinal de saída de áudio aplicando a regra de mixagem de modo que cada um de dois ou mais canais de saída de áudio depende de cada um de dois ou mais canais de entrada de áudio do sinal de entrada de áudio.
De acordo com outra aplicação, é proposto utilizar a decorrelação quando K; não existe ou é instável.
Nas 15º aplicações descritas acima, uma solução foi fornecida para determinar uma matriz de mixagem ideal onde foi suposto que K' existe.
Entretanto, x pode nem sempre existir ou seu inverso pode implicar multiplicadores muito grandes se alguns dos componentes principais em x forem muito pequenos.
Uma forma efetiva para regularizar o inverso é empregar a decomposição do valor singular K, = U.s.V,. Consequentemente, o inverso é K' =Vv, SUL, (24) Problemas surgem quando alguns dos valores da diagonal da matriz diagonal não negativa S, são zero ou muito pequenos.
Um conceito que robustamente regulariza oO inverso é então substituir estes valores por valores maiores.
O resultado deste procedimento é 8, e o inverso correspondente KR! ="V SUS e a matriz de mixagem correspondente M=K,PK;' :
. Esta regularização efetivamente significa que dentro do processo de mixagem, a amplificação de alguns dos pequenos componentes principais em x é reduzida e, consequentemente, sua integridade para o sinal de saída y também é reduzido e a covariância alvo C, não é atingida no geral.
Dessa forma, de acordo com uma aplicação, o processador de sinal pode ser configurado para modificar, pelo menos, alguns valores da diagonal de uma matriz diagonal S, caracterizado pelos valores da matriz diagonal S, serem zero ou 10º menores do que um valor limite (o valor limite pode ser predeterminado ou pode depender de uma função), de modo que os valores sejam maiores ou iguais ao valor limite, em que o processador de sinal pode ser adaptado para determinar a matriz de mixagem com base na matriz diagonal.
De acordo com uma aplicação, O processador de sinal pode ser configurado para modificar, pelo menos, alguns valores da diagonal da matriz diagonal S,., caracterizado por K, = U.SV., e em que C, = K,K' em que C, é a primeira matriz de covariância, em que S, é a matriz diagonal, em que U, é uma segunda matriz, V! é uma terceira matriz transposta e em que K” é uma quarta matriz transposta da quinta matriz K,.
A perda acima de um componente do sinal pode ser completamente compensada com um sinal residual r. A relação original entrada-saída será elaborada com o inverso regularizado.
y=Mx+r=K,PKRT'x+r =K,PV,S;'UTx+r (25) Agora, um componente aditivo c é definido de modo que ao invés de SUTx, um tenha S UÍxXiC. Além disso, um sinal
. independente w é definido, de modo que E [Refww"]] =1 e e=/1-($'SJW. (26) Pode ser prontamente mostrado que um sinal y=K,PV.(S;'UTx+c) 2 a =Mx+K,PV,c Do tenha covariância Cy. O sinal residual para compensar a regularização é então r=K,PV.c. (28) Das equações (27) e (28), segue que C,=E[Refrr")] =C, -MCM. — (29) Como e foi definido como um sinal estocástico, segue que a propriedade relevante de r é sua matriz de covariância. Assim, qualquer sinal que for independente com relação a x que é processado para ter a covariância Cr, serve como um sinal residual que idealmente reconstrói a matriz de 15º covariância alvo C, em situações quando a regularização conforme descrito foi utilizada. Tal sinal residual pode ser prontamente gerado utilizando os descorrelacionadores e o método de mixagem do canal proposto.
Encontrar analiticamente o equilíbrio ótimo entre a quantidade de energia descorrelacionada e a amplificação de pequenos componentes de sinal não é simples. Isso é porque depene dos fatores específicos da utilização como a estabilidade das propriedades estatísticas do sinal de entrada, janela de análise aplicada e o SNR do sinal de entrada. Entretanto, é bastante simples ajustar uma função heurística para realizar este equilíbrio sem desvantagens óbvias, como foi feito no exemplo de código fornecido abaixo.
. De acordo com isso, o processador de sinal de um aparelho de acordo com uma utilização pode ser adaptado para gerar o sinal de saída de áudio aplicando a regra de mixagem em, pelo menos, dois dos dois sinais de entrada de áudio ou mais, para obter um sinal intermediário y' = Mx e adicionando um sinal residual r ao sinal intermediário para obter o sinal de saída de áudio.
Foi mostrado que quando a regularização do inverso de K, é aplicada, os componentes do sinal ausentes na saída geral podem ser completamente complementados com um sinal residual r com covariância Cr. Por estes meios, pode-se garantir que a covariância alvo C, seja sempre obtida. A seguir, uma forma de gerar um sinal residual correspondente r é apresentada. Este compreende as etapas a seguir:
1. Gerar um conjunto de sinais tanto quanto canais de saída. O sinal yYre = Qx pode ser empregado, pois tem tantos canais quanto sinal de saída e cada sinal de saída contém um sinal apropriado para este canal particular.
2. Descorrelacionar este sinal. Há várias formas de descorrelacionar, incluindo filtros passa tudo, circunvoluções com rajadas de ruído e atraso pseudoaleatório nas faixas de frequência.
3. Medir (ou supor) a matriz de covariância do sinal descorrelacionado. A medição é mais simples e mais robusta, mas desde que os sinais são de descorrelacionadores, eles poderiam ser supostos como incoerentes. Então, apenas a medição de energia seria suficiente.
4, Aplicar o método proposto para gerar uma i 23/45 . matriz de mixagem que, quando aplicada ao sinal descorrelacionado, gera um sinal de saída com a matriz de covariância Cr“. Utilize aqui uma matriz de mapeamento Q = I, pois se deseja afetar minimamente o conteúdo do sinal.
5. Processar o sinal dos descorrelacionadores com esta matriz de mixagem e inseri-lo ao sinal de saída para complementar a falta de componentes do sinal. Desse modo, o alvo C, é obtido.
Em uma utilização alternativa os canais descorrelacionados são anexos ao sinal de entrada (pelo menos um) antes de formular a matriz de mixagem ideal. Neste caso, a entrada e a saída é da mesma dimensão e desde que o sinal de entrada tenha tantos componentes de sinal independentes quanto canais de entrada, não há necessidade de utilizar um sinal residual r.
15º Quando os descorrelacionadores são utilizados desta forma, o uso de descorrelacionadores é “invisível” ao conceito proposto, pois os canais descorrelacionados são canais de entrada como qualquer outro.
Se o uso de descorrelacionadores for indesejável, pelo menos as energias alvo do canal podem ser obtidas multiplicando-se as fileiras do M de modo que M' =GM (30) onde G é uma matriz de ganho diagonal com valores G(i,i) = e G1) VOGo onde O, =MC,M".
Em muitas aplicações, o número de canais de entrada e saída é diferente. Conforme descrito na Equação (2), o
“ preenchimento zero do sinal com uma dimensão menor é aplicado para ter a mesma dimensão que o mais alto. O preenchimento zero implica na sobrecarga computacional, pois algumas fileiras ou colunas no M resultante correspondem aos canais com energia zero definida.
Matematicamente, equivalente a utilizar o primeiro preenchimento zero e finalmente cortando M na dimensão relevante N, x Ny à sobrecarga pode ser reduzida introduzindo a matriz A que é uma matriz de identidade anexa ao zero na dimensão N, x Nx por exemplo, Axg= [0 1. (32) 0o0o 10 Quando P é redefinido de modo que P = VAU” (33) o M resultante seja uma matriz de mixagem N, x N, 155 que é a mesma que à parte relevante do M do caso de preenchimento zero. Consequentemente, C,, C,, K, e K, pode ser de dimensão natural e a matriz de mapeamento Q é de dimensão Ny, x N,.
A entrada matriz de covariância é sempre decomponível em C, = K.K” pois é uma medição semidefinida positiva de um sinal real. É, entretanto, possível definir tais matrizes de covariância alvo que não são decomponíveis pela razão que representam dependências do canal impossíveis. Há conceitos para garantir a decomposição, como ajustar os valores próprios negativos a zeros e normalizar a energia, vide, por exemplo,
[8] R. Rebonato, P. Jãáckel, “The most general methodology to create a valid correlation matrix for risk management and option pricing purposes”, Journal of Risk, Vol. 2, No. 2, pp. 17-28, 2000.
“ Entretanto, o uso mais significativo do conceito proposto é solicitar apenas as possíveis matrizes de covariância. Para resumir o que foi mencionado acima, a tarefa comum pode ser reescrita conforme segue. Primeiramente, tem-se um sinal de entrada com uma determinada matriz de covariância. Depois, a utilização define dois parâmetros: a matriz de covariância alvo e uma regra, cujos canais de entrada devem ser utilizados na composição de cada canal de saída. Para realizar esta transformação, é proposto utilizar os seguintes conceitos: O conceito primário, conforme ilustrado pela Figura 2, é que a covariância alvo é obtida utilizando uma solução de mixagem ideal dos canais de entrada. Este conceito é considerado primário, pois evita o uso do descorrelacionador, que geralmente compromete a qualidade do sinal. O conceito secundário ocorre quando não há 15º componentes suficientes independentes da energia razoável disponível. A energia descorrelacionada é injetada para compensar a falta destes componentes. Juntos, estes dois conceitos fornecem meios para realizar o ajuste robusto da matriz de covariância em qualquer cenário determinado.
A principal utilização esperada do conceito proposto está no campo da microfonia espacial [2,3], que é o campo onde os problemas relacionados ao sinal covariância são particularmente evidentes devido às limitações físicas dos microfones direcionais. Ainda, os casos do uso esperado incluem melhoria estéreo e multicanal, extração de ambiente, upmixing e downmixing.
Na descrição acima, as definições foram determinadas, seguidas pela derivação do conceito proposto.
. Primeiramente, a solução da mixagem cruzada foi fornecida, então o conceito de injeção da energia do som correlacionado foi determinado. Depois disso, uma descrição do conceito com um diferente número de canais de entrada e saída foi fornecida e também considerações na decomposição da matriz de covariância. A seguir, casos de uso prático são fornecidos e um conjunto de exemplos numéricos e a conclusão são apresentados. Além disso, um código de exemplo Matlab com funcionalidade completa de acordo com esta função é fornecido.
A característica espacial percebida de um som estéreo ou som multicanal é amplamente definida pela matriz de covariância do sinal nas faixas de frequência. Um conceito foi fornecido para, de forma ideal e adaptável, mixar um conjunto de canais de entrada com determinadas propriedades de covariância em 15º um conjunto de canais de saída com propriedades de covariância que podem ser definidas de forma arbitrária. Outro conceito foi fornecido para injetar a energia descorrelacionada apenas onde necessário quando componentes de som independentes de energia razoável não estão disponíveis. O conceito tem uma ampla variedade de aplicações no campo de processamento do sinal de áudio espacial.
As energias do canal e as dependências entre os canais (ou a matriz de covariância) de um sinal multicanal podem ser controladas por apenas mixando linearmente e de forma variável por tempo os canais dependendo das características de entrada e as características alvo desejadas. Este conceito pode ser ilustrado com uma representação do fator do sinal onde o ângulo entre os vetores corresponde à dependência do canal e a amplitude do vetor i 27/45 . é igual ao nível do sinal.
A Figura 3 ilustra um exemplo para aplicar uma combinação linear de vetores L e R para atingir um novo conjunto de vetor R' e L'. Semelhantemente, os níveis de canal de áudio e sua dependência podem ser modificados com a combinação linear.
A solução geral não inclui vetores, mas uma formulação da matriz que é ideal para qualquer número de canal.
A matriz de mixagem para sinais estéreos pode ser prontamente formulada também de forma trigonométrica, como pode ser visto na Figura 3. Os resultados são os mesmos que com a matemática da matriz, mas a formulação é diferente. se os canais de entrada são altamente dependentes, atingir a matriz de covariância alvo é possível apenas utilizando descorrelacionadores.
Um procedimento para injetar os descorrelacionadores apenas onde necessário, por exemplo, de forma ideal, também foi fornecido.
A Figura 4 ilustra um diagrama em blocos de um aparelho de uma utilização aplicando a técnica de mixagem.
O aparelho compreende um módulo de análise da matriz de covariância 410 e um processador de sinal (não mostrado), caracterizado pelo processador de sinal compreender um módulo de formulação da matriz de mixagem 420 e um módulo de utilização da matriz de mixagem 430. Propriedades de covariância de entrada de uma entrada da faixa de frequência estéreo ou multicanal são analisadas por um módulo de análise da matriz de covariância 410. O resultado da análise da matriz de covariância é inserido em um módulo de formulação da matriz de mixagem 420. O módulo de formulação da matriz de mixagem 420
' 28/45 ” formula uma matriz de mixagem com base na análise do resultado da matriz de covariância, com base em uma matriz de covariância alvo e possivelmente também com base em um critério de erro.
O módulo de formulação da matriz de mixagem 420 insere a matriz de mixagem em um módulo de utilização da matriz de mixagem 430. O módulo de utilização da matriz de mixagem 430 aplica a matriz de mixagem na entrada da faixa de frequência estéreo ou multicanal para obter uma saída da faixa de frequência estéreo ou multicanal com, por exemplo, predefinido, propriedades de covariância alvo dependendo da matriz de covariância alvo.
Resumindo o que foi mencionado acima, a finalidade geral do conceito é melhorar, ajustar e/ou sintetizar o som espacial com um grau extremo de otimização em termos de qualidade do som. O alvo, por exemplo, as segundas propriedades de 15º covariância, é definido pela aplicação.
Também aplicável em faixa completa, o conceito é perceptualmente significativo especialmente no processamento da faixa de frequência.
Descorrelacionadores são utilizados a fim de melhorar (reduzir) a correlação intercanal. Eles fazem isso, mas estão propensos a comprometer a qualidade geral do som, especialmente com um componente de som transiente.
O conceito proposto evita, ou em alguma utilização reduz, o uso de descorrelacionadores. O resultado é a mesma característica espacial, mas sem perda da qualidade do som.
Entre outros usos, a tecnologia pode ser empregada em um Codificador SAM-para-MPS.
O conceito proposto foi implementado — para
- melhorar uma técnica de microfone que gera o fluxo de dados MPEG Surround (MPEG | Moving Picture Experts Group) fora de um sinal de microfones coincidentes estéreos de primeira ordem, vide, por exemplo, [3]. O processo inclui estimar do sinal estéreo a direção ea difusão do campo do som nas faixas de frequência e criar tal fluxo de dados MPEG Surround que, quando decodificado no receptor final, produza um campo de som que perceptualmente aproxima o campo de som original.
Na Figura 5, um diagrama é ilustrado descrevendo um sinal de microfone de coincidência estéreo ao codificador MPEG Surround de acordo com uma aplicação, que emprega oO conceito proposto para criar o sinal de downmix MPEG Surround no determinado sinal do microfone. Todo O processamento é realizado nas faixas de frequência.
Um módulo de determinação de dados espaciais 520 é adaptado para formular os dados de informação da configuração compreendendo dados surround espaciais e ICC downmix e/ou níveis com base na informação de direção e difusão dependendo de um modelo do campo de som 510. O modelo do campo de som tem como base uma análise do microfone ICC's e níveis de um sinal de microfone estéreo. O módulo de determinação de dados espaciais 520 então fornece os ICC's de downmix alvo e níveis a um módulo de formulação da matriz de mixagem 530. Além disso, o módulo de determinação de dados espaciais 520 pode ser adaptado para formular os dados surround espaciais e ICC's downmix e níveis como a informação lateral espacial MPEG Surround. O módulo de formulação da matriz de mixagem 530 então formula uma matriz de mixagem com base nos dados de informação da configuração
- fornecidos, por exemplo, ICC's downmix alvo e níveis, e insere a matriz em um módulo de mixagem 540. O módulo de mixagem 540 aplica a matriz de mixagem no sinal estéreo do microfone. Desse modo, um sinal é gerado com ICC's e níveis alvo. O sinal com os ICC's e níveis alvo é então fornecido a um codificador de núcleo 550. Em uma aplicação, os módulos 520, 530 e 540 são submódulos de um processador de sinal.
Dentro do processo conduzido por um aparelho de acordo com a Figura 5, um downmix estéreo MPEG Surround deve ser gerado. Isso inclui uma necessidade de ajustar os níveis e os ICC's do sinal estéreo determinado com impacto mínimo na qualidade do som. O conceito proposto de mixagem cruzada foi aplicado para esta finalidade e o benefício perceptual da técnica anterior em
[3] foi observado.
5 A Figura 6 ilustra um aparelho de acordo com outra utilização referente à correção de ICC downmix/nível para um codificador SAM-para-MPS. Uma análise de ICC e nível é conduzida no módulo 602 e o modelo do campo de som 610 depende da Análise do ICC e nível pelo módulo 602. O módulo 620 corresponde ao módulo 520, o módulo 630 corresponde ao módulo 530 e o módulo 640 corresponde ao módulo 540 da Figura 5, respectivamente. O mesmo se aplica para o codificador de núcleo 650 que corresponde ao codificador de núcleo 550 da Figura 5. O conceito descrito acima pode ser integrado em um codificador SAM-para-MPS para criar a partir dos sinais do microfone o MPS downmix com ICC e níveis exatamente corretos. O conceito descrito acima também é aplicável à interpretação direta SAM-para-multicanal sem MPS para fornecer síntese espacial ideal enquanto reduz a quantidade do uso do
| 31/45 - descorrelacionador.
Melhorias são esperadas com relação à distância fonte, localização da fonte, estabilidade, conforto e envolvimento da audição.
A Figura 7 descreve um aparelho de acordo com uma utilização para uma melhoria para pequenas matrizes de microfone espaçadas. Um módulo 705 é adaptado para conduzir uma análise da matriz de covariância de um sinal do microfone de entrada para obter uma matriz de covariância do microfone. A matriz de covariância do microfone é inserida em um módulo de formulação da matriz de mixagem 730. Além disso, a matriz de covariância do microfone é utilizada para derivar um modelo do campo de som 710. O modelo do campo de som 710 pode se basear em outras fontes além da matriz de covariância.
Informação de direção e difusão com base no modelo do campo de som é então inserida ao módulo de formulação da matriz de covariância alvo 720 para gerar uma matriz de covariância alvo. O módulo de formulação da matriz de covariância alvo 720 então insere a matriz de covariância alvo ao módulo de formulação da matriz de mixagem 730.
O módulo de formulação da matriz de mixagem730 é adaptado para gerar a matriz de e insere a matriz de mixagem gerada ao módulo de utilização da matriz de mixagem 740. O módulo de utilização da matriz de mixagem 740 é adaptado para aplicar a matriz mixagem no sinal do microfone de entrada para obter um sinal do microfone de saída com as propriedades de covariância alvo. Em uma aplicação, os módulos 720, 730 e 740 são submódulos de um processador de sinal.
- Tal aparelho segue o conceito em DirAC e SAM, que é estimar a direção e difusão do campo de som original e para criar esta saída que melhor reproduz a direção e difusão estimada. Este procedimento de processamento de sinal exige grandes ajustes da matriz de covariância para fornecer a imagem espacial correta. O conceito processado é a solução. Pelo conceito proposto, a distância da fonte, a localização da fonte e/ou a separação da fonte, o conforto e envolvimento da audição. A Figura 8 ilustra um exemplo que mostra uma utilização para melhoria cega da qualidade do som espacial na reprodução estéreo ou multicanal. No módulo 805, uma análise da matriz de covariância, por exemplo, uma Análise de ICC ou nível de conteúdo estéreo ou multicanal é conduzida. Então, uma regra de melhoria é aplicada no módulo de melhoria 815, por exemplo, para 15º obter as saídas ICC das entradas ICC. Um módulo de formulação da matriz de mixagem 830 gera uma matriz de mixagem com base na análise da matriz de covariância conduzida pelo módulo 805 e com base na informação derivada para aplicar a regra de melhoria que foi conduzida no módulo de melhoria 815. A matriz de mixagem é então aplicada no conteúdo estéreo ou multicanal no módulo 840 para obter o conteúdo estéreo ou multicanal ajustado com as propriedades de covariância alvo.
Referente ao som multicanal, por exemplo, mixagens e gravações, é muito comum encontrar a subotimização perceptual no som espacial, especialmente em termos de ICC muito alto. Uma consequência típica tem a qualidade reduzida com relação à largura, envolvimento, distância, separação da fonte, localização da fonte e/ou estabilidade da fonte e conforto da a audição. Foi testado informalmente que o conceito pode melhorar estas propriedades com itens que têm ICC's desnecessariamente altos. Melhorias observadas são largura, distância da fonte, localização/separação da fonte, envolvimento e conforto da audição.
A Figura 9 ilustra outra utilização para melhoria das configurações estreitas do alto-falante (por exemplo, tablets, TV). O conceito proposto é provavelmente útil como uma fermenta para melhorar a qualidade estéreo nas configurações de reprodução onde um angulo do alto-falante é muito estreito (por exemplo, tablets). O conceito proposto fornecerá: - replanejar as fontes dentro do arco determinado para corresponder a uma configuração mais ampla do alto-falante - aumentar o ICC para melhor corresponder ao de 15º uma configuração do alto-falante mais ampla - fornecer um melhor ponto inicial para realizar o cancelamento da diafonia, por exemplo, utilizando o cancelamento da diafonia apenas quando não há forma direta para criar os sinais binaurais desejados.
Melhorias são esperadas com relação à largura e com relação ao cancelamento da diafonia regular, qualidade do som e robustez.
Em outra utilização exemplo ilustrada pela Figura 10, uma utilização é descrita fornecendo renderização da Codificação do Áudio Direcionado (DirAC) ideal com base em um sinal de microfone em formato B.
A utilização da Figura 10 é com base na constatação de que a renderização das unidades do estado da
K 34/45 . A utilização da Figura 10 é com base na constatação de que a renderização das unidades do estado da técnica DirAC com base nos sinais do microfone coincidentes aplicam a descorrelação na extensão desnecessária, assim, comprometendo a qualidade do áudio. Por exemplo, se o campo de som é analisado como difuso, a correlação total é aplicada em todos os canais, embora um formato B forneça já três componentes de som incoerentes no caso de um campo de som horizontal (W, X, Y). Este efeito está presente nos graus variantes exceto quando a difusão for zero.
Além disso, os sistemas descritos acima utilizando os microfones virtuais não garantem a matriz de covariância de saída correta (níveis e correlações do canal), pois os microfones virtuais realizam o som de forma diferente 15º dependendo do ângulo da fonte, posicionamento do alto-falante e difusão do campo de som.
O conceito proposto soluciona ambas as questões. Há duas alternativas: fornecer os canais descorrelacionados como canais de entrada extra (como na figura abaixo); ou utilizar um conceito de mixagem do descorrelacionador.
Na Figura 10, um módulo 1005 conduz uma análise da matriz de covariância. Um módulo de formulação da matriz de covariância alvo 1018 não considera apenas um modelo do campo de som, mas também leva em conta uma configuração do alto-falante ao formular uma matriz de covariância alvo. Além disso, um módulo de formulação da matriz de mixagem 1030 gera uma matriz de mixagem não apenas com base em uma análise da matriz de covariância e a matriz de covariância alvo, mas também com base nos critérios de ú > 35/45 - otimização, por exemplo, uma matriz de mixagem em formato B para microfone virtual fornecida por um módulo 1032. O modelo do campo de som 1010 pode corresponder ao modelo do campo de som 710 da Figura 7. O módulo de utilização d a matriz de mixagem 1040 pode corresponder ao módulo de utilização da matriz de mixagem 740 da Figura 7.
Em outra utilização exemplo, uma utilização é fornecida para o ajuste espacial nos métodos de conversão do canal, por exemplo, downmix. A conversão do canal por exemplo, fazendo 5.1 downmix de 22.2 faixas de áudio automática inclui quebrar os canais. Isso pode incluir uma perda ou mudança da imagem espacial que pode ser direcionada com o conceito proposto. Novamente, há duas alternativas: a primeira utiliza O conceito no domínio do número de canais mais altos, mas definindo os canais de 15º energia zero para os canais ausentes do número inferior; a outra formula a solução da matriz diretamente para diferentes números de canal.
A Figura 11 ilustra a tabela 1, que fornece exemplos numéricos dos conceitos descritos acima. Quando um sinal com covariância C, é processado com uma matriz de mixagem M e complementado com um possível sinal residual com C,, o sinal de saída tem covariância C,. Embora estes exemplos numéricos sejam estáticos, o caso do uso típico do método proposto é dinâmico. A ordem do canal é suposta L, R, C, Ls, Rs, (Lr, Rr).
A Tabela 1 mostra um conjunto de exemplos numericamente para ilustrar o comportamento do conceito proposto em alguns casos esperados. As matrizes foram formuladas com o código Matlab fornecido na lista 1. A lista 1 é ilustrada na
- Figura 12.
A lista 1 de Figura 12 ilustra uma implementação Matlab do conceito proposto. O código Matlab foi utilizado nos exemplos numéricos e fornece a funcionalidade geral do conceito proposto.
Embora as matrizes sejam ilustradas estáticas, em aplicações típicas elas variam em tempo e frequência. O critério de desenho é por definição cumprido se um sinal com covariância C, for processado com uma matriz de mixagem M e completada com um possível sinal residual com C, O sinal de saída tem a covariância definida C,.
A primeira e a segunda fileira da tabela ilustram um caso de uso da melhoria estéreo por meios da correlação dos sinais. Na primeira fileira há um pequeno, mas razoável componente 15º incoerente entre os dois canais e assim a saída completamente incoerente é obtida com apenas mixagem do canal. Na segunda fileira, a correlação da entrada é muito alta, por exemplo, o menor componente principal é muito pequeno. A amplificação deste nos graus extremos não é desejável e assim o limitador embutido começa a exigir a injeção da energia correlacionada ao invés, por exemplo, Cr, é agora não -zero.
A terceira fileira mostra uma caixa estéreo a 5,0 upmixing. Neste exemplo, a matriz de covariância alvo é definida de modo que oO componente incoerente da mixagem estéreo é igualmente e incoerentemente distribuída nos alto-falantes lateral e traseiro e o componente coerente é colocado no alto-falante central. O sinal residual é novamente não-zero desde que a dimensão do sinal seja aumentada.
a A quarta fileira mostra uma caixa simples de 5,0 a 7,0 upmixing onde os dois canais traseiros originais fazem upmixing nos quatro novos canais traseiros, incoerentemente. Este exemplo ilustra que o processamento foca nestes canais onde ajustes são solicitados.
A quinta fileira descreve um a caixa de downmixing de sinal 5,0 ao estéreo. Downmixing passivo, como aplicar uma matriz de mixagem de downmix estática Q, amplificaria os componentes coerentes sobre os componentes incoerentes. Aqui a matriz de covariância alvo foi definida para preservar a energia, que é realizada pelo M resultante.
A sexta e a sétima fileiras ilustram a caixa de uso da microfonia espacial coincidente. As matrizes de covariância de entrada C, são o resultado de colocação dos microfones 15º coincidentes de primeira ordem ideais em um campo difuso ideal. Na sexta fileira os ângulos entre os microfones são iguais e, na sétima fileira os microfones estão voltados aos ângulos de uma configuração de 5,0. Em ambos os casos, os maiores valores da diagonal de C, ilustram a desvantagem inerente da técnica de microfones coincidente da primeira ordem passiva na caixa ideal, a matriz de covariância que melhor representa um campo difuso é diagonal e este foi então definido como o alvo. Em ambos os casos, a razão do resultado da energia correlacionada sobre toda a energia é exatamente 2/5. Isso acontece porque há três componentes do sinal independentes disponíveis nos sinais do microfone coincidente horizontais de primeira ordem e dois devem ser adicionados para atingir a matriz de covariância alvo diagonal de cinco canais.
| 38/45 : A percepção espacial na reprodução estéreo e multicanal foi identificada para depender especialmente da matriz de covariância do sinal nas faixas de frequência perceptualmente relevantes.
Um conceito para controlar a matriz de covariância de um sinal pela mixagem cruzada ideal dos canais foi apresentado. Meios para injetar a energia descorrelacionada onde necessário nos casos quando componentes do sinal independentes suficientes da energia razoável não estão disponíveis foram apresentados.
O conceito foi observado como robusto em sua finalidade e uma ampla variedade das utilizações semelhantes foi identificada.
A seguir, aplicações são apresentadas, como gerar 15º C, com base em C.. Como um primeiro exemplo, estéreo a 5.0 upmixing é considerado. Referente ao estéreo-para-5,0 upmixing, no upmixing, C. é uma matriz 2x2 e C, é uma matriz 5x5 (neste exemplo, o canal subwoofer não é considerado). As etapas para gerar C, com base em C,, em cada parte de tempo-frequência, no contexto de upmixing, pode, por exemplo, ser conforme segue:
1. Estimar a energia ambiente e direta no canal esquerdo e direito. O ambiente é caracterizado por um componente incoerente entre os canais que tem energia igual em ambos os canais. A energia direta é a restante quando a parte da energia ambiente é removida da energia total, por exemplo, o componente de energia coerente, possivelmente com diferentes energias nos canais esquerdo e direito.
2. Estimar um ângulo do componente direito. Isso
“ é feito utilizando uma lei da posição da amplitude inversamente. Há uma razão de posição da amplitude no componente direito e há apenas um ângulo entre alto-falantes dianteiros que correspondem a ele.
3. Gerar uma matriz 5x5 de zeros como C,.
4, Colocar a quantidade de energia direta na diagonal de C, correspondente a dois alto-falantes mais próximos da direção analisada. A distribuição da energia entre estes pode ser adquirida pelas leis de posição da amplitude. A posição da amplitude é coerente, então adicione à não diagonal correspondente a raiz quadrada do produto das energias dos dois canais.
5. Adicione à diagonal de C,, correspondente aos canais L, R, Ls e Rs, a quantidade de energia que corresponde à energia do componente do ambiente. A distribuição igual é uma boa 15º escolha. Agora se tem o alvo C,.
Como outro exemplo, a melhoria é considerada. O objetivo é aumentar as qualidades perceptuais como largura Ou envolvimento ajustando a coerência intercanal a zero. Aqui, dois diferentes exemplos são determinados, em duas formas de realizar a melhoria. Para a primeira forma, seleciona-se uma melhoria da caixa de uso estéreo, assim Cx e Cy são matrizes 2x2. As etapas são conforme segue: L Formular ICC (o valor de covariância normalizado entre -1 e 1, por exemplo com a fórmula fornecida).
2. Ajustar ICC por uma função. Por exemplo ICCre. = sinal(ICC) * ICCº. Esse é um ajuste leve. Ou ICCre, = Sinal(ICC) * max(0, abs(ICC) * 10 - 9). Este é um ajuste maior.
3. Formular C, de modo que os valores da diagonal
* sejam os mesmos como em C., mas o valor não-diagonal é formulado utilizando ICCr&, COM à mesma fórmula como na etapa 1, mas inversamente.
No cenário acima, o sinal residual não é necessário, pois o ajuste de ICC é sinalizado de modo que o sistema não solicite grande amplificação de pequenos componentes do sinal.
O segundo tipo de implementação do método nesta caixa de uso, é conforme segue. Tem-se um sinal de entrada do canal N, assim C, e Cy, são matrizes NxN.
1. Formular C, de C, ajustando simplesmente os valores da diagonal em C, o mesmo como em C,, e os valores não- diagonais a zero.
2. Permitir o método de compensação de ganho no 15º método proposto, ao invés de utilizar os residuais. A regularização no inverso de K, cuida para que o sistema seja estável. A compensação de ganho cuida para que as energias sejam preservadas.
As duas formas descritas para fazer a melhoria fornecem resultados semelhantes. O último é mais fácil de implementar na caixa de uso multicanal.
Finalmente, como um terceiro exemplo, o modelo direto/difusão, por exemplo, a Codificação de Áudio Direcional (DirAC), é considerado DirAC e também os Microfones de Áudio Espaciais (SAM | Spatial Audio Microphones), fornecem uma interpretação de um campo de som com direção e difusão dos parâmetros. A direção é o ângulo de chegada do componente de som direto. A difusão é um
“ valor entre O e 1, que fornece a informação do tamanho da quantidade da energia de som total difusa, por exemplo, suposto para chegar incoerentemente de todas as direções. Esta é uma aproximação do campo de som, mas quando aplicado nas faixas de | 5 frequência perceptuais, uma representação perceptualmente boa do campo de som é fornecida. A direção, difusão e toda a energia do campo de som conhecidos são supostos em um domínio de tempo- frequência. Estes são formulados utilizando a informação na matriz de covariância do microfone C,. Tem-se uma configuração do alto- falante do canal N. As etapas para gerar C, são semelhantes ao upmixing, conforme segue:
1. Gerar uma matriz NxN de zeros como C,.
2. Colocar a quantidade de energia direta, que é (1 - difusão) * energia total, ao diagonal de C, correspondente a 15º dois alto-falantes mais próximos da direção analisada. A distribuição da energia entre estas pode ser adquirida pelas leis da posição da amplitude. A posição da amplitude é coerente, então adicione ao não-diagonal correspondente uma raiz quadrada dos produtos das energias dos dois canais.
3. Distribuir ao diagonal de C, a quantidade de energia difusa, que é difusão * energia total. A distribuição pode ser feita, por exemplo, de modo que mais energia é colocada nestas direções onde os alto-falantes são insuficientes. Agora se tem o alvo Cy.
Embora alguns aspectos tenham sido descritos no contexto de um aparelho, fica claro que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou à uma função
S . 42/45 - de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou função de um aparelho correspondente. | Dependendo de certas exigências de implantação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma memória ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle legíveis eletronicamente armazenados nele, que cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado.
Algumas aplicações de acordo com a invenção compreendem um suporte de dados tendo sinais de controle eletronicamente legíveis que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.
Geralmente, as aplicações da presente invenção podem ser implementadas como um produto de programa de computador com um código do produto, o código do produto sendo operativo para realizar um dos métodos quando o produto do programa de computador for executado em um computador. O código do produto pode, por exemplo, ser armazenado em um suporte legível por máquina.
Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenado em um suporte legível por máquina ou um meio de armazenamento não transitório.
S , 43/45 + Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador tendo um código do produto para realizar um dos métodos descritos aqui, quando o programa de computador é executado em um computador.
Outra aplicação do método inventivo é, portanto, um suporte de dados (ou um meio de armazenamento digital, ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos aqui.
Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para realizar um dos métodos descritos aqui. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de 15º comunicação de dados, por exemplo, através da Internet.
Uma aplicação adicional compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descritos aqui.
Uma aplicação adicional compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos aqui.
Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas lógicas programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas aplicações, um arranjo de portas lógicas programáveis pode cooperar com um microprocessador para realizar um dos métodos descritos aqui.
ã Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.
As aplicações acima descritas são meramente ilustrativas para os princípios da presente invenção. Deve ser entendido que modificações e variações das disposições e detalhes descritos aqui serão evidentes a outros especialistas na técnica. É a intenção, portanto, serem limitadas apenas pelo escopo das reivindicações de patente pendente e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações aqui contidas.
[1] C. Faller, “Multiple-Loudspeaker Playback of Stereo Signals”, Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006.
[2] V. Pulkki, “Spatial Sound Reproduction with Directional Audio Coding”, Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007.
[3] C. Tournery, C. Faller, F. Kuch, J. Herre, “Converting Stereo Microphone Signals Directly to MPEG Surround”, 128th AES Convention, May 2010.
[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, “Parametric Coding of Stereo Audio,” EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305- 1322, 2005.
[5] JJ. Herre, K. Kjórling, JJ. Breebaart, (CC. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Ródén, W. Oomen, K. Linzmeier and K. S. Chong, “MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio
- Coding”, Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008.
[6] JJ. Vilkamo, V. Pulkki, “Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation”, Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.
[7] Golubo, G.H. and Van Loan, C.F., “Matrix computations”, Johns Hopkins Univ Press, 1996.
[8] R. Rebonato, P. Jáckel, “The most general methodology to create a valid correlation matrix for risk management and option pricing purposes”, Journal of Risk, Vol. 2, No. 2, pp. 17-28, 2000.
Claims (1)
- - REIVINDICAÇÕES1. Um aparelho para gerar um sinal de saída de áudio com dois ou mais canais de saída de áudio de um sinal de entrada de áudio com dois ou mais canais de entrada de áudio, compreendendo: um provedor (110) para fornecer as primeiras propriedades de covariância do sinal de entrada de áudio, e um processador de sinal (120) para gerar o sinal de saída de áudio aplicando uma regra de mixagem em, pelo menos, dois de dois canais de entrada de áudio ou mais, caracterizado pelo processador de sinal (120) ser configurado para determinar a regra de mixagem com base nas primeiras propriedades de covariância do sinal de entrada de áudio e com base nas segundas propriedades de covariância do sinal de saída de áudio, as segundas propriedades de covariância diferentes das primeiras propriedades de covariância.2. Um aparelho de acordo com a reivindicação 1, caracterizado pelo provedor (110) ser adaptado para fornecer as primeiras propriedades de covariância, em que as primeiras propriedades de covariância têm um primeiro estado para uma primeira posição de tempo-frequência e em que as primeiras propriedades de covariância têm um segundo estado, diferente do primeiro estado, para uma segunda posição de tempo-frequência, diferente da primeira posição de tempo-frequência.3. Um aparelho de acordo com a reivindicação 1 ou 2, caracterizado pelo processador de sinal (120) ser adaptado para determinar a regra de mixagem com base nas segundas propriedades de covariância, em que as segundas propriedades de. covariância têm um terceiro estado para uma terceira posição de tempo-frequência e, em que as segundas propriedades de covariância têm um quarto estado, diferente do terceiro estado para uma quarta posição de tempo-frequência, diferente da terceira posição de tempo-frequência.4. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo processador de sinal (120) ser adaptado para gerar o sinal de saída de áudio aplicando a regra de mixagem de modo que cada um dos dois canais de saída de áudio ou mais depende de cada um dos dois canais de entrada de áudio ou mais.5. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo processador de sinal (120) ser adaptado para determinar a regra de mixagem de modo que 15º uma medição de erro seja reduzida.6. Um aparelho de acordo com a reivindicação 5, caracterizado pelo processador de sinal (120) ser adaptado para determinar a regra de mixagem de modo que a regra de mixagem depende de | yres = yll? em que Yrer = QX , em que x é Oo sinal de entrada de áudio, em que Q é uma matriz de mapeamento e em que y é O sinal de saída de áudio.7. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo processador de sinal (120) ser configurado para determinar a regra de mixagem determinando as segundas propriedades de covariância, em que o i 3/9 & processador de sinal (120) é configurado para determinar as segundas propriedades de covariância com base nas primeiras propriedades de covariância.8. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo processador de sinal (120) ser adaptado para determinar uma matriz de mixagem como a regra de mixagem, em que o processador de sinal (120) é adaptado para determinar a matriz de mixagem com base nas primeiras propriedades de covariância e com base nas segundas propriedades de covariância.Ss. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo provedor (110) ser adaptado para fornecer as primeiras propriedades de covariância determinando uma primeira matriz de covariância do sinal de 15º entrada de áudio e em que o processador de sinal (120) é configurado para determinar a regra de mixagem com base em uma segunda matriz de covariância do sinal de saída de áudio como as segundas propriedades de covariância.10. Um aparelho de acordo com a reivindicação 9, caracterizado pelo provedor (110) ser adaptado para determinar a primeira matriz de covariância, de modo que cada valor da diagonal da primeira matriz de covariância indique uma energia de um dos canais de entrada de áudio e de modo que cada valor da primeira matriz de covariância, que não é um valor da diagonal indique uma correlação intercanal entre um primeiro canal de entrada de áudio e um diferente segundo canal de entrada de áudio.11. Um aparelho de acordo com a reivindicação 9 ou 10, caracterizado pelo processador de sinal (120) ser- configurado para determinar a regra de mixagem com base na segunda matriz de covariância, em que cada valor da diagonal da segunda matriz de covariância indica uma energia de um dos canais de saída de áudio e em que cada valor da segunda matriz de covariância, que não é um valor da diagonal, indica uma correlação intercanal entre um primeiro canal de saída de áudio e um segundo canal de saída de áudio.12. Um aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo processador de sinal (120) ser adaptado para determinar uma matriz de mixagem como a regra de mixagem, em que o processador de sinal (120) é adaptado para determinar a matriz de mixagem com base nas primeiras propriedades de covariância e com base nas segundas propriedades de covariância, em que o provedor (110) é adaptado para fornecer 15º as primeiras propriedades de covariância determinando uma primeira matriz de covariância do sinal de entrada de áudio e em que o processador de sinal (120) é configurado para determinar a regra de mixagem com base em uma segunda matriz de covariância do sinal de saída de áudio como as segundas propriedades de covariância, em que o processador de sinal (120) é adaptado para determinar a matriz de mixagem de modo que: M=K,PK;, de modo que , K,K,=C,, K,K;=C, em que M é a matriz de mixagem, em que C, É a primeira matriz de covariância, em que C, é a segunda matriz de covariância, em que Ki é uma primeira matriz transposta de uma. primeira matriz decomposta K,, em que K; é uma segunda matriz transposta de uma segunda matriz decomposta K,, em que K; é uma matriz inversa da primeira matriz decomposta K, e em que P é uma primeira matriz unitária.13. Um aparelho de acordo com a reivindicação 12, caracterizado pelo processador de sinal (120) ser adaptado para determinar a matriz de mixagem de modo que M=K,PK;, em que P = VAU, em que U é uma terceira matriz transposta de uma segunda matriz unitária U, em que V é uma terceira matriz unitária, em que A é uma matriz de identidade anexada com zeros, em que USVT = KiQ'K, em que Qº é uma quarta matriz transposta da matriz de mapeamento Q, em que V' é uma quinta matriz transposta da terceira matriz unitária V e em que S é uma matriz diagonal.14. Um aparelho de acordo com a reivindicação 1, caracterizado pelo processador de sinal (120) ser adaptado para determinar uma matriz de mixagem como a regra de mixagem, em que o processador de sinal (120) é adaptado para determinar a matriz de mixagem com base nas primeiras propriedades de covariância e com base nas segundas propriedades de covariância, em que o provedor (110) é adaptado para fornecer as primeiras propriedades de covariância determinando uma primeira matriz de covariância do sinal de entrada de áudio e,. em que o processador de sinal (120) é configurado para determinar a regra de mixagem com base em uma segunda matriz de covariância do sinal de saída de áudio como as segundas propriedades de covariância, em que o processador de sinal (120) é adaptado para determinar a regra de mixagem modificando pelo menos alguns valores da diagonal de uma matriz diagonal S., quando os valores da matriz diagonal S, são zero ou menores do que um valor limite, de modo que os valores sejam maiores do que ou iguais ao valor limite, em que a matriz diagonal depende da primeira matriz de covariância.15. Um aparelho de acordo com a reivindicação 14, caracterizado pelo processador de sinal (120) ser configurado para 15º modificar, pelo menos, alguns valores diagonais da matriz diagonal S., em que K, =U,S,V., e em que C, =K,KT, em que C, é a primeira matriz de covariância, em que S, é a matriz diagonal, em que U, é uma segunda matriz, NA é uma terceira matriz transposta e em que K' é uma quarta matriz transposta da quinta matriz K, e em queV,e U, são matrizes unitárias.16. Um aparelho de acordo com a reivindicação 14 ou 15, caracterizado pelo processador de sinal (120) ser adaptado para gerar o sinal de saída de áudio aplicando a matriz de mixagem em, pelo menos, dois dos dois canais de entrada de áudio ou mais para obter um sinal intermediário e adicionando um sinal residual r ao sinal intermediário para obter o sinal de saída de áudio.17. Um aparelho de acordo com a reivindicação 14 ou 15, caracterizado pelo processador de sinal (120) ser adaptado- para determinar a matriz de mixagem com base em uma matriz de ganho diagonal G e uma matriz intermediária M, de modo que M'=GM, em que a matriz de ganho diagonal tem o valor GG =, C.(1,1) onde C, =MCM' , em que M' é a matriz de mixagem, em que G é a matriz de ganho diagonal, em que C, é a segunda matriz de covariância e em que M' é uma quinta matriz transposta da matriz intermediária M.18. Um aparelho de acordo com a reivindicação 1, caracterizado pelo processador de sinal (120) compreender: um módulo de formulação da matriz de mixagem (420; 530; 630; 730; 830; 1030) para gerar uma matriz de mixagem como a regra de mixagem com base nas primeiras propriedades de 15º covariância e, um módulo de utilização da matriz de mixagem (430; 540; 640; 740; 840; 1040) para aplicar a matriz de mixagem no sinal de entrada de áudio para gerar o sinal de saída de áudio.19. Um aparelho de acordo com a reivindicação 18, caracterizado pelo provedor (110) compreender um módulo de análise da matriz de covariância (410; 705; 805; 1005) para fornecer a entrada das propriedades de covariância do sinal de entrada de áudio de entrada para obter um resultado de análise como as primeiras propriedades de covariância e, em que o módulo de formulação da matriz de mixagem (420; 530; 630; 730; 830; 1030) é adaptado para gerar a matriz de mixagem com base no resultado de análise.| 8/9 % 20. Um aparelho de acordo com a reivindicação 18 ou 19, caracterizado pelo módulo de formulação da matriz de mixagem (420; 530; 630; 730; 830; 1030) ser adaptado para gerar a matriz de mixagem com base em um critério de erro.21. Um aparelho de acordo com qualquer uma das reivindicações 18 a 20, caracterizado pelo processador de sinal (120) compreender, ainda, um módulo de determinação de dados espaciais (520; 620) para determinar os dados de informação da configuração compreendendo os dados espaciais surround, dados de correlação intercanal ou dados do nível de sinal de áudio e, em que o módulo de formulação da matriz de mixagem (420; 530; 630; 730; 830; 1030) é adaptado para gerar a matriz de mixagen com base nos dados de informação da 15º configuração.22. Um aparelho de acordo com qualquer uma das reivindicações 18 a 20, caracterizado pelo processador de sinal (120) compreender, além disso, um módulo de formulação da matriz de covariância alvo (730; 1018) para gerar uma matriz de covariância alvo com base no resultado de análise e, em que o módulo de formulação da matriz de mixagem (420; 530; 630; 730; 830; 1030) é adaptado para gerar uma matriz de mixagem com base na matriz de covariância alvo.23. Um aparelho de acordo com a reivindicação 22, caracterizado pelo módulo de formulação da matriz de covariância alvo (1018) ser configurado para gerar a matriz de covariância alvo com base em uma configuração do alto-falante.i 9/9 % 24. Um aparelho de acordo com a reivindicação 18 a 19, caracterizado pelo processador de sinal (120) compreender, ainda, um módulo de melhoria (815) para obter os dados de correlação intercanal de saída com base nos dados de correlação intercanal de entrada, diferentes dos dados de correlação intercanal de entrada e, em que o módulo de formulação da matriz de mixagem (420; 530; 630; 730; 830; 1030) é adaptado para gerar a matriz de mixagem com base nos dados de correlação intercanal de saída.25. Um método para gerar um sinal de saída de áudio com dois canais de saída de áudio ou mais de um sinal de entrada de áudio com dois canais de entrada de áudio ou mais, compreendendo: fornecer as primeiras propriedades de covariância do sinal de entrada de áudio e, gerar oO sinal de saída de áudio aplicando uma regra de mixagem em, pelo menos, dois de dois canais de entrada de áudio ou mais, caracterizado pela regra de mixagem ser determinada com base nas primeiras propriedades de covariância do sinal de entrada de áudio e com base nas segundas propriedades de covariância do sinal de saída de áudio diferentes das primeiras propriedades de covariância.26. Um programa de computador para implementar o método da reivindicação 25, caracterizado por ser executado em um computador ou processador.ss e" o 3 À o non õ se sc o ns cx no bb o vo FcA o * a o 48 dA A —— à do SO no * cc õ oO 3 Tr > rr oH As o vão vdH EniAD ns Hm| 3 8 - o “ NASA 5 17 9 o 26º e - 4 27 E ”v o o os So 9 Sã. Sã É do Sã oo À O O 5 va São um É axo ná a e a Ss 34 a bo ini S&S Fá 3 Ss o Ss E 8 4 6 o Ss d$ e, (E à: So "Ú QN a. ” SE a SI vo ”v * = 2 êH Ao o mw ss T % NaN so o É FE SS = 7 q" n5 Li gs É FE. CP o 1 « E 8 ã .. S à à E “ E 6% º OD a HH 3% ... "o 8 o 111 O 24 iii SS RD jo OS BS ua 7 8: à se 3847. dm mo sã aê o.HA +» O [IN mo & oH mmR À IA Í . o tr e A Lc E ta eQUA ê& — = ==D . o o + 7 ã â qu o o 4º À - 7 RS 7H “4 -| oo os Pã o o o à o ve£o WO OQ oo O Oo sas x — o É 18 2S Fã. 8 HA nuhlm O ua NS) 11 eo =) ão * à “ OoJ : Tr. " fo = 2 2 Us ão o Ss ig 82 A O Ss a... o & FE 8s &O [8 = So a = va q >A u A a o + vo os o a o FE a * o * a 8H ” nº |; 37 A o o ess Ho o o oO uXxX PE Ux A DA ss o o 8 T sz & sã És e > ” 2 à a É FE “á ow o via o Lu Ao o Bo ge ... "v o ii E us ie Bs o o o a 1 no sas E 84 : EE 8 vo ita à; CN + > LEA o: o 2 TAsi “ ” = Ta, ão; 48 GiES ilES Es a o o 68 Hu ms + À dm moA CE) "” ã aHA vo gg 6 "& o o vFE | EE 8 a nn 839 78 nÃs a: do 83. is $a: 4 Shoes “a: 8 úu E o un: » e: < 7. o: x 8 É j o Ez: Ê Ss o 8: S&S 8 EO: o ( S&A. soa: a ( õ it o ã ss É dp º3AO oX* o Ss 9 3 SS [da 3 E: a [hs E Sá e [23 e o > 1 8 EENENDA: & SS O SR o d - o & & = á Ea 3 E = 38 | |324. a UU o ÉS Es CEE 8 5" az o 2º o o 4 va ê SA E o E TA º 8 s 8a L—ga db E o 8 no o o ds o 8 s 3 3 —Ú SO n nFE oo Sa FeER o ' o o 3 4 o E à õ a ou 488 34 E As ão ou: sã: a no: À à A o ui o o & da: A IL = va: aê 6 -: o É: e: BS ao: o o O O CRS > o O [a a 2 : o. ão 8 e. ” a” o 3 sn go 8º, 8 7. 3 TAESHADO & a " o 04 5 o" 26 > = Vá > Zz vã SNL o LL. oe q 4 os SE | o 3 om O Hx = o “ “ = ás . 2 & ig do ri = SS és &s o o ENS) o E EH ( o o sc “ o €— oo & S 88 Às eo Ho g= "8 o so 7 4 S oo 2 Bl | sl(48 FE > 8 4 oa do Hu e bl EO go à: ST.A o o o 7a A nn E. as s n - ou. o o o (* +) uu oo Ss o Ss o do — o2 /oçÇ6o g 8 : é Ss 3 = Es o ão vs E Tue SAAB d|s3 [87 dE E. ES 3 oe. ig) 8º 7 o | o rat) a so 388/88 7 dns ” o om Sds o o o a a O gd “o is De os A Ss &s2À 38| | : o as] 715º e gt ado DD o 00U06cg o $ ds O So $ iii E “ 6 : Ago E “2 às gs ã 1 oo o O 2a ol & o Po à o à o 8 E ud ” a O e dA o as 1) 7 5 o o Erê HO o nm ls Rn - “H 8187 oo É o SE 153; sãos 298 2868 $ 7h 38129608 om “ video À s8 28538 vox. o o > o o be” vom E xg8 o an DOS, 3 o uh 235 É AO 8 83 8 a = O| 8/15 o wo Do TTT L Ss = 4 o o Sli 3 so [ii o us [1 N 2. as "” A 1 FS ss - 7 ii o no a 8 o à o E : 9º abs | 8 = 2 É dis o H d+ ei 8) 3) | 383 S&S k ; “23 Bá ea o | | : : : Es 1 “ & 1 FE io EE FE. ES 1 eee 0 DS s is SÁ ES no a o suga || 8 Og dá, E “8HE e vão dh 7 ành 2. sal no coa “a. ao0Eno a on . &> uno o 2a o Ds & 7 E ia á 2 o 368TO 2% “SE8a Eis 2: Adu 8 8a * 28 oq Ss Es S&S sãos $eaã 4 o? j : E Fãs O s u o 4 Sid) co e) is! 17 õ > .. <A qa ga das i : ”Ú as É E É o & H 4 8 :Í & +St, o 4/0 Oo o e o 8 s O O 5 E a E 3 oSB ESA Ss lee? = o Ss q o 8 om Ho o z E 8 37 É à 8 E “ na 7 FEAT) 49 / 86 47º FE é | no + 4 NA |DO É E | E" CA a BS Es gb: so TE | 83/87 ES So E ã Ss SRAO ———. = EE q $$ — rr 3 Ss Es OS ES Es 8 E o 8 SO o E 8 É 8 8; Li ne 7 e sl 8 a e ld BE Ch 4 o & a S— a 34 CC à = o Ho ul sa OO | E q ES SS ao FEES EEE So A x 8 O) se SS oo o 9 E JR 4a "So É 8 q. a o Ss g à = $a) POE, 4 ss 8 3 os o E do : a é ESPE | ar” abs Es 64 &N ÇO Td A o ou EsÃo] Contexto C, Descorrelação: ICC de Entrada | 0.8 Alta ' 08 Descorrelaçã ICC de Entrada | j 1) ão: intra: Muito Alta 0.97 1 Upmixing Estéreo 2 1 1 2 10000 01000 Upmixing de 5,0 a 7,0 00100 00010 00001 1 O 005 O Downmixing: com a Mesma o Í 0 0 05 Coerência Não-Zero o 0 1 o o 05 0 O 1 O 0 08 O O 1 1 086 064 064 086 Descorrelação: Coincidente 0.86 1 0.86 064 064 Cardioide Espaçado-Igual 5,0 0.64 0.86 é 1 0.86 0.640.64 064 086 1 0860.86 064 064 0.86 1 Descorrelação: Hipercardioide 1 0.65 0.91 0,43 -0,22 Coincidente de Layout Padrão 0.65 1 091 -022 043 5,0 0.91 09 1 007 0070.43 -022 0.07 1 -0.22 -0.22 043 0.07 -0.22 1 Tabela 1 FIG 11 FIG |FIG|FIG 11A11BIIHC FIG 11A. Q | C 1 o o 1 o 1 10 10 o1 o 11. 0 05 0 0 0 0 o 0 05 0 O O 071 o7 0 02 0 01. 0 O 0 005 O o O 00 005 100 o ollilitoo o o o o 010 o ol/ 010 0 0 o o o 01 o ollljo001t 0 o o O o 0007 olljo 0005 o o O o 00 0o0o71/l/lo0 00 005 o O o 000 ol/llo 00 0 005 oO 0 00 0o07///000 0 O O 05 10 07 1 O 25 05 O 1 07 o 1 05 25 10000 10000 01000 01000 00100 00100 00010 00010 00001 00001 10000 10000 01000 01000 00100 00100 00010 00010 0 0001 00001 Tabela 1 Ns rig 6 FIG FIG 11A/11BH1C FIG 11B i —s— A OO 075 o 0 075 15 o 0 | 21 14 0,31 031 14 21 031 030.33 -0.17 0.33 0.08 -0.24 -0.17 0.080.17 0,38 0.08 0.33 -0.24 0.08 -0.170.47 047 0.24 -0.24 067 -0.24 -0.240.33 -0.17 -0.17 0.08 -0.24 0.33 0.080.17 0.33 0.08 -0.17 -0.24 0.08 033 100 0 O 0 00 0 0 0 O 010 0 O 000 0 0 0 O 0 01 0 O 000 o o 0 O 0 0005 O O 00 028 0-02% O 0 00 0 05 0 00 0 026 O -025 0 0005 O O 0 0-025 O 02 O 0 00 005 0 00 0-02 O 020.84 0.02 0.61 0.84 0.02 o 00.02 0.84 061 0.02 0.84 001.7 -0.53 -0.05 -0.05 -0.53 0.4 -032 012 012 -0320.53 17 -053 -005 -0.05]) |-032 04 -032 012 012 005 -053 1.7 -0.53 -0.05|| | 012 -032 04 -032 0120.05 -0.05 -0.53 17 -053]| | 012 012 -032 04 -0320.53 -0.05 -0.05 -0.53 1.7) |-032 012 012 -032 04 2 -051 -0.83 -0.53 041 0.58 -0.2 -034 -023 019 051 — 2 -0.83 -041 -053 0.2 0.58 -034 0.19 -0.230.83 -083 21 004 004|| |-034 -034 0.62 003 003 053 041 004 12 -007/| |-023 0.19 0.03 011 01 041 -053 0.04 -007 12/] | 019 -023 0.03 011 011 Tabela 1 ss FIG 11 FIG|FIGI|FIG 11A/11B/11C FIG 11C| 14/15 . Listagem 1: Implementação de Matlab do Método Proposto | Função [M, Cr] = formular M e Cr (Cx, Cy, Q, indicador) 2 % indicador = O: Uso esperado de resíduos 3 % indicador = 1: Fixar energias no lugar 4 Lambda = olho (comprimento (Cy), comprimento (Cx));6 % Decomposição de Cy 7 [U CyS Cy]=svd(Cy); 8 Ky=U Cy*sart(S Cy); 9 % Decomposição de Cy 11 [U Cx,S CxJ=svd(Cx); 12 Kx=U Cx*-sgrt(S Cx); 18 14 % SVD de Kx Ux=U Cx 16 Sx=sqrt(S Cx); 17 % vx = matriz de identidade 18 19 % Uma regularização simples do inverso Sx diag=diag(Sx) 2| Limite = Max (Sx diag)*0,2; 22 Sx hat diag = max (Sx diag, limite); 23 — [AS — ppa pe———o FIG 12A FIG 12 FIG 12B FIG 12AÀ o. 24 % para Formular Kx"-1 regularizado Kx hat inverso = diag (1./Sx hat diag)*Ux'; 26 27 % para Formular P ideal 28 [USV]=svd(KX'+Q'Ky); 29 P=V"*lambda*U';31] % Utilizando o que temos de M ideal 32 M=Ky*P* Kx hat inverso; 33 34 % para Formular matriz de covariância residual Cy hat= M*CX*M"'; 36 Cr=Cy-Cy hat; 37 38 % Uso de compensação de energia ao invés de resíduos 39 Se indicador = = 1 40 Ajuste = diag (Cy) ./diag (Cy hat +1 e -20); 41 G = diag (sqgrt (ajuste)); 42 43 Cr = 'desnecessário” 44 rim FIG 12A FIG 12 FIG 12B FIG 12B
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161524647P | 2011-08-17 | 2011-08-17 | |
US61/524.647 | 2011-08-17 | ||
US61/524,647 | 2011-08-17 | ||
EP12156351A EP2560161A1 (en) | 2011-08-17 | 2012-02-21 | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
EP12156351.4 | 2012-02-21 | ||
PCT/EP2012/065861 WO2013024085A1 (en) | 2011-08-17 | 2012-08-14 | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
Publications (2)
Publication Number | Publication Date |
---|---|
BR112014003663A2 true BR112014003663A2 (pt) | 2020-10-27 |
BR112014003663B1 BR112014003663B1 (pt) | 2021-12-21 |
Family
ID=45656296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112014003663-2A BR112014003663B1 (pt) | 2011-08-17 | 2012-08-14 | Matrizes de mixagem ideal e uso de descorrelacionadores no processamento de áudio espacial |
Country Status (16)
Country | Link |
---|---|
US (3) | US10339908B2 (pt) |
EP (2) | EP2560161A1 (pt) |
JP (1) | JP5846460B2 (pt) |
KR (1) | KR101633441B1 (pt) |
CN (1) | CN103765507B (pt) |
AR (1) | AR087564A1 (pt) |
AU (1) | AU2012296895B2 (pt) |
BR (1) | BR112014003663B1 (pt) |
CA (1) | CA2843820C (pt) |
ES (1) | ES2499640T3 (pt) |
HK (1) | HK1187731A1 (pt) |
MX (1) | MX2014001731A (pt) |
PL (1) | PL2617031T3 (pt) |
RU (1) | RU2631023C2 (pt) |
TW (1) | TWI489447B (pt) |
WO (1) | WO2013024085A1 (pt) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9584912B2 (en) * | 2012-01-19 | 2017-02-28 | Koninklijke Philips N.V. | Spatial audio rendering and encoding |
WO2013120510A1 (en) * | 2012-02-14 | 2013-08-22 | Huawei Technologies Co., Ltd. | A method and apparatus for performing an adaptive down- and up-mixing of a multi-channel audio signal |
EP2688066A1 (en) | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
KR102161169B1 (ko) * | 2013-07-05 | 2020-09-29 | 한국전자통신연구원 | 오디오 신호 처리 방법 및 장치 |
EP2830050A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
EP2830335A3 (en) | 2013-07-22 | 2015-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method, and computer program for mapping first and second input channels to at least one output channel |
EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830049A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
EP2866227A1 (en) | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
CN110895943B (zh) * | 2014-07-01 | 2023-10-20 | 韩国电子通信研究院 | 处理多信道音频信号的方法和装置 |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US20160171987A1 (en) * | 2014-12-16 | 2016-06-16 | Psyx Research, Inc. | System and method for compressed audio enhancement |
US9712936B2 (en) | 2015-02-03 | 2017-07-18 | Qualcomm Incorporated | Coding higher-order ambisonic audio data with motion stabilization |
WO2016141023A1 (en) | 2015-03-03 | 2016-09-09 | Dolby Laboratories Licensing Corporation | Enhancement of spatial audio signals by modulated decorrelation |
US10129661B2 (en) * | 2015-03-04 | 2018-11-13 | Starkey Laboratories, Inc. | Techniques for increasing processing capability in hear aids |
EP3357259B1 (en) | 2015-09-30 | 2020-09-23 | Dolby International AB | Method and apparatus for generating 3d audio content from two-channel stereo content |
US10225657B2 (en) | 2016-01-18 | 2019-03-05 | Boomcloud 360, Inc. | Subband spatial and crosstalk cancellation for audio reproduction |
KR101858917B1 (ko) * | 2016-01-18 | 2018-06-28 | 붐클라우드 360, 인코포레이티드 | 오디오 재생성을 위한 부대역 공간 및 크로스토크 제거 기법 |
BR112018014724B1 (pt) | 2016-01-19 | 2020-11-24 | Boomcloud 360, Inc | Metodo, sistema de processamento de audio e midia legivel por computador nao transitoria configurada para armazenar o metodo |
WO2017143003A1 (en) * | 2016-02-18 | 2017-08-24 | Dolby Laboratories Licensing Corporation | Processing of microphone signals for spatial playback |
US11234072B2 (en) | 2016-02-18 | 2022-01-25 | Dolby Laboratories Licensing Corporation | Processing of microphone signals for spatial playback |
US10923132B2 (en) | 2016-02-19 | 2021-02-16 | Dolby Laboratories Licensing Corporation | Diffusivity based sound processing method and apparatus |
US10979844B2 (en) * | 2017-03-08 | 2021-04-13 | Dts, Inc. | Distributed audio virtualization systems |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
US10313820B2 (en) | 2017-07-11 | 2019-06-04 | Boomcloud 360, Inc. | Sub-band spatial audio enhancement |
GB201718341D0 (en) * | 2017-11-06 | 2017-12-20 | Nokia Technologies Oy | Determination of targeted spatial audio parameters and associated spatial audio playback |
US10764704B2 (en) | 2018-03-22 | 2020-09-01 | Boomcloud 360, Inc. | Multi-channel subband spatial processing for loudspeakers |
GB2572420A (en) * | 2018-03-29 | 2019-10-02 | Nokia Technologies Oy | Spatial sound rendering |
GB2572650A (en) * | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
GB2574239A (en) | 2018-05-31 | 2019-12-04 | Nokia Technologies Oy | Signalling of spatial audio parameters |
CN110782911A (zh) * | 2018-07-30 | 2020-02-11 | 阿里巴巴集团控股有限公司 | 音频信号处理方法、装置、设备和存储介质 |
GB2582749A (en) * | 2019-03-28 | 2020-10-07 | Nokia Technologies Oy | Determination of the significance of spatial audio parameters and associated encoding |
BR112021025265A2 (pt) | 2019-06-14 | 2022-03-15 | Fraunhofer Ges Forschung | Sintetizador de áudio, codificador de áudio, sistema, método e unidade de armazenamento não transitória |
KR20220042165A (ko) * | 2019-08-01 | 2022-04-04 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 공분산 평활화를 위한 시스템 및 방법 |
GB2587357A (en) * | 2019-09-24 | 2021-03-31 | Nokia Technologies Oy | Audio processing |
CN112653985B (zh) | 2019-10-10 | 2022-09-27 | 高迪奥实验室公司 | 使用2声道立体声扬声器处理音频信号的方法和设备 |
US10841728B1 (en) | 2019-10-10 | 2020-11-17 | Boomcloud 360, Inc. | Multi-channel crosstalk processing |
GB2589321A (en) | 2019-11-25 | 2021-06-02 | Nokia Technologies Oy | Converting binaural signals to stereo audio signals |
GB2594265A (en) * | 2020-04-20 | 2021-10-27 | Nokia Technologies Oy | Apparatus, methods and computer programs for enabling rendering of spatial audio signals |
US11373662B2 (en) * | 2020-11-03 | 2022-06-28 | Bose Corporation | Audio system height channel up-mixing |
WO2023147864A1 (en) * | 2022-02-03 | 2023-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method to transform an audio stream |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4298466B2 (ja) * | 2003-10-30 | 2009-07-22 | 日本電信電話株式会社 | 収音方法、装置、プログラム、および記録媒体 |
SE0402652D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
KR101271069B1 (ko) * | 2005-03-30 | 2013-06-04 | 돌비 인터네셔널 에이비 | 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법 |
WO2007111568A2 (en) | 2006-03-28 | 2007-10-04 | Telefonaktiebolaget L M Ericsson (Publ) | Method and arrangement for a decoder for multi-channel surround sound |
JP5450085B2 (ja) * | 2006-12-07 | 2014-03-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
CN101542596B (zh) * | 2007-02-14 | 2016-05-18 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
CA2645915C (en) | 2007-02-14 | 2012-10-23 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
ES2452348T3 (es) * | 2007-04-26 | 2014-04-01 | Dolby International Ab | Aparato y procedimiento para sintetizar una señal de salida |
MX2010004220A (es) * | 2007-10-17 | 2010-06-11 | Fraunhofer Ges Forschung | Codificacion de audio usando mezcla descendente. |
US8315396B2 (en) * | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
US8705749B2 (en) * | 2008-08-14 | 2014-04-22 | Dolby Laboratories Licensing Corporation | Audio signal transformatting |
KR20100111499A (ko) * | 2009-04-07 | 2010-10-15 | 삼성전자주식회사 | 목적음 추출 장치 및 방법 |
AU2010303039B9 (en) | 2009-09-29 | 2014-10-23 | Dolby International Ab | Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value |
TWI396186B (zh) * | 2009-11-12 | 2013-05-11 | Nat Cheng Kong University | 基於盲訊號分離語音增強技術之遠距離雜訊語音辨識 |
EP2567551B1 (en) * | 2010-05-04 | 2018-07-11 | Sonova AG | Methods for operating a hearing device as well as hearing devices |
-
2012
- 2012-02-21 EP EP12156351A patent/EP2560161A1/en not_active Withdrawn
- 2012-08-09 TW TW101128761A patent/TWI489447B/zh active
- 2012-08-14 RU RU2014110030A patent/RU2631023C2/ru not_active Application Discontinuation
- 2012-08-14 JP JP2014525429A patent/JP5846460B2/ja active Active
- 2012-08-14 BR BR112014003663-2A patent/BR112014003663B1/pt active IP Right Grant
- 2012-08-14 KR KR1020147006724A patent/KR101633441B1/ko active IP Right Grant
- 2012-08-14 WO PCT/EP2012/065861 patent/WO2013024085A1/en active Application Filing
- 2012-08-14 PL PL12745880T patent/PL2617031T3/pl unknown
- 2012-08-14 CN CN201280040135.XA patent/CN103765507B/zh active Active
- 2012-08-14 ES ES12745880.0T patent/ES2499640T3/es active Active
- 2012-08-14 MX MX2014001731A patent/MX2014001731A/es active IP Right Grant
- 2012-08-14 AU AU2012296895A patent/AU2012296895B2/en active Active
- 2012-08-14 CA CA2843820A patent/CA2843820C/en active Active
- 2012-08-14 EP EP12745880.0A patent/EP2617031B1/en active Active
- 2012-08-16 AR ARP120103009A patent/AR087564A1/es active IP Right Grant
-
2014
- 2014-01-22 HK HK14100668.5A patent/HK1187731A1/xx unknown
- 2014-02-13 US US14/180,230 patent/US10339908B2/en active Active
-
2019
- 2019-04-18 US US16/388,713 patent/US10748516B2/en active Active
-
2020
- 2020-08-06 US US16/987,264 patent/US11282485B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
TW201320059A (zh) | 2013-05-16 |
AU2012296895B2 (en) | 2015-07-16 |
TWI489447B (zh) | 2015-06-21 |
RU2014110030A (ru) | 2015-09-27 |
US11282485B2 (en) | 2022-03-22 |
BR112014003663B1 (pt) | 2021-12-21 |
US10748516B2 (en) | 2020-08-18 |
WO2013024085A1 (en) | 2013-02-21 |
EP2560161A1 (en) | 2013-02-20 |
CN103765507B (zh) | 2016-01-20 |
EP2617031B1 (en) | 2014-07-23 |
KR101633441B1 (ko) | 2016-07-08 |
JP2014526065A (ja) | 2014-10-02 |
US10339908B2 (en) | 2019-07-02 |
CN103765507A (zh) | 2014-04-30 |
CA2843820A1 (en) | 2013-02-21 |
KR20140047731A (ko) | 2014-04-22 |
HK1187731A1 (en) | 2014-04-11 |
AR087564A1 (es) | 2014-04-03 |
US20200372884A1 (en) | 2020-11-26 |
RU2631023C2 (ru) | 2017-09-15 |
MX2014001731A (es) | 2014-03-27 |
US20140233762A1 (en) | 2014-08-21 |
US20190251938A1 (en) | 2019-08-15 |
CA2843820C (en) | 2016-09-27 |
ES2499640T3 (es) | 2014-09-29 |
PL2617031T3 (pl) | 2015-01-30 |
EP2617031A1 (en) | 2013-07-24 |
AU2012296895A1 (en) | 2014-02-27 |
JP5846460B2 (ja) | 2016-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR112014003663A2 (pt) | matrizes de mixagem ideal e uso de descorrelacionadores no processamento de áudio espacial | |
CN111316354B (zh) | 目标空间音频参数和相关联的空间音频播放的确定 | |
RU2439719C2 (ru) | Устройство и способ для синтезирования выходного сигнала | |
EP2539889B1 (en) | Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program | |
TWI841483B (zh) | 用於將保真立體音響格式聲訊訊號描繪至二維度(2d)揚聲器設置之方法和裝置以及電腦可讀式儲存媒體 | |
JP5174973B2 (ja) | ダウンミックスオーディオ信号をアップミックスするための装置、方法およびコンピュータ・プログラム | |
EP3933834A1 (en) | Enhanced soundfield coding using parametric component generation | |
US20130304480A1 (en) | Encoding and decoding of slot positions of events in an audio signal frame | |
PT2372701E (pt) | Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal | |
MX2008012324A (es) | Metodo mejorado para la modulacion de señales en la reconstruccion de audio multicanal. | |
MX2011002626A (es) | Aparato, metodo y programa de computadora para proveer un conjunto de pistas espaciales en base a una señal de microfono y aparato para proveer una señal de audio de dos canales y un conjunto de pistas especiales. | |
CN107077861B (zh) | 音频编码器和解码器 | |
CN113196386A (zh) | 用于控制多声道音频帧丢失隐藏的方法和装置 | |
He et al. | Time-shifting based primary-ambient extraction for spatial audio reproduction | |
Jansson | Stereo coding for the ITU-T G. 719 codec | |
Vilkamo | Perceptually motivated time-frequency processing of spatial audio | |
JP2022550803A (ja) | マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化 | |
JPWO2016035567A1 (ja) | 音声処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B07A | Application suspended after technical examination (opinion) [chapter 7.1 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B350 | Update of information on the portal [chapter 15.35 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 14/08/2012, OBSERVADAS AS CONDICOES LEGAIS. |