BR112016001003B1 - Redução de artefatos de filtro de pente no downmix de multicanal com alinhamento de fase adaptativo - Google Patents
Redução de artefatos de filtro de pente no downmix de multicanal com alinhamento de fase adaptativo Download PDFInfo
- Publication number
- BR112016001003B1 BR112016001003B1 BR112016001003-5A BR112016001003A BR112016001003B1 BR 112016001003 B1 BR112016001003 B1 BR 112016001003B1 BR 112016001003 A BR112016001003 A BR 112016001003A BR 112016001003 B1 BR112016001003 B1 BR 112016001003B1
- Authority
- BR
- Brazil
- Prior art keywords
- audio signal
- input
- matrix
- decoder
- channels
- Prior art date
Links
- 230000003044 adaptive effect Effects 0.000 title abstract description 7
- 230000009467 reduction Effects 0.000 title abstract description 3
- 230000005236 sound signal Effects 0.000 claims abstract description 187
- 238000012545 processing Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 72
- 230000008569 process Effects 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 216
- 238000013507 mapping Methods 0.000 claims description 47
- 235000006679 Mentha X verticillata Nutrition 0.000 claims description 14
- 235000002899 Mentha suaveolens Nutrition 0.000 claims description 14
- 235000001636 Mentha x rotundifolia Nutrition 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 13
- 102000012199 E3 ubiquitin-protein ligase Mdm2 Human genes 0.000 claims description 7
- 108050002772 E3 ubiquitin-protein ligase Mdm2 Proteins 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000012886 linear function Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 101000577696 Homo sapiens Proline-rich transmembrane protein 2 Proteins 0.000 claims description 3
- 102100028840 Proline-rich transmembrane protein 2 Human genes 0.000 claims description 3
- 230000006870 function Effects 0.000 description 31
- 230000010363 phase shift Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 238000013459 approach Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 239000000203 mixture Substances 0.000 description 9
- 238000009877 rendering Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000001427 coherent effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008080 stochastic effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-M argininate Chemical compound [O-]C(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-M 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
Abstract
REDUÇÃO DE ARTEFATOS DE FILTRO DE PENTE NO DOWNMIX DE MULTICANAL COM ALINHAMENTO DE FASE ADAPTATIVO. Decodificador de processamento de sinal de áudio tendo ao menos uma banda de frequência (36) e sendo configurado para processar um sinal de áudio de entrada (37) tendo uma pluralidade de canais de entrada (38) em ao menos uma banda de frequência (36), sendo que o decodificador (2) é configurado para analisar o sinal de áudio de entrada (37), sendo que as dependências intercanal (39) entre os canais de entrada (38) são identificadas; e para alinhar as fases dos canais de entrada (38) com base nas dependências intercanal identificadas (39), sendo que quanto maior sua dependência de canal (39), mais alinhadas são as fases dos canais de entrada (38) com relação umas às outras; e para fazer o downmix do sinal de áudio de entrada alinhado para um sinal de áudio de saída (40) tendo um número inferior de canais de saída (41) do que o número de canais de entrada (38). Fig. 1
Description
[001] Descrição
[002] A presente invenção se refere ao processamento de sinal de áudio, e, em particular, a uma redução de artefatos de filtro de pente em um downmix (submistura) de multicanal com alinhamento de fase adaptativo.
[003] Vários formatos de som de multicanal têm sido empregados, desde o som surround 5.1 que é típico para as trilhas sonoras de filmes aos formatos de som surround 3D mais extensos. Em alguns cenários, é necessário transmitir o conteúdo de som ao longo de um número menor de alto-falantes.
[004] Além disso, em métodos de codificação de áudio de baixa taxa de bits recentes, como descrito em J. Breebaart, S. van de Par, A. Kohlrausch, e E. Schuijers, “Parametric coding of stereoaudio,” EURASIP Journal on Applied Signal Processing, vol. 2005, pp. 1305-1322, 2005 e J. Herre, K. Kjorling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roden, W. Oomen, K. Linzmeier, e K. S. Chong, “MPEG Surround-The ISO/MPEG standard for efficient and compatible multichannel audio coding,” J. Audio Eng. Soc, vol. 56, no. 11, pp. 932-955, 2008, o número maior de canais é transmitido como um conjunto de sinais de downmix e informação de lado espacial com o qual um sinal de multicanal com a configuração de canal original é recuperado. Estes casos de uso motivam o desenvolvimento de métodos de downmix que preservam bem a qualidade do som.
[005] O método de downmix mais simples é a soma do canal usando uma matriz de downmix estática. No entanto, se os canais de entrada contêm sons que não coerentes mas não alinhados no tempo, o sinal de downmix é susceptível de atingir polarização espectral perceptível, como as características de um filtro de pente.
[006] Em J. Breebaart e C. Faller, “Spatial audio processing: MPEG Surround e other applications”. Wiley-Interscience, 2008 um método de alinhamen- to de fase de dois sinais de entrada é descrito, o qual ajustou as fases dos canais de entrada com base no parâmetro de diferença de fase intercanal estimado (ICPD) em bandas de frequência. A solução fornece funcionalidade básica similar à que o método propôs neste artigo, mas não é aplicável para fazer o downmix de mais de dois canais inter-dependentes.
[007] Na WO 2012/006770, PCT/CN2010/075107 (Huawei, Faller, Lang, Xu) um processamento de alinhamento de fase é descrito para um caso de dois para um canal (estéreo para mono). O processamento não é diretamente aplicável para áudio de multicanal.
[008] Em Wu et al, “Parametric Stereo Coding Scheme with a new Downmix Método and whole Band Inter Channel Time/Phase Differences”, Proceedings of the ICASSP, 2013 um método é descrito que usa diferença de fase intercanal de banda-inteira para downmix estéreo. A fase do mono sinal é ajustada para a diferença de fase entre o canal esquerdo e a diferença de fase geral. Novamente, o método só é aplicável para downmix de estéreo para mono. Mais de dois canais interdependentes não podem sofrer downmix com este método.
[009] O objeto da presente invenção é fornece conceitos aprimorados para processamento de sinal de áudio. O objeto da presente invenção é resolvido por um codificador, de acordo com a reivindicação 1, por um decodificador, de acordo com a reivindicação 12, por um sistema, de acordo com a reivindicação 13, por um método, de acordo com a reivindicação 14 e por um programa de computador, de acordo com a reivindicação 15.
[010] Um decodificador de processamento de sinal de áudio tendo ao menos uma banda de frequência e sendo configurado para processar um sinal de áudio de entrada tendo uma pluralidade de canais de entrada em ao menos uma banda de frequência é fornecido. O decodificador é configurado para alinhar as fases dos canais de entrada dependendo das dependências intercanal entre os canais de entrada, sendo que quanto maior sua dependência intercanal, mais alinhadas são as fases dos canais de entrada com relação umas às outras. Ainda, o decodificador é configurado para fazer o downmix do sinal de áudio de entrada alinhado para um sinal de áudio de saída tendo um número inferior de canais de saída do que o número de canais de entrada.
[011] O princípio de funcionamento básico do decodificador é que canais de entrada mutualmente dependentes (coerentes) do sinal de áudio de entrada atraem uns aos outros em termos de fase na banda de frequência específica, enquanto estes canais de entrada do sinal de áudio de entrada que são mutualmente independentes (incoerentes) permanecem não afetados. O objetivo do decodificador proposto é melhorar a qualidade do downmix em relação à abordagem de pós-equalização em condições de cancelamento de sinal críticas, enquanto fornece o mesmo desempenho em condições não-críticas.
[012] Ainda, pelo menos algumas funções do decodificador podem ser transferidas para o dispositivo externo, como um codificador, o qual fornece o sinal de áudio de entrada. Isto pode proporcionar a possibilidade de reagir aos sinais, onde um decodificador do estado da técnica pode produzir artefatos. Adicionalmente, é possível atualizar as regras de processamento de downmix sem alterar o decodificador e para assegurar uma alta qualidade de downmix. A transferência das funções do decodificador é descrita abaixo em mais detalhes.
[013] Em algumas modalidades o decodificador pode ser configurado para analisar o sinal de áudio de entrada na banda de frequência, a fim de identificar as dependências intercanal entre os canais de áudio de entrada. Neste caso o codificador que fornece o sinal de áudio de entrada pode ser um codificador padrão quando a análise do sinal de áudio de entrada é feita pelo próprio de- codificador.
[014] Nas modalidades o decodificador pode ser configurado para receber as dependências intercanal entre os canais de entrada a partir de um dispositivo externo, como a partir de um codificador, o qual fornece o sinal de áudio de entrada. Esta versão permite configurações de renderização flexíveis no deco- dificador, mas precisa de mais tráfego de dados adicionais entre o codificador e decodificador, normalmente no bitstream que contém o sinal de entrada do de- codificador.
[015] Em algumas modalidades o decodificador pode ser configurado para normalizar a energia do sinal de áudio de saída com base em uma energia de-terminada do sinal de áudio de entrada, sendo que o decodificador é configurado para determinar a energia do sinal do sinal de áudio de entrada.
[016] Em algumas modalidades o decodificador pode ser configurado para normalizar a energia do sinal de áudio de saída com base em uma energia de-terminada do sinal de áudio de entrada, sendo que o decodificador é configurado para receber a energia determinada do sinal de áudio de entrada a partir de um dispositivo externo, como a partir de um codificador, o qual fornece o sinal de áudio de entrada.
[017] Ao determinar a energia do sinal de áudio de entrada e ao normalizar a produção de energia do sinal de áudio pode-se assegurar que a energia do sinal de áudio de saída tem um nível adequado em comparação com outras bandas de frequência. Por exemplo, a normalização pode ser feita de tal maneira que a energia de cada sinal de saída de áudio da banda de frequência é a mesma que a soma das energias do sinal de áudio de entrada da banda de frequência multiplicada pelos quadrados dos ganhos de downmix correspondentes.
[018] Em várias modalidades o decodificador pode compreender um dispositivo de downmix para fazer o downmix do sinal de áudio de entrada com base em uma matriz de downmix, sendo que o decodificador é configurado para calcular a matriz de downmix de tal maneira que as fases dos canais de entrada são alinhadas com base nas dependências intercanal identificadas. As operações da matriz são uma ferramenta matemática para a resolução eficaz de problema multidimensionais. Portanto, o uso de uma matriz de downmix fornece um método flexível e fácil para fazer o downmix do sinal de áudio de entrada para um sinal de áudio de saída tendo um número inferior de canais de saída do que o número de canais de entrada do sinal de áudio de entrada.
[019] Em algumas modalidades o decodificador compreende um dispositivo de downmix para fazer o downmix do sinal de áudio de entrada com base em uma matriz de downmix, sendo que o decodificador é configurado para receber uma matriz de downmix calculada de tal maneira que as fases dos canais de entrada são alinhadas com base nas dependências intercanal identificadas a partir de um dispositivo externo, como a partir de um codificador, o qual fornece o sinal de áudio de entrada. Deste modo, a complexidade do processamento do sinal de áudio de saída no decodificador é fortemente reduzida.
[020] Em modalidades particulares o decodificador pode ser configurado para calcular uma matriz de downmix de tal maneira que a energia do sinal de áudio de saída é normalizada com base na energia determinada do sinal de áudio de entrada. Neste caso a normalização da energia do sinal de áudio de saída é integrada no processo de downmix, de modo que o processamento do sinal é simplificado.
[021] Nas modalidades o decodificador pode ser configurado para receber a matriz de downmix calculada de tal maneira que a energia do sinal de áudio de saída é normalizada com base na energia determinada do sinal de áudio de entrada a partir de um dispositivo externo, como a partir de um codificador, o qual fornece o sinal de áudio de entrada.
[022] A etapa de equalização de energia pode ou ser incluída no processo de codificação ou ser feita no decodificador, porque é uma etapa de processamento simples e claramente definida.
[023] Em algumas modalidades o decodificador pode ser configurado para analisar partições de tempo do sinal de áudio de entrada usando uma função de janela, sendo que as dependências intercanal são determinadas para cada período de tempo.
[024] Nas modalidades o decodificador pode ser configurado para receber uma análise de partições de tempo do sinal de áudio de entrada usando uma função de janela, sendo que as dependências intercanal são determinadas para cada período de tempo, a partir de um dispositivo externo, como a partir de um codificador, o qual fornece o sinal de áudio de entrada.
[025] O processamento pode ser em ambos os casos feito de uma maneira quadro a quadro sobrepostos, embora outras opções também estão prontamente disponíveis, como o uso de uma janela recursiva para estimar os parâmetros relevantes. Em princípio qualquer função de janela pode ser escolhida.
[026] Em algumas modalidades o decodificador é configurado para calcular uma matriz de valor de covariância, sendo que os valores de covariância expressam a dependência intercanal de um par de canais de áudio de entrada. Calcular uma matriz de valor de covariância é uma maneira fácil para capturar as propriedades estocásticas de curta duração da banda de frequência que pode ser usada para determinar a coerência dos canais de entrada do sinal de áudio de entrada.
[027] Nas modalidades o decodificador é configurado para receber uma matriz de valor de covariância, sendo que os valores de covariância expressam a dependência intercanal de um par de canal de áudio de entrada, a partir de um dispositivo externo, como a partir de um codificador, o qual fornece o sinal de áudio de entrada. Neste caso o cálculo da matriz de covariância pode ser transferido para o codificador. Então, os valores de covariância da matriz de covariância têm de ser transmitidos no bitstream entre o codificador e o decodi- ficador. Esta versão possibilita configurações de renderização flexíveis no receptor, mas precisa de dados adicionais no sinal de áudio de saída.
[028] Nas modalidades preferidas uma matriz de valor de covariância normalizada pode ser estabelecida, sendo que a matriz de valor de covariância normalizada é baseada na matriz de valor de covariância. Por este recurso o processamento adicional pode ser simplificado.
[029] Em algumas modalidades o decodificador pode ser configurado para estabelecer uma matriz de valor de atração pela aplicação de uma função de mapeamento à matriz de valor de covariância ou a uma matriz derivada da matriz de valor de covariância.
[030] Em algumas modalidades o gradiente da função de mapeamento pode ser maior ou igual a zero para todos os valores de covariância ou valores derivados de valores de covariância.
[031] Nas modalidades preferidas a função de mapeamento pode alcançar valores entre zero e um para valores de entrada entre zero e um.
[032] Nas modalidades o decodificador pode ser configurado para receber uma matriz de valor de atração estabelecida pela aplicação de uma função de mapeamento à matriz de valor de covariância ou a uma matriz derivada da matriz de valor de covariância. Pela aplicação de uma função não-linear à matriz de valor de covariância ou a uma matriz derivada da matriz de valor de co- variância, como uma matriz de covariância normalizada, o alinhamento de fase pode ser ajustado em ambos os casos.
[033] A matriz de valor de atração de fase fornece dados de controle na forma de coeficientes de atração de fase que determina a atração de fase entre os pares de canal. Os ajustes de fase derivados para cada área de tempo- frequência com base na matriz do valor de covariância de medição de modo que os canais com valores de baixa covariância não afetam uns aos outros e que os canais com altos valores de covariância estão com fase travada em relação uns aos outros.
[034] Em algumas modalidades a função de mapeamento é uma função não-linear.
[035] Nas modalidades a função de mapeamento ser igual a zero para valores de covariância ou valores derivados dos valores de covariância sendo menores do que um primeiro limiar de mapeamento e/ou sendo que a função de mapeamento é igual a um para valores de covariância ou valores derivados de valores de covariância sendo maiores que um segundo limiar de mapeamento. Por este recurso a função de mapeamento consiste em três intervalos. Para todos os valores de covariância ou valores derivados de valores de cova- riância sendo menores que o primeiro limiar de mapeamento os coeficientes de atração de fase são calculados para zero e por isso, o ajuste de fase não é executado. Para todos os valores de covariância ou valores derivados de valo- res de covariância que são maiores que o primeiro limiar de mapeamento mas menores que o segundo limiar de mapeamento os coeficientes de atração de fase são calculados para um valor entre zero e um e por isso, um ajuste de fase parcial é executado. Para todos os valores de covariância ou valores derivados de valores de covariância que são maiores que o segundo limiar de mapeamento os coeficientes de atração de fase são calculados para um e por isso, um ajuste de fase completo é feito.
[036] Um exemplo é dado pela seguinte função de mapeamento:
[038] Outro exemplo preferido é dado como:
[040] Em algumas modalidades a função de mapeamento pode ser representada por uma função que forma uma curva em forma de S.
[041] Em certas modalidades o decodificador é configurado para calcular uma matriz de coeficiente de alinhamento de fase, sendo que a matriz de coeficiente de alinhamento de fase é baseada na matriz de valor de covariância e em uma matriz de downmix de protótipo.
[042] Nas modalidades o decodificador é configurado para receber uma matriz de coeficiente de alinhamento de fase, sendo que a matriz de coeficiente de alinhamento de fase é baseada na matriz de valor de covariância e em uma matriz de downmix de protótipo, a partir de um dispositivo externo, como a partir de um codificador, o qual fornece o sinal de áudio de entrada.
[043] A matriz de coeficiente de alinhamento de fase descreve a quantidade de alinhamento de fase que é necessária para alinhar os canais de atração não-zero do sinal de áudio de entrada.
[044] A matriz de downmix de protótipo define, qual dos canais de entrada são misturados em quais dos canais de saída. Os coeficientes da matriz de downmix podem ser fatores de escala para fazer o downmix de um canal de entrada para um canal de saída.
[045] É possível transferir o cálculo completo da matriz de coeficiente de alinhamento de fase para o codificador. A matriz de coeficiente de alinhamento de fase então precisa ser transmitida no sinal de áudio de entrada, mas seus elementos são frequentemente zero e poderiam ser quantificados de forma motivada. Quando a matriz de coeficiente de alinhamento de fase é fortemente dependente da matriz de downmix de protótipo esta matriz tem que ser conhecida no lado do codificador. Isso restringe a possível configuração do canal de saída.
[046] Em algumas modalidades as fases e/ou as amplitudes dos coeficientes de downmix da matriz de downmix são formuladas para serem suavizadas ao longo do tempo, de modo que artefatos temporais devido ao cancelamento do sinal entre períodos de tempo adjacentes são evitados. Aqui “suavizados ao longo do tempo” significa que nenhuma mudança abrupta ao longo do tempo ocorre para os coeficientes de downmix. Em particular, os coeficientes de downmix podem mudar ao longo do tempo de acordo com uma função contínua ou quase-contínua.
[047] Nas modalidades as fases e/ou as amplitudes dos coeficientes de downmix da matriz de downmix são formuladas para serem suavizadas ao longo da frequência, de modo que artefatos espectrais devido ao cancelamento do sinal entre bandas de frequência adjacentes são evitados. Aqui “suavizados ao longo da frequência” significa que nenhuma mudança abrupta ao longo da frequência ocorre para os coeficientes de downmix. Em particular, os coeficientes de downmix podem mudar com a frequência de acordo com uma função contínua ou quase-contínua.
[048] Em algumas modalidades o decodificador é configurado para calcular ou para receber uma matriz de coeficiente de alinhamento de fase normalizada, sendo que a matriz de coeficiente de alinhamento de fase normalizada, é baseada na matriz de coeficiente de alinhamento de fase. Por este recurso o processamento adicional pode ser simplificado.
[049] Nas modalidades preferidas o decodificador é configurado para estabelecer uma matriz de coeficiente de alinhamento de fase regularizada com base na matriz de coeficiente de alinhamento de fase.
[050] Nas modalidades o decodificador é configurado para receber uma matriz de coeficiente de alinhamento de fase regularizada com base na matriz de coeficiente de alinhamento de fase a partir de um dispositivo externo, como a partir de um codificador, o qual fornece o sinal de áudio de entrada.
[051] A abordagem de downmix proposta proporciona regularização eficaz na condição crítica dos sinais de fase oposta, onde o processamento de alinhamento de fase pode alterar abruptamente sua polaridade.
[052] A etapa de regularização adicional é definida para reduzir cancelamentos nas regiões transientes entre quadros adjacentes devido à mudança abrupta dos coeficientes de ajuste de fase. Esta regularização e a prevenção de mudanças de fase abruptas entre áreas de tempo-frequência adjacentes é uma vantagem deste downmix proposto. Ele reduz artefatos não desejados que podem ocorrer quando a fase pula entre áreas de tempo-frequência adjacentes ou entalhes que aparecem entre as bandas de frequência adjacentes.
[053] Uma matriz de downmix de alinhamento de fase regularizada é obti- Q da pela aplicação de coeficientes de regularização de fase à matriz de alinhamento de fase normalizada.
[054] Os coeficientes de regularização podem ser calculados em um ciclo de processamento ao longo de cada área de tempo-frequência. A regularização pode ser aplicada de forma recursiva no tempo e direção de frequência. A diferença de fase entre espaços de tempo adjacentes e bandas de frequência é levada em consideração e elas são ponderadas pelos valores de atração que resultam em uma matriz ponderada. A partir dessa matriz os coeficientes de regularização podem ser derivados como discutido abaixo em mais detalhe.
[055] Nas modalidades preferidas a matriz de downmix é baseada na ma- triz de coeficiente de alinhamento de fase regularizada. Deste modo garante-se que os coeficientes de downmix da matriz de downmix são suaves ao longo do tempo e frequência.
[056] Além disso, um codificador de processamento de sinal de áudio tendo ao menos uma banda de frequência e sendo configurado para processar um sinal de áudio de entrada tendo uma pluralidade de canais de entrada em ao menos uma banda de frequência, sendo que o codificador é configurado
[057] para alinhar as fases dos canais de entrada dependendo das dependências intercanal entre os canais de entrada, sendo que quanto maior sua dependência intercanal, mais alinhadas são as fases dos canais de entrada com relação umas às outras; e
[058] para fazer o downmix do sinal de áudio de entrada alinhado para um sinal de áudio de saída tendo um número inferior de canais de saída do que o número de canais de entrada.
[059] O processamento de sinal de áudio codificador pode ser configurado similarmente ao processamento do decodificador de sinal de áudio discutido nesse pedido.
[060] Ainda, um codificador de processamento de sinal de áudio tendo ao menos uma banda de frequência e sendo configurado para produzir um bitstream, sendo que o bitstream contém um sinal de áudio codificado na banda de frequência, sendo que o sinal de áudio codificado tem uma pluralidade de canais codificados em ao menos uma banda de frequência, sendo que o codificador é configurado
[061] para determinar dependências intercanal entre os canais codificados do sinal de áudio de entrada e para produzir as dependências intercanal dentro do bitstream; e/ou
[062] para determinar a energia do sinal de áudio codificado e para produzir as energia determinadas do sinal de áudio codificado dentro do bitstream; e/ou
[063] para calcular uma matriz de downmix para um dispositivo de downmix fazer o downmix do sinal de áudio de entrada com base na matriz de downmix de tal maneira que as fases do canais codificados estejam alinhadas com base nas dependências intercanal identificadas, de preferência de tal maneira que a energia de um sinal de áudio de saída do dispositivo de downmix é normalizada com base na energia determinada do sinal de áudio codificado e para transmitir a matriz de downmix dentro do bitstream, sendo que em particular os coeficientes de downmix da matriz de downmix são formulados para serem suavizadas ao longo do tempo, de modo que artefatos temporais devido ao cancelamento do sinal entre períodos de tempo adjacentes são evitados e/ou sendo que em particular coeficientes de downmix da matriz de downmix são formulados para serem suavizadas ao longo da frequência, de modo que artefatos espectrais devido ao cancelamento do sinal entre bandas de frequência adjacentes são evitados; e/ou
[064] para analisar partições de tempo do sinal de áudio codificado usando uma função de janela, sendo que as dependências intercanal são determinadas para cada período de tempo e para produzir as dependências intercanal para cada período de tempo para dentro do bitstream; e/ou
[065] para calcular uma matriz de valor de covariância, sendo que os valores de covariância expressam a dependência intercanal de um par de canais de áudio codificados e para produzir a matriz de valor de covariância dentro do bitstream; e/ou
[066] para estabelecer uma matriz de valor de atração pela aplicação de uma função de mapeamento, sendo que o gradiente da função de mapeamento é de preferência maior ou igual a zero para todos os valores de covariância ou valores derivados de valores de covariância e sendo que a função de mapeamento de preferência alcança valores entre zero e um para valores de entrada entre zero e um, em particular uma função não-linear, em particular uma função de mapeamento, que é igual a zero para valores de covariância sendo menores do que um primeiro limiar de mapeamento e/ou que é igual a um para valores de covariância sendo maiores que um segundo limiar de mapeamento e/ou que é representado por uma função que forma uma curva em forma de S, para a matriz de valor de covariância ou para uma matriz derivada da matriz de valor de covariância e para produzir a matriz de valor de atração dentro do bitstream; e/ou
[067] para calcular uma matriz de coeficiente de alinhamento de fase, sendo que a matriz de coeficiente de alinhamento de fase é baseada na matriz de valor de covariância e em uma matriz de downmix de protótipo, e/ou
[068] para estabelecer uma matriz de coeficiente de alinhamento de fase regularizada com base na matriz de coeficiente de alinhamento de fase e para produzir a matriz de coeficiente de alinhamento de fase regularizada dentro do bitstream.
[069] O bitstream de tais codificadores pode ser transmitido para e decodificado por um decodificador como descrito aqui. Para detalhes adicionais, veja as explicações com relação ao decodificador.
[070] Um sistema compreendendo um decodificador de processamento de sinal de áudio de acordo com a invenção e um codificador de processamento de sinal de áudio de acordo com a invenção também é fornecido.
[071] Além disso, um método para processamento de um sinal de áudio de entrada tendo uma pluralidade de canais de entrada em uma banda de frequência, o método compreendendo as etapas: analisar o sinal de áudio de entrada na banda de frequência, sendo que as dependências intercanal entre os canais de áudio de entrada são identificadas; alinhar as fases dos canais de entrada com base na dependências intercanal identificadas, sendo que quanto maior sua dependência intercanal, mais alinhadas são as fases dos canais de entrada com relação umas às outras; e fazer o downmix do sinal de áudio de entrada alinhado para um sinal de áudio de saída tendo um número inferior de canais de saída do que o número de canais de entrada na banda de frequência é fornecido.
[072] Além disso, um programa de computador para implementar o método mencionado acima ao ser executado em um computador ou processador de sinal é fornecido.
[073] Em seguida, as modalidades da presente invenção são descritas em mais detalhe com relação às figuras, nas quais:
[074] Fig. 1 mostra um diagrama em bloco de um downmix de alinhamento de fase adaptativo proposto,
[075] Fig. 2 mostra o princípio de funcionamento do método proposto,
[076] Fig. 3 descreve as etapas de processamento para o cálculo de uma matriz de downmix ,
[077] Fig. 4 mostra uma fórmula, que pode ser aplicada a uma matriz de covariância normalizada para calcular uma matriz de valor de atração ,
[078] Fig. 5 mostra um diagrama em bloco esquemático de uma visão geral conceitual de um codificador de áudio 3D,
[079] Fig. 6 mostra um diagrama em bloco esquemático de uma visão geral conceitual de um decodificador de áudio 3D,
[080] Fig. 7 mostra um diagrama em bloco esquemático de uma visão geral conceitual de um conversor de formato,
[081] Fig. 8 mostra um exemplo do processamento de um sinal original que tem dois canais ao longo do tempo,
[082] Fig. 9 mostra um exemplo do processamento de um sinal original que tem dois canais ao longo da frequência e
[083] Fig. 10 ilustra um banco de filtro híbrido de 77 bandas.
[084] Antes de descrever as modalidades da presente invenção, mais antecedentes sobre sistemas de codificador-decodificador do background do estado da técnica são fornecidos.
[085] A Fig. 5 mostra um diagrama em bloco esquemático de uma visão geral conceitual de um codificador de áudio 3D 1, enquanto que a Fig. 6 mostra um diagrama em bloco esquemático de uma visão geral conceitual de um de- codificador de áudio 3D 2.
[086] O Sistema de Codec de Áudio 1, 2 pode ser com base em um codificador de codificação de áudio e fala unificado (USAC) MPEG-D 3 para a codifi cação de sinais do canal 4 e sinais do objeto 5 assim como com base em um decodificador de codificação de áudio e fala unificado (USAC) MPEG-D 6 para decodificação do sinal de áudio de saída 7 do codificador 3.
[087] O bitstream 7 pode conter um sinal de áudio codificado 37 que se refere a uma banda de frequência do codificador 1, sendo que o sinal de áudio codificado 37 tem uma pluralidade de canais codificados 38. O sinal codificado 37 pode ser alimentado a uma banda de frequência 36 (ver a fig. 1) do decodi- ficador 2 como um sinal de áudio de entrada 37.
[088] Para aumentar a eficiência de codificação para uma grande quantidade de objetos 5 a tecnologia de codificação de objeto de áudio espacial (SAOC) foi adaptada. Três tipos de renderizadores 8, 9, 10 executam as tarefas de renderização de objetos 11, 12 para os canais 13, renderizando os canais 13 para fones de ouvido ou renderizando canais para uma configuração de alto-falante diferente.
[089] Quando os sinais do objeto são explicitamente transmitidos ou pa- rametricamente codificados usando SAOC, a informação de Metadados do Objeto correspondentes (OAM) 14 é comprimida e multiplexada no bitstream de Áudio 3D 7.
[090] O pré-renderizador/misturador 15 pode ser opcionalmente usado para converter uma cena de entrada de canal-e-objeto 4, 5 em uma cena de canal 4, 16 antes da codificação. A funcionalidade é idêntica a do renderiza- dor/misturador de objeto 15 descrito acima.
[091] A pré-renderização de objetos 5 garante entropia de sinal determi- nística na entrada do codificador 3 que é basicamente independente do número de sinais do objeto ativos simultaneamente 5. Com a pré-renderização de objetos 5, nenhuma transmissão de metadados de objeto 14 é necessária.
[092] Sinais de objeto discretos 5 são renderizados para o layout do canal que o codificador 3 é configurado para usar. Os pesos dos objetos 5 para cada canal 16 são obtidos a partir dos metadados de objeto associados 14.
[093] O codec central para sinais do alto-falante-canal 4, sinais do objeto discretos 5, sinais do objeto de downmix 14 e sinais pré-renderizados 16 podem ser com base na tecnologia de MPEG-D USAC. Este processa a codificação da infinidade de sinais 4, 5, 14 pela criação da informação de mapeamento de canal e objeto com base na informação geométrica e semântica do canal de entrada e atribuição de objeto. Esta informação de mapeamento descreve, como os canais de entrada 4 e objetos 5 são mapeados para elementos de USAC-canal, ou seja, para elementos de par de canal (CPEs), elementos de canal único (SCEs), efeitos de baixa frequência (LFEs), e a informação correspondente é transmitida para o decodificador 6.
[094] Todas as cargas úteis adicionais como dados SAOC 17 ou metadados de objeto 14 podem ser passados através de elementos de extensão e podem ser considerados no controle de taxa do codificador 3.
[095] A codificação dos objetos 5 é possível de diferentes maneiras, dependendo dos requisitos de taxa/distorção e os requisitos de interatividade para o renderizador. As variantes de codificação de objeto a seguir são possíveis:
[096] Objetos pré-renderizados 16: Sinais do objeto 5 são pré- renderizados e misturados aos sinais do canal 4, por exemplo aos sinais dos canais 22.2 4, antes da codificação. A cadeia de codificação subsequente vem sinais do canal 22.2 4.
[097] Formas de onda de objeto discretas: Os objetos 5 são fornecidos como formas de onda monofônicas para o codificador 3. O codificador 3 usa elementos de canal único (SCEs) para transmitir os objetos 5 além dos sinais do canal 4. Os objetos decodificados 18 são renderizados e misturados no lado do receptor. Informações de metadados de objeto comprimidas 19, 20 são transmitidas para o receptor/renderizador 21 lado a lado.
[098] Formas de onda de objeto paramétricas 17: As propriedades do objeto e sua relação umas com as outras são descritas por meio de parâmetros SAOC 22, 23. O downmix dos sinais do objeto 17 é codificado usando USAC. A informação paramétrica 22 é transmitida lado a lado. O número de canais de downmix 17 é escolhido dependendo do número de objetos 5 e a taxa de da- dos geral. A informação de metadados de objeto comprimida 23 é transmitida para o renderizador SAOC 24.
[099] O codificador SAOC 25 e decodificador 24 para sinais do objeto 5 são baseados na tecnologia MPEG SAOC. O sistema é capaz de recriar, modificar e renderizar vários objetos de áudio 5 com base em um número menor de canais transmitidos 7 e dados paramétricos adicionais 22, 23, como diferenças de nível do objeto (OLDs), correlações inter-objeto (IOCs) e valores de ganho de downmix (DMGs). Os dados paramétricos adicionais 22, 23 exibem uma taxa de dados significativamente inferior do que a necessária para transmitir todos os objetos 5 individualmente, tornando a codificação muito eficiente.
[100] O codificador SAOC 25 toma como entrada os sinais de objeto/canal 5 como formas de onda monofônicas e produz a informação paramétrica 22 (que é empacotadas no bitstream de Áudio 3D 7) e os canais de transporte SAOC 17 (que são codificados usando elementos de canal único e transmitidos). O decodificador de SAOC 24 reconstrói os sinais de objeto/canal 5 a partir dos canais de transporte SAOC decodificados 26 e informação paramétrica 23, e gera a cena de áudio de saída 27 com base no layout de reprodução, a informação de metadados de objeto descomprimida 20 e opcionalmente na informação de interação de usuário.
[101] Para cada objeto 5, os metadados de objeto associados 14 que es-pecificam a posição geométrica e volume do objeto no espaço 3D são eficientemente codificados por um codificador de metadados de objeto 28 pela quantificação das propriedades do objeto no tempo e espaço. Os metadados de objeto comprimidos (cOAM) 19 são transmitidos para o receptor como informação de lado 20 a qual pode ser decodificada por um Decodificador-OAM 29.
[102] O renderizador de objeto 21 utiliza os metadados de objeto comprimidos 20 para gerar formas de onda do objeto 12 de acordo com um dado formato de reprodução. Cada objeto 5 é renderizado para determinados canais de saída 12 de acordo com seus metadados 19, 20. A saída deste bloco 21 resulta da soma dos resultados parciais. Se ambos conteúdos a base de canal 11, 30 assim como objetos discretos/paramétricos 12, 27 são decodificados as formas de onda baseadas no canal 11, 30 e as formas de onda do objeto renderizadas 12, 27 são misturadas antes de produzir as formas de onda resultantes 13 (ou antes de alimentá-las a um módulo pós-processador 9, 10 como o renderizador binaural 9 ou o módulo renderizador de alto-falante 10) por um misturador 8.
[103] O módulo do renderizador binaural 9 produz um downmix binaural do material de áudio de multicanal 13, de modo que canal de entrada 13 é representado por uma fonte de som virtual. O processamento é realizado quadro a quadro em um domínio de filtro em espelho de quadratura (QMF). A binaura- lização baseia-se nas respostas de impulso de ambiente binaural medidas.
[104] O renderizador de alto-falante 10 mostrado na Fig. 7 em mais detalhes faz a conversão entre a configuração do canal transmitido 13 e o formato de reprodução 31. É então chamado de ‘conversor de formato’10 no que se segue. O conversor de formato 10 realiza conversões para números inferiores de canais de saída 31, i.e. cria submisturas por um dispositivo de downmix 32. O configurador DMX 33 gera automaticamente matrizes de downmix otimizadas para a dada combinação de formatos de entrada 13 e formatos de saída 31 e aplica estas matrizes em um processo de downmix 32, sendo que um layout de saída do misturador 34 e um layout reprodução 35 são usados. O conversor de formato 10 possibilita configurações de alto-falante padrão assim como para configurações aleatórias com posições de alto-falante não-padrão.
[105] Fig. 1 mostra um dispositivo de processamento de sinal de áudio tendo ao menos uma banda de frequência 36 e sendo configurado para processar um sinal de áudio de entrada 37 tendo uma pluralidade de canais de entrada 38 em ao menos uma banda de frequência 36, sendo que o dispositivo é configurado
[106] para analisar o sinal de áudio de entrada 37, sendo que dependências intercanal 39 entre os canais de entrada 38 são identificadas; e
[107] para alinhar as fases dos canais de entrada 38 com base na depen-dências intercanal identificadas 39, sendo que quanto maior sua dependência de canal 39 for, mais alinhadas são as fases dos canais de entrada 38 com relação umas às outras; e
[108] para fazer o downmix do sinal de áudio de entrada alinhado para um sinal de áudio de saída 40 tendo um número inferior de canais de saída 41 do que o número de canais de entrada 38.
[109] O dispositivo de processamento de sinal de áudio pode ser um codificador 1 ou um decodificador, quando a invenção é aplicável aos codificadores 1 assim como aos decodificadores.
[110] O método de downmix proposto, apresentado como um diagrama em bloco na Fig. 1, é projetado com os princípios a seguir: 1. Os ajustes de fase são derivados para cada área de tempo- frequência com base na matriz de covariância do sinal medido de modo que os canais com baixa não afetam uns aos outros, e os canais com alta estão com fase travada com relação uns aos outros. 2. Os ajustes de fase são regularizados ao longo do tempo e frequência para evitar artefatos de cancelamento de sinal devido às diferenças de ajuste de fase nas áreas de sobreposição das áreas de tempo-frequência adjacentes. 3. Os ganhos da matriz de downmix são ajustados de modo que o downmix faz economia de energia.
[111] O princípio de funcionamento básico do codificador 1 é que canais de entrada mutuamente dependentes (coerentes) 38 do sinal de áudio de entrada atraem uns aos outros em termos de fase na banda de frequência específica 36, enquanto aqueles canais de entrada 38 do sinal de áudio de entrada 37 que são mutualmente independentes (incoerentes) permanecem não afetados. O objetivo do codificador proposto 1 é melhorar a qualidade de downmix em relação à abordagem de pós-equalização em condições de cancelamento de sinal críticas, enquanto fornece o mesmo desempenho em condições não- críticas.
[112] Uma abordagem significativa de downmix é posposta já que as de-pendências intercanal 39 normalmente são desconhecidas a priori.
[113] A abordagem direta para reavivar o espectro do sinal é aplicar um equalizador adaptativo 42 que atenua ou amplifica o sinal nas bandas de fre-quências 36. No entanto, se houver um entalhe de frequência que é muito mais acentuado do que a resolução de transformada de frequência aplicada, é razoável esperar que tal abordagem não possa recuperar o sinal 41 robustamente. Este problema é resolvido pelo pré-processamento das fases do sinal de entrada 37 antes do downmix, a fim de evitar tais entalhes de frequência em primeiro lugar.
[114] Uma modalidade de acordo com a invenção de um método para fazer o downmix de dois ou mais canais 38 para um número menor de canais 41 adaptativamente em bandas de frequência 36, ex., nas chamadas áreas de tempo-frequência, é discutida abaixo. O método compreende os seguintes recursos:
[115] Análise das energias do sinal e dependências intercanal 39 (contidas pela matriz de covariância ) em bandas de frequência 36.
[116] Ajuste das fases dos sinais do canal de entrada da banda de frequência 38 antes do downmix de modo que os efeitos do cancelamento do sinal no downmix são reduzidos e/ou o somatório do sinal coerente é aumentado.
[117] Ajustes das fases de tal maneira que um par ou grupo de canal que tem alta interdependência (mas potencial deslocamento de fase) são mais alinhados com relação uns aos outros, enquanto os canais que são menos interdependentes (também com um deslocamento de fase potencial) são menos ou nada alinhados em fase com relação uns aos outros.
[118] Os coeficientes de ajuste de fase são (opcionalmente) formulados para serem suavizadas ao longo do tempo, para evitar artefatos temporais devido ao cancelamento de sinal entre períodos de tempo adjacentes.
[119] Os coeficientes de ajuste de fase são (opcionalmente) formulados para serem suavizadas ao longo da frequência, para evitar artefatos espectrais devido ao cancelamento de sinal entre bandas de frequência adjacentes
[120] As energias dos sinais do canal de downmix da banda de frequência 41 são normalizadas, ex, de modo que a energia de cada sinal de downmix da banda de frequência 41 é a mesma que a soma das energias do sinal de entrada da banda de frequência 38 multiplicadas pelos quadrados dos ganhos de downmix correspondentes.
[121] Além disso, a abordagem de downmix proposta proporciona a regu-larização eficaz na condição crítica dos sinais de fase oposta, onde o processamento de alinhamento de fase pode alterar abruptamente sua polaridade.
[122] A descrição matemática fornecida posteriormente do dispositivo de downmix é uma realização prática do acima. Espera-se que um técnico versado na técnica possa formular outra realização específica que tem os recursos de acordo com a descrição acima.
[123] O princípio de funcionamento básico do método, ilustrado na Fig. 2, é que sinais mutuamente coerentes SC1, SC2, SC3 atraem uns aos outros em termos da fase em bandas de frequência 36, enquanto aqueles sinais SI1 que são incoerentes permanecem não afetados. O objetivo do método proposto é simplesmente melhorar a qualidade de downmix em relação à abordagem de pós-equalização nas condições de cancelamento de sinal críticas, enquanto fornece o mesmo desempenho em condição não-crítica.
[124] O método proposto foi concebido para formular em bandas de frequência 36 adaptativamente uma matriz de downmix de alinhamento de fase e equalização de energia , com base nas propriedades estocásticas de curta duração do sinal da banda de frequência 37 e uma matriz de downmix estática de protótipo . IEm particular, o método é configurado para aplicar o alinhamento de fase mutuamente somente àqueles canais SC1, SC2, SC3 que são interdependentes.
[125] O curso geral da ação é ilustrado na Fig. 1. O processamento é feito de uma maneira quadro a quadro sobrepostos, embora outras opções também estão prontamente disponíveis, como o uso de uma janela recursiva para estimar os parâmetros relevantes.
[126] Para cada quadro de sinal de entrada de áudio 43, uma matriz de downmix de alinhamento de fase , contendo coeficientes de downmix de ali-nhamento de fase, é definida dependendo dos dados estocásticos do quadro de sinal de entrada 43 e uma matriz de downmix de protótipo que define qual canal de entrada 38 sofre downmix para qual canal de saída 41. Os quadros de sinal 43 são criados em uma etapa de janelamento 44. Os dados estocásticos estão contidos na matriz de covariância de valor complexo do sinal de entrada 37 estimado a partir do quadro de sinal 43 (ou ex., usando uma janela recursiva) em uma etapa de estimativa 45. A partir da matriz de covariância de valor complexo uma matriz de ajuste de fase é derivada em uma etapa 46 chamada de formulação de coeficientes de downmix de alinhamento de fase
[127] Assuma que o número de canais de entrada seja o número de canais de downmix. A matriz de downmix de protótipo e a matriz de downmix de alinhamento de fase são normalmente esparsas e de dimensão A matriz de downmix de alinhamento de fase Mnormalmente varia como uma função do tempo e frequência.
[128] A solução de downmix de alinhamento de fase reduz o cancelamento do sinal entre os canais, mas pode introduzir o cancelamento na região de transição entre as áreas de tempo-frequência adjacentes, se o coeficiente de ajuste de fase muda abruptamente. A mudança de fase abrupta ao longo do tempo pode ocorrer quando sinais de entrada de fase oposta próximos sofrem downmix, mas variam ao menos levemente em amplitude ou fase. Neste caso a polaridade do alinhamento de fase pode mudar rapidamente, mesmo se os próprios sinais estivesses razoavelmente estáveis. Este efeito pode ocorrer, por exemplo, quando a frequência de um componente de sinal de tom coincide com a diferença de tempo intercanal, que por sua vez pode se enraizar, por exemplo, a partir do uso de técnicas de gravação de microfone espaçado ou a partir de efeitos de áudio baseados no atraso.
[129] No eixo de frequência, o deslocamento de fase abrupto entre as áreas pode ocorrer, ex., quando dois sinais de banda larda coerentes mas atrasados de modo diferente sofrem downmix. As diferenças de fases se tornam maiores em direção às bandas mais altas, e a distorção em determinados limites de banda de frequência pode causar um entalhe na região de transição.
[130] De preferência, os coeficientes de ajuste de fase em serão regularizados em uma etapa adicional para evitar artefatos de processamento devido à deslocamentos de fase repentinos, ou ao longo do tempo, ou ao longo da frequência, ou ambos. Deste modo uma matriz regularizada pode ser obtida. Se a regularização 47 é omitida, pode haver artefatos de cancelamento do sinal devido às diferenças de ajuste de fase nas áreas de sobreposição dos períodos de tempo adjacentes, e/ou bandas de frequência adjacentes.
[131] A normalização da energia 48 então de forma adaptativa um nível motivado de energia no sinal(is) de downmix 40. Os quadros de sinal processados 43 são adicionados sobrepostos em uma etapa de sobreposição 49 ao fluxo de dados de saída 40. Observe que há muitas variações disponíveis na elaboração de tais estruturas de processamento de tempo-frequência. É possível obter processamento similar com uma ordem diferente dos blocos de processamento de sinal. Também, alguns dos blocos podem ser combinados para uma etapa de processamento única. Além disso, a abordagem para janelamen- to 44 ou processamento de bloco pode ser reformulada de várias maneiras, enquanto alcança características de processamento similares.
[132] As diferentes etapas do downmix de alinhamento de fase são ilustradas na Fig. 3. Após três etapas de processamento gerais a matriz de down- mix é obtida, que é usada para fazer o downmix do sinal de áudio de entrada de multicanal original 37 para um número diferente de canal.
[133] A descrição detalhada das várias sub-etapas que são necessárias para calcular a matriz são descritas acima.
[134] O método de downmix de acordo com uma modalidade da invenção pode ser implementado em um domínio de QMF de 64-bandas. Uma banco de filtro de QMF uniforme modulado de forma complexa de 64-bandas pode ser aplicado.
[135] A partir do sinal de áudio de entrada (que é equivalente ao sinal de áudio de entrada 38) no domínio de tempo-frequência uma matriz de covariân- cia de valor complexo é calculada como matrizonde é o ff operador de expectativa e é a transposta conjugada de . Na implementação prática o operador de expectativa é substituído por um operador médio sobre as amostras de tempo e/ou frequência.
[136] O valor absoluto desta matriz é então normalizado em uma etapa de normalização de covariância 50 de modo que ele contenha valores entre 0 e 1 (os elementos são então chamados dee a matriz é então chamada de Estes valores expressam a porção da energia do som que é coerente entre os diferentes pares de canal, mas pode ter um deslocamento de fase. Em outras palavras, sinais em-fase, fora-de-fase, de fase invertida cada produz o valor normalizado 1, enquanto sinais incoerentes produzem o valor 0. Eles são transformados em uma etapa de cálculo de valor de atração 51 em dados de controle (matriz de valor de atração ) que representa a atração de fase entre os pares de canal por um função de mapeamento que é aplicada a todas as entradas da matriz de covariância normalizada absoluta Aqui, a fórmula
[137] pode ser usada (veja a função de mapeamento resultante na Fig. 4). ffc' )
[138] Nesta modalidade a função de mapeamentoé igual a zero para valores de covariância normalizados sendo menor do que um primeiro limiar de mapeamento 54 e/ou sendo que a função de mapeamento igual a um para valores de covariância normalizados sendo maiores que um segundo limiar de mapeamento 55. Por este recurso a função de mapeamento consiste em três intervalos. Para todos os valores de covariância norma lizados sendo menores que o primeiro limiar de mapeamento 54 os coefici entes de atração de fase são calculados para zero e por isso, o ajuste de fase não é executado. Para todos os valores de covariância normalizados que são maiores que o primeiro limiar de mapeamento 54 mas menores que o segundo limiar de mapeamento 55 os coeficientes de atração de fase são calculados para um valor entre zero e um e por isso, um ajuste de fase parcial é executado. Para todos os valores de covariância normalizados que são maiores que o segundo limiar de mapeamento 55 os coeficientes de atração de fase são calculados para um e por isso, um ajuste de fase completo é feito.
[139] A partir destes valores de atração, os coeficientes de alinhamento de fasesão calculados. Eles descrevem a quantidade de alinhamento de fase que é necessária para alinhar os canais de atração não-zero do sinal
[141] comsendo uma matriz diagonal com os elementos de em sua diagonal. O resultado é uma matriz de coeficiente de alinhamento de fase V
[142] Os coeficientessão então normalizados em uma etapa de normalização de matriz de coeficiente de alinhamento de fase 52 para a magnitude da matriz de downmix que resulta em uma matriz de downmix de alinhamento de fase normalizada com os elementos
[144] A vantagem deste downmix é que canais 38 com baixa atração não uns aos outros, porque os ajustes de fase são derivados da matriz de covariância do sinal medido . Os canais 38 com alta atração estão com fase travada com relação uns aos outros. A intensidade da modificação de fase depende das propriedades de correlação.
[145] A solução de downmix de alinhamento de fase reduz o cancelamento do sinal entre os canais, mas pode introduzir o cancelamento na região de transição entre as áreas de tempo-frequência adjacentes, se o coeficiente de ajuste de fase muda abruptamente. A mudança de fase abrupta ao longo do tempo pode ocorrer quando sinais de entrada de fase oposta próximos sofrem downmix, mas variam ao menos levemente em amplitude ou fase. Neste caso a polaridade do alinhamento de fase pode mudar rapidamente.
[146] É definida uma etapa de regularização adicional 47 que reduz can-celamentos nas regiões transientes entre quadros adjacentes devido à mudan ça abrupta coeficientes de ajuste de fase . Esta regularização e a prevenção de mudanças de fase abruptas entre quadros de áudio é uma vantagem deste downmix proposto. Ele reduz artefatos não desejados que podem ocorrer quando a fase pula entre quadros de áudio ou entalhes adjacentes entre bandas de frequência adjacentes.
[147] Há várias opções para realizar a regularização para evitar grandes deslocamentos de fase entre as áreas de tempo-frequência adjacentes. Em uma modalidade, um método de regularização simples é usado, descrito em detalhe a seguir. No método um ciclo de processamento pode ser configurado para ser executado para cada área no tempo sequencialmente a partir da área de frequência mais baixa para a mais alta, e a regularização de fase pode ser aplicada de forma recursiva com relação às áreas anteriores em tempo e em frequência.
[148] O efeito prático do processo concebido, descrito a seguir, é ilustrado nas Figuras 8 e 9. A Figura 8 mostra um exemplo de um sinal original 37 que tem dois canais 38 ao longo do tempo. Entre os dois canais 38 existe uma diferença de fase intercanal que aumenta lentamente (IPD) 56. O deslocamento de fase repentino de +π para - π resulta em uma mudança abrupta do ajuste de fase não regularizado 57 do primeiro canal 38 e do ajuste de fase não regularizado 58 do segundo canal 38.
[149] No entanto, o ajuste de fase regularizado 59 do primeiro canal 38 e ajuste de fase regularizado 60 do segundo canal 38 não mostram quaisquer mudanças abruptas.
[150] A Figura 9 mostra um exemplo de um sinal original 37 que tem dois canais 38. Adicionalmente, o espectro original 61 de um canal 38 do sinal 37 é mostrado. O espectro de downmix não alinhado (espectro de downmix passivo) 62 mostra efeitos de filtro de pente. Estes efeitos de filtro de pente são reduzidos no espectro de downmix não regularizado 63. No entanto, tais efeitos de filtro de pente não são perceptíveis no espectro de downmix regularizado 64. M
[151] Uma matriz de downmix de alinhamento de fase regularizada pode ser obtida pela aplicação de coeficientes de regularização de fase à ma triz Os coeficientes de regularização são calculados em um ciclo de processamento sobre cada quadro de tempo-frequência. A regularização 47 é aplicada de forma recursiva no tempo e direção de frequência. A diferença de fase entre os espaços de tempo adjacentes e bandas de frequência é levada em considera- ção e elas são ponderadas pelos valores de atração que resultam em uma ma- MdA triz ponderada A partir desta matriz os coeficientes de regularização são derivados:
[153] Deslocamentos de fase constantes são evitados pela implementação da regularização para desgaste em direção a zero por uma etapa entre 0 e que é dependente da energia do sinal relativa:
[155] Com
[157] As entradas da matriz de downmix de alinhamento de fase regulari- M zada são:
[159] Finalmente, um vetor de downmix de alinhamento de fase de energia normalizada é definido em uma etapa de normalização da energia 53 para cada canal j, formando as fileiras da matriz de downmix de alinhamento de fase final:
[161] Após o cálculo da matriz o material de áudio de saída é calculado. Os canais de saída do domínio QMF são somas ponderadas dos canais de entrada de QMF. Os pesos de valor complexo que incorporam o processo de alinhamento de fase adaptativo são os elementos da matriz
[163] É possível transferir algumas etapas de processamento para o codi-ficador 1. Isto reduziria fortemente a complexidade de processamento do downmix 7 no decodificador 2. Isso também proporcionaria a possibilidade de reagir aos sinais de áudio de entrada 37, onde a versão padrão do dispositivo de downmix produziria artefatos. Seria então possível atualizar as regras de processamento de downmix sem alterar o decodificador 2 e a qualidade de downmix poderia ser melhorada.
[164] Há muitas possibilidades nas quais parte do alinhamento de fase downmix pode ser transferida para o codificador 1. É possível transferir o cálcu-lo completo dos coeficientes de alinhamento de fase para o codificador 1. Os coeficientes de alinhamento de fase então precisam ser transmitidos no bitstream 7, mas eles são frequentemente zero e poderiam ser quantificados de forma motivada. Quando os coeficientes de alinhamento de fase são forte-mente dependentes da matriz de downmix de protótipo esta matriz tem que ser conhecida no lado do codificador. Isso restringe uma possível configuração do canal de saída. A etapa equalizadora ou de normalização de energia poderia então ou ser incluída no processo de codificação ou ainda ser feita no decodificador 2, porque é uma etapa de processamento definida de forma des- complicada e clara.
[165] Outra possibilidade é transferir o cálculo da matriz de covariância para o codificador 1. Então, os elementos da matriz de covariância têm de ser transmitidos no bitstream 7. Esta versão possibilita configurações de rende- rização flexíveis no receptor 2, mas precisa de mais dados adicionais no bitstream 7.
[166] Em seguida uma modalidade preferida da invenção é descrita.
[167] Sinais de áudio 37 que são alimentados no conversor de formato 42 são referidos como sinais de entrada a seguir. Os sinais de áudio 40 que são o resultado do processo de conversão de formato são referidos como sinais de saída. Observe que os sinais de entrada de áudio 37 do conversor de formato são sinais de áudio de saída do decodificador central 6.
[168] Vetores e matrizes são denotados por símbolos em negrito. Elemen-tos de vetor ou elementos de matriz são denotados com variáveis em itálico suplementadas por índices que indicam a fileira/coluna do elemento de ve- tor/matriz no vetor/matriz, ex., denota um vetor e seus elementos. Da mesma forma, b denota o elemento na a-ésima fileira e b- ésima coluna de uma matriz M.
[169] As seguintes variáveis são usadas:
[172] Matriz de downmix que contém coeficientes de downmix não negativos de valores reais (ganhos de downmix), MDMX é de dimensão (
[173] Matriz consistindo em valores de ganho por banda de pro-cessamento que determinam respostas de frequência dos filtros de equalização
[174] EQ Sinalização do vetor que os filtros do equalizador aplicam aos canais de entrada (se houver)
[175] L Comprimento do quadro medido nas amostras de áudio do domínio de tempo
[176] v Índice da amostra do domínio de tempo
[177] n Índice da partição de tempo QMF (= índice de amostra de sub banda)
[178] Ln Comprimento do quadro medido nos entalhes QMF
[179] F Índice de quadro (número de quadro)
[180] K Número de bandas de frequência de QMF híbrido, K = 77
[181] k Índice de banda QMF (1..64) ou índice de banda de QMF híbrida (1.. K)
[182] A, B Índices de canal (números de canal das configurações de canal)
[183] eps Constante numérica, eps = 10-35
[184] Uma inicialização do conversor de formato 42 é realizada antes do processamento das amostras de áudio entregues pelo decodificador central 6 ocorrer.
[185] A inicialização leva em consideração os parâmetros de entrada
[186] A taxa de amostragem dos dados de áudio a processar.
[187] Um parâmetro format_in que sinaliza a configuração do canal dos dados de áudio a processar com o conversor de formato.
[188] Um parâmetro format_out que sinaliza a configuração do canal do formato de saída desejado.
[189] Opcional: Parâmetros que sinalizam os desvios das posições de alto- falante a partir de uma configuração de alto-falante padrão (funcionalidade da configuração aleatória).
[190] Ela retorna
[193] a matriz de downmix MDMX e parâmetros de filtro de equalização
EQ) que são aplicados no processamento de sinal de áudio do conversor de formato 42.
[194] Valores de ganho de retirada e atraso (Tg,A eTd,A) para compensar as distâncias de alto-falante variáveis.
[195] O bloco de processamento de áudio do conversor de formato 42 ob-tém amostras de áudio do domínio de tempo 37 para Nin canais 38 a partir do decodificador central 6 e gera um sinal de saída de áudio de domínio de tempo submisturado 40 consistindo em Nout canais 41.
[196] O processamento assume como entrada
[197] Os dados de áudio decodificados pelo decodificador central 6,
[198] a matriz de downmix MDMX retornada pela inicialização do conversor de formato 42,
[199] os parâmetros do filtro de equalização ( IEQ , G EQ ) retornados pela inicialização do conversor de formato 42.
[200] Ele retorna um Nout -sinal de saída de domínio de tempo do canal 40 para a configuração de canal de format_out sinalizada durante a inicialização do conversor de formato 42.
[201] O conversor de formato 42 pode funcionar em quadros contíguos não sobrepostos de comprimento L = 2048 amostras de domínio de tempo dos sinais de áudio de entrada e produz um quadro de L amostras por quadro de entrada processado do comprimento L.
[202] Adicionalmente, uma transformada de T/F (análise de QMF híbrida) pode ser executada. Como a primeira etapa de processamento o conversor transforma L = 2048 amostras do Nin sinal de entrada do domínio de tempo do canal para uma representação do sinal de canal Nin do QMF híbrido consistindo em Ln = 32 partições de tempo QMF (índice do intervalo n) e K = 77 bandas de frequência (índice de banda k). Uma análise de QMF de acordo com ISO/IEC 23003-2:2010, subitem 7.14.2.2, é realizada primeiro
[204] seguida por uma análise híbrida
[206] A filtragem híbrida deve ser realizada como descrito em 8.6.4.3 da ISO/IEC 14496-3:2009. No entanto, a definição de divisão de baixa frequência (Tabela 8.36 da ISO/IEC 14496-3:2009) pode ser substituída pela tabela a se- guir:
[208] Adicionalmente, as definições do filtro de protótipo têm de ser substi-tuídas pelos coeficientes da tabela a seguir:
[209] Coeficientes do filtro de protótipo para os filtros que dividem as sub-bandas QMF inferiores para o banco de filtro híbrido de 77 bandas
[210] Adicionalmente, ao contrário do 8.6.4.3 da ISO/IEC 14496-3:2009, nenhuma das sub-sub-bandas são combinadas, i.e. pela divisão das 3 sub-bandas QMF inferiores em (8, 4, 4) sub-sub-bandas uma banco de filtro híbrido de 77 bandas é formado. As 77 bandas de QMF híbridas não são reordenadas, mas passadas na ordem que segue a partir do banco de filtro híbrido, veja a Fig. 10.
[211] Agora, ganhos do equalizador estáticos podem ser aplicados. O con-versor 42 aplica ganhos de fase zero aos canais de entrada 38 como sinalizado pelas variáveis I EQ e G EQ .
[212] IEQ é um vetor do comprimento Nin que sinaliza para cada canal A dos Nin canais de entrada
[214] ou que os ganhos de EQ correspondentes ao filtro equalizador com índice IEQA > 0 devem ser aplicados.
[215] No caso de IEQA > 0 para o canal de entrada A, o sinal de entrada do canal A é filtrado pela multiplicação com ganhos de fase zero obtidos a partir da coluna da matriz GEQ sinalizada por IEQA :
[217] Observe que todas as etapas de processamento a seguir até a transformação de volta para os sinais de domínio de tempo são realizadas indi-vidualmente para cada banda de frequência QMF híbrida k e independente-mente de k. O parâmetro da banda de frequência k é então omitido nas equa-ções a seguir, ex., para cada banda de frequência k.
[218] Adicionalmente, uma atualização dos dados de entrada e um janela- mento dos dados de entrada adaptativo ao sinal pode ser realizado. Assume-se que F é um índice de quadro crescente monotonicamente que denota o qua- F, n n dro atual dos dados de entrada, ex., ch para o quadro F , começando em F = 0 para o primeiro quadro de dados de entrada após inicialização do conversor de formato 42. Um quadro de análise do comprimento 2* Ln é formu-lado a partir do espectro de QMF híbrido de entrada como
[225] Agora, uma análise de covariância pode ser realizada. Uma análise de covariância é realizada nos dados de entrada da janela, onde o operador de expectativa Eθ é implementado como um somatório dos termos auto-/cruzado- ao longo das 2Ln partições de tempo QMF do quadro dos dados de entrada da janela F .As próximas etapas de processamento são realizadas independen-temente para cada quadro de processamento F. O índice F é então omitido até necessário para clareza, ex.para o quadroF . vn N . .
[226] Observe que denota um vetor da fileira com in elementos no caso de Nin canais de entrada. A matriz de valor de covariância é então formada como
[228] onde (-)T denota a transposta e denota o conjugado complexo de uma variável e Cy é uma matriz Nin xNin que é calculada uma vez por quadro
[229] A partir da matriz de covariância Cy os coeficientes de correlação intercanal entre os canais A e B são derivados como
[231] Onde os dois índices em uma notação Cy a b , , denotam o elemento da matriz na a -ésima fileira e b -ésima coluna de C y.
[232] Adicionalmente, uma matriz de alinhamento de fase pode ser formulada. Os valores de ICCA,B são mapeados para uma matriz de medida de atração T com elementos
[234] e uma matriz de mistura de alinhamento de fase intermediária Mint (equivalente à matriz de coeficiente de alinhamento de fase normalizada nas modalidades anteriores) é formulada. Com uma matriz de valor de atração
[237] os elementos de matriz são derivados como
[239] onde exp( ) ⋅ denota a função exponencial,a unidade imaginária, e arg( ) ⋅ retorna o argumento das variáveis de valores complexos.
[240] A matriz de mistura de alinhamento de fase intermediária Mint é modificada para evitar deslocamentos de fase abruptos, resultando em Mmod : Primeiro, uma matriz de ponderação DF é definida para cada quadro F como uma matriz diagonal com elementosA mudança de fase da matriz de mistura ao longo do tempo (i.e. ao longo dos quadros) é medida pela comparação da matriz de mistura intermediária ponderada atual e a matriz de mistura resultante ponderada Mmod do quadro anterior:
[246] A mudança de fase medida da matriz de mistura intermediária é proPetição 870160000872, de 15/01/2016, pág. 45/227 38/42 cessada para obter um parâmetro de modificação de fase que é aplicado à matriz de mistura intermediária Mint , resultando em Mmod (equivalente à matriz de coeficiente de alinhamento de fase regularizada
[249] Um escalonamento de energia é aplicado à matriz de mistura para obter a matriz de mistura de alinhamento de fase final MPA . Com
[253] onde os limites são definidos comoos elementos da matriz de mistura de alinhamento de fase final seguem como
[255] Em uma etapa adicional, os dados de saída podem ser calculados. Os sinais de saída para o quadro atual F são calculados pela aplicação da mesma matriz de downmix de valor complexo MPA para todos as 2Ln partições n de tempo n dos dados de entrada da janela vector
[257] Uma etapa de adição de sobreposição é aplicada ao quadro do sinal de saída recém calculadopara chegar nos sinais de saída do domínio de frequência finais compreendendo Ln amostras por canal para o quadro F,
[259] Agora, uma transformação de F/T (síntese de QMF híbrida) pode ser realizada. Observe que as etapas de processamento descritas acima precisam ser realizadas para cada banda de QMF híbrida k independentemente. Depois das formulações o indice de banda k é reintroduzido, i.e O sinal de saída do domínio de frequência QMF híbrido é transformado em um Nout -quadro de sinal do domínio de tempo do canal de comprimento L amostras de domínio de tempo por canal de saídaB, produzindo o sinal de saída de domínio de tempo final
[260] A síntese híbrida
[262] pode ser realizada como definido na Figura 8.21 de ISO/IEC 14496-3:2009, i.e. pela soma das sub-sub-bandas das três sub-bandas de QMF inferi-ores para obter as três sub-bandas de QMF inferiores da representação de QMF de 64 bandas. No entanto, o processamento mostrado na Figura 8.21 de ISO/IEC 14496-3:2009 tem que ser adaptado para a (8, 4, 4) divisão de banda de baixa frequência ao invés da divisão de baixa frequência (6, 2, 2) mostrada.
[263] A síntese de QMF subsequente
[265] pode ser realizada como definido em ISO/IEC 23003-2:2010, subitem 7.14.2.2.
[266] Se as posições do alto-falante de saída diferem em raio (i.e. se trimA não é o mesmo para todos os canais de saída A) os parâmetros de compen-sação derivados na inicialização podem ser aplicados aos sinais de saída. O sinal do canal de saída A deve ser retardado por T,A amostras de domínio de tempo e o sinal também deve ser multiplicado pelo ganho linear Tg, A.
[267] Com relação ao decodificador e codificador e os métodos das moda-lidades descritas, menciona-se o seguinte:
[268] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente.
[269] Dependendo de determinados requisitos de implementação, as mo-dalidades da invenção podem ser implementadas em hardware ou em softwa-re. A implementação pode ser realizada usando uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, que tem sinais de controle legíveis eletronicamente armazenados nela, os quais cooperam (ou são capa-zes de cooperar) com um sistema de computador programável de modo que o respectivo método é realizado.
[270] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados tendo sinais de controle legíveis eletronicamente, que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui é realizado.
[271] Geralmente, as modalidades da presente invenção podem ser im-plementadas como um produto de programa de computador com um código do programa, o código do programa sendo operacional para realizar um dos mé-todos quando o produto de programa de computador funciona em um compu-tador. O código do programa pode, por exemplo, ser armazenado em uma por-tadora legível por máquina.
[272] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenado em uma portadora legível por máquina ou uma mídia de armazenamento não transitória.
[273] Em outras palavras, uma modalidade do método da invenção é, por-tanto, um programa de computador tendo um código do programa para realizar um dos métodos descritos aqui, quando o programa de computador é executa-do em um computador.
[274] Uma modalidade adicional dos métodos da invenção é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mí-dia legível por computador) compreendendo, gravado nela, o programa de computador para realizar um dos métodos descritos aqui.
[275] Uma modalidade adicional do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de com-putador para realizar um dos métodos descritos aqui. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[276] Uma modalidade adicional compreende um elemento de processa-mento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos aqui.
[277] Uma modalidade adicional compreende um computador tendo insta-lado nele o programa de computador para realizar um dos métodos descritos aqui.
[278] Em algumas modalidades, um dispositivo lógico programável (por exemplo, um arranjo de porta programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas modalidades, um arranjo de porta programável em campo pode coo-perar com um microprocessador para realizar um dos métodos descritos aqui. Geralmente, os métodos são vantajosamente realizados por qualquer aparelho de hardware.
[279] Embora esta invenção tenha sido descrita em termos de várias mo-dalidades, há alterações, permutações, e equivalentes que estão abrangidos no escopo desta invenção. Também deve-se observar que há muitas formas alternativas de implementação dos métodos e composições da presente inven-ção. Pretende-se, portanto, que as seguintes reivindicações anexas sejam in-terpretadas como incluindo todas essas alterações, permutações e equivalen-tes que caem dentro do verdadeiro espírito e escopo da presente invenção.
Claims (27)
1. Decodificador de processamento de sinal de áudio tendo ao me-nos uma banda de frequência (36) e sendo configurado para processar um si-nal de áudio de entrada (37) tendo uma pluralidade de canais de entrada (38) em ao menos uma banda de frequência (36), caracterizado por o decodifica- dor (1) ser configurado para alinhar as fases dos canais de entrada (38) dependendo das dependências intercanal (39) entre os canais de entrada (38), sendo que quan-to maior a sua dependência de intercanal (39), mais alinhadas são as fases dos canais de entrada (38) com relação umas às outras; e para fazer o downmix do sinal de áudio de entrada alinhado para um sinal de áudio de saída (40) tendo um número inferior de canais de saída (41) do que o número de canais de entrada (38).
2. Decodificador, de acordo com a reivindicação 1, caracterizado por o decodificador (2) ser configurado para analisar o sinal de áudio de entra-da (37) na banda de frequência (36), a fim de identificar as dependências inter-canal (39) entre os canais de áudio de entrada (38) ou para receber as depen-dências intercanal (39) entre os canais de entrada (38) a partir de um dispositi-vo externo, como a partir de um codificador (1), o qual fornece o sinal de áudio de entrada (37).
3. Decodificador, de acordo com a reivindicação 1 ou 2, caracteri-zado por o decodificador (2) ser configurado para normalizar a energia do sinal de áudio de saída (40) com base em uma energia determinada do sinal de áu-dio de entrada (37), sendo que o decodificador (2) é configurado para determi-nar a energia do sinal do sinal de áudio de entrada (37) ou para receber as energia determinada do sinal de áudio de entrada (37) a partir de um dispositivo externo, como a partir de um codificador (1), o qual fornece o sinal de áudio de entrada (37).
4. Decodificador, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por o decodificador (2) compreender um dispositivo de downmix (42) para fazer o downmix do sinal de áudio de entrada (37) com base em uma matriz de downmix (M, MPA), sendo que o decodificador (1) é configu-rado para calcular a matriz de downmix (M, MPA), de tal maneira que as fases dos canais de entrada (38) estejam alinhadas com base nas dependências in-tercanal identificadas (39) ou para receber a matriz de downmix (M, MPA) calcu-lada de tal maneira que as fases dos canais de entrada (38) estejam alinhadas com base nas dependências intercanal identificadas (39) a partir de um dispositivo externo, como a partir de um codificador (1), o qual fornece o sinal de áudio de entrada (37).
5. Decodificador, de acordo com a reivindicação 4, caracterizado por o decodificador (2) ser configurado para calcular a matriz de downmix (M,MPA) de tal maneira que a energia do sinal de áudio de saída (41) é normali-zada com base na energia determinada do sinal de áudio de entrada (37) ou para receber a matriz de downmix (M, MPA), calculada de tal maneira que a energia do sinal de áudio de saída (41) é normalizada com base na energia determinada do sinal de áudio de entrada (37) a partir de um dispositivo exter-no, como a partir de um codificador (1), o qual fornece o sinal de áudio de en-trada (37).
6. Decodificador, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por o decodificador (2) ser configurado para analisar parti-ções de tempo (43) do sinal de áudio de entrada (37) usando uma função de janela, sendo que as dependências intercanal (39) são determinadas para cada período de tempo (43) ou sendo que o decodificador (2) é configurado para receber uma análise das partições de tempo (43) do sinal de áudio de entrada (37) usando uma função de janela, sendo que as dependências intercanal (39) são determinadas para cada período de tempo (43), a partir de um dispositivo externo, como a partir de um codificador (1), o qual fornece o sinal de áudio de entrada (37).
7. Decodificador, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por o decodificador (2) ser configurado para calcular uma matriz de valor de covariância (C, Cy), sendo que os valores de covariância (Ci,j, Cy,A,B) expressam a dependência intercanal (39) de um par de canais de áudio de entrada (38) ou sendo que o decodificador (2) é configurado para receber uma matriz de valor de covariância (C, Cy), sendo que os valores de co- variância (Ci,j, Cy,A,B) expressam a dependência intercanal (39) de um par de canais de áudio de entrada (38), a partir de um dispositivo externo, como a partir de um codificador (1), o qual fornece o sinal de áudio de entrada (37).
8. Decodificador, de acordo com a reivindicação 7, caracterizado por o decodificador (2) ser configurado para estabelecer uma matriz de valor de atração (A, P) pela aplicação de uma função de mapeamento (f (c’i,j), TA,B) à matriz de valor de covariância (C, Cy) ou a uma matriz (C’) derivada da matriz de valor de covariância (C, Cy) ou para receber uma matriz de valor de atração (A, P) estabelecida pela aplicação de uma função de mapeamento (f (c’ij), TA,B) à matriz de valor de covariância (C, Cy) ou a uma matriz (C’) derivada da matriz de valor de covariância (C, Cy), sendo que o gradiente da função de mapeamento (f (C’IJ), TA,B) é de preferência maior ou igual a zero para todos os valores de covariância (Cij, Cy,A,B) ou valores (C’ÍJ,ICCAB) derivados dos valores de co-variância (Ci,j, Cy,A,B) e sendo que a função de mapeamento (f (c’i,j), TA,B) de pre-ferência alcança valores entre zero e um para valores de entrada entre zero e um.
9. Decodificador, de acordo com a reivindicação 8, caracterizado por a função de mapeamento (f (c’,j), TA,B) ser uma função não-linear (f (C’J), TA,B).
10. Decodificador, de acordo com a reivindicação 8 ou 9, caracteri-zado por a função de mapeamento (f (C’J), TA,B) ser igual a zero para valores de covariância (Cij, Cy,A,B) ou valores (C’J,ICCA,B) derivados dos valores de co- variância (ci,j, Cy,A,B) sendo menores do que um primeiro limiar de mapeamento e/ou sendo que a função de mapeamento (/(C’J), TA,B) é igual a um para valo-res de covariância (ci,j, Cy,A,B) ou valores (c’i,j,ICCA,B) derivados dos valores de covariância (ci,j, Cy,A,B) sendo maiores que um segundo limiar de mapeamento.
11. Decodificador, de acordo com qualquer uma das reivindicações 8 a 10, caracterizado por a função de mapeamento (f (c’i,j), TA,B) ser representa-da por uma função que forma uma curva em forma de S.
12. Decodificador, de acordo com qualquer uma das reivindicações 7 a 11, caracterizado por o decodificador (2) ser configurado para calcular uma matriz de coeficiente de alinhamento de fase (V, Mnt), sendo que a matriz de coeficiente de alinhamento de fase (V, Mint) é baseada na matriz de valor de covariância (C, Cy) e em uma matriz de downmix de protótipo (Q, MDMX) ou para receber uma matriz de coeficiente de alinhamento de fase (V, Mint), sendo que a matriz de coeficiente de alinhamento de fase (V, Mint) é baseada na matriz de valor de covariância (C, Cy) e em uma matriz de downmix de protótipo (Q, MDMX), a partir de um dispositivo externo, como a partir de um codificador (1), o qual fornece o sinal de áudio de entrada (37).
13. Decodificador, de acordo com a reivindicação 12, caracterizado por as fases e/ou as amplitudes dos coeficientes de downmix (mi,j, MPA,A,B) da matriz de downmix (M, MPA) serem formuladas para serem suavizadas ao longo do tempo, de modo que artefatos temporais devido ao cancelamento do sinal entre períodos de tempo adjacentes (43) sejam evitados.
14. Decodificador, de acordo com a reivindicação 12 ou 13, caracte-rizado por as fases e/ou as amplitudes dos coeficientes de downmix (mj MPA,A,B) da matriz de downmix (M, MPA) serem formuladas para serem suaviza-das ao longo da frequência, de modo que artefatos espectrais devido ao cance-lamento do sinal entre bandas de frequência adjacentes (36) sejam evitados.
15. Decodificador, de acordo com qualquer uma das reivindicações 12 a 14, caracterizado por o decodificador (2) ser configurado para estabelecer uma matriz de coeficiente de alinhamento de fase regularizada (M, Mmod) com base na matriz de coeficiente de alinhamento de fase (V, Mint) ou para receber uma matriz de coeficiente de alinhamento de fase regularizada (M, Mmod) com base na matriz de coeficiente de alinhamento de fase (V, Mint) a partir de um dispositivo externo, como a partir de um codificador (1), o qual fornece o sinal de áudio de entrada (37).
16. Decodificador, de acordo com a reivindicação 15, caracterizado por a matriz de downmix (M, MPA) ser baseada na matriz de coeficiente de ali-nhamento de fase regularizada (M, Mmod).
17. Codificador de processamento de sinal de áudio tendo ao menos uma banda de frequência (36) e sendo configurado para processar um sinal de áudio de entrada (37) tendo uma pluralidade de canais de entrada (38) em ao menos uma banda de frequência (36), caracterizado por o codificador (1) ser configurado para alinhar as fases dos canais de entrada (38) dependendo das dependências intercanal (39) entre os canais de entrada (38), sendo que quan-to maior sua dependência de canal (39), mais alinhadas são as fases dos ca-nais de entrada (38) com relação umas às outras; e para fazer o downmix do sinal de áudio de entrada alinhado para um sinal de áudio de saída (40) tendo um número inferior de canais de saída (41) do que o número de canais de entrada (38).
18. Sistema, caracterizado por compreender: um codificador de processamento de sinal de áudio (1), tendo pelo menos uma banda de frequência (36) e sendo configurado para produzir um bitstream (7), em que o bitstream (7) contém um sinal de áudio codificado (37) na banda de frequência (36), em que o sinal de áudio codificado (37) tem uma pluralidade de canais codificados (38) na pelo menos uma banda de frequência (36), e um decodificador de processamento de sinal de áudio (2) tal como descrito na reivindicação 1, que é configurado para processar o sinal de áudio codificado (37) como um sinal de áudio de entrada (37) tendo uma pluralidade de canais de entrada (38) na pelo menos uma banda de frequência (36); em que o codificador (1) é configurado para determinar dependên-cias intercanal (39) entre os canais de entrada (38) do sinal de áudio de entra-da (37) e para produzir as dependências intercanal (39) dentro do bitstream (7); em que o decodificador (2) é configurado para receber as depen-dências intercanal (39) entre os canais de entrada (38) a partir do codificador (1).
19. Sistema, caracterizado por compreender: um codificador de processamento de sinal de áudio (1), tendo pelo menos uma banda de frequência (36) e sendo configurado para produzir um bitstream (7), em que o bitstream (7) contém um sinal de áudio codificado (37) na banda de frequência (36), em que o sinal de áudio codificado (37) tem uma pluralidade de canais codificados (38) na pelo menos uma banda de frequência (36), e um decodificador de processamento de sinal de áudio (2) tal como descrito na reivindicação 1, que é configurado para processar o sinal de áudio codificado (37) como um sinal de áudio de entrada (37) tendo uma pluralidade de canais de entrada (38) na pelo menos uma banda de frequência (36); em que o codificador (1) é configurado para determinar uma energia do sinal de áudio codificado (37) e para produzir a energia determinada do sinal de áudio codificado (37) dentro do bitstream (7); em que o decodificador (2) é configurado para normalizar a energia de um sinal de áudio de saída (40) com base em uma energia determinada do sinal de áudio de entrada (37), em que o decodificador (2) é configurado para receber a energia determinada do sinal de áudio codificado (37) como a ener-gia determinada do sinal de áudio de entrada (37) a partir do codificador (1).
20. Sistema, caracterizado por compreender: um codificador de processamento de sinal de áudio (1), tendo pelo menos uma banda de frequência (36) e sendo configurado para produzir um bitstream (7), em que o bitstream (7) contém um sinal de áudio codificado (37) na banda de frequência (36), em que o sinal de áudio codificado (37) tem uma pluralidade de canais codificados (38) na pelo menos uma banda de frequência (36), e um decodificador de processamento de sinal de áudio (2) tal como descrito na reivindicação 1, que é configurado para processar o sinal de áudio codificado (37) como um sinal de áudio de entrada (37) tendo uma pluralidade de canais de entrada (38) na pelo menos uma banda de frequência (36), em que o decodificador compreende um dispositivo de downmix para fazer o downmix do sinal de áudio de entrada com base em uma matriz de downmix (M, MPA); em que o codificador (1) é configurado para calcular uma matriz de downmix (M, MPA) para um dispositivo de downmix (3) fazer o downmix do sinal de áudio codificado (37) com base na matriz de downmix (M, MPA) de tal manei-ra que as fases do canais codificados (38) são alinhadas com base nas depen-dências intercanal identificadas (39), e para produzir a matriz de downmix (M, MPA) dentro do bitstream (7), e em que o decodificador (2) é configurado para receber uma matriz de downmix (M, MPA) calculada de tal maneira que as fases dos canais de entrada (38) estejam alinhadas com base nas dependências intercanal identificadas (39) a partir do codificador (1).
21. Sistema, de acordo com a reivindicação 20, caracterizado por o codificador (1) ser configurado para calcular a matriz de downmix (M, MPA) para o dispositivo de downmix (3) fazer o downmix do sinal de áudio codificado (37) com base na matriz de downmix (M, MPA) de tal maneira que as fases do canais codificados (38) são alinhadas com base nas dependências intercanal identificadas (39), de tal maneira que a energia de um sinal de áudio de saída do dispositivo de downmix (41) seja normalizada com base na energia determinada do sinal de áudio codificado (37); e o decodificador (2) ser configurado para receber a matriz de downmix (M, MPA), calculada de tal maneira que a energia do sinal de áudio de saída é normalizada com base na energia determinada do sinal de áudio de entrada (37), a partir do codificador.
22. Sistema, caracterizado por compreender: um codificador de processamento de sinal de áudio (1), tendo pelo menos uma banda de frequência (36) e sendo configurado para produzir um bitstream (7), em que o bitstream (7) contém um sinal de áudio codificado (37) na banda de frequência (36), em que o sinal de áudio codificado (37) tem uma pluralidade de canais codificados (38) na pelo menos uma banda de frequência (36), e um decodificador de processamento de sinal de áudio (2) tal como descrito na reivindicação 1, que é configurado para processar o sinal de áudio codificado (37) como um sinal de áudio de entrada (37) tendo uma pluralidade de canais de entrada (38) na pelo menos uma banda de frequência (36); em que o codificador (1) é configurado para analisar partições de tempo (43) do sinal de áudio codificado (37) usando uma função de janela, sendo que as dependências intercanal (39) são determinadas para cada perío-do de tempo (43), e para produzir as dependências intercanal (39) para cada período de tempo (43) dentro do bitstream (7); e em que o decodificador (2) é configurado para receber uma análise das partições de tempo (43) do sinal de áudio de entrada (37) usando uma fun-ção de janela, sendo que as dependências intercanal (39) são determinadas para cada período de tempo (43), a partir do codificador (1).
23. Sistema, caracterizado por compreender: um codificador de processamento de sinal de áudio (1), tendo pelo menos uma banda de frequência (36) e sendo configurado para produzir um bitstream (7), em que o bitstream (7) contém um sinal de áudio codificado (37) na banda de frequência (36), em que o sinal de áudio codificado (37) tem uma pluralidade de canais codificados (38) na pelo menos uma banda de frequência (36), e um decodificador de processamento de sinal de áudio (2) tal como descrito na reivindicação 1, que é configurado para processar o sinal de áudio codificado (37) como um sinal de áudio de entrada (37) tendo uma pluralidade de canais de entrada (38) na pelo menos uma banda de frequência (36); em que o codificador (1) é configurado para calcular uma matriz de valor de covariância (C, Cy), sendo que os valores de covariância (ci,j) expressam a dependência intercanal (39) de um par de canais de áudio codificados (38) e para produzir a matriz de valor de covariância (C, Cy) dentro do bitstream (7); e em que o decodificador (2) é configurado para receber a matriz de valor de covariância (C, Cy), sendo que os valores de covariância (ci,j, Cy,A,B) expressam a dependência intercanal (39) de um par de canais de áudio de en-trada (38), a partir do codificador (1).
24. Sistema, caracterizado por compreender: um codificador de processamento de sinal de áudio (1), tendo pelo menos uma banda de frequência (36) e sendo configurado para produzir um bitstream (7), em que o bitstream (7) contém um sinal de áudio codificado (37) na banda de frequência (36), em que o sinal de áudio codificado (37) tem uma pluralidade de canais codificados (38) na pelo menos uma banda de frequência (36), e um decodificador de processamento de sinal de áudio (2) tal como descrito na reivindicação 1, que é configurado para processar o sinal de áudio codificado (37) como um sinal de áudio de entrada (37) tendo uma pluralidade de canais de entrada (38) na pelo menos uma banda de frequência (36); em que o codificador (1) é configurado para estabelecer uma matriz de valor de atração (A, P) pela aplicação de uma função de mapeamento (f (c’i,j), TAB) à matriz de valor de covariância (C, Cy) ou à matriz (C’) derivada da matriz de valor de covariância (C, Cy) e para produzir a matriz de valor de atração (A, P) dentro do bitstream (7); em que o decodificador (2) é configurado para receber uma matriz de valor de atração (A, P) estabelecida pela aplicação de uma função de ma-peamento (f(c’i,j), TA,B) à matriz de valor de covariância (C, Cy) ou a uma matriz (C’) derivada da matriz de valor de covariância (C, Cy), a partir do codificador (1).
25. Sistema, caracterizado por compreender: um codificador de processamento de sinal de áudio (1), tendo pelo menos uma banda de frequência (36) e sendo configurado para produzir um bitstream (7), em que o bitstream (7) contém um sinal de áudio codificado (37) na banda de frequência (36), em que o sinal de áudio codificado (37) tem uma pluralidade de canais codificados (38) na pelo menos uma banda de frequência (36), e um decodificador de processamento de sinal de áudio (2) tal como descrito na reivindicação 1, que é configurado para processar o sinal de áudio codificado (37) como um sinal de áudio de entrada (37) tendo uma pluralidade de canais de entrada (38) na pelo menos uma banda de frequência (36); em que o codificador (1) é configurado para calcular uma matriz de coeficiente de alinhamento de fase (V, Mint), sendo que a matriz de coeficiente de alinhamento de fase (V, Mint) é baseada na matriz de valor de covariância (C, Cy) e em uma matriz de downmix de protótipo (Q, MDMX), e para produzir a matriz de coeficiente de alinhamento de fase (V, Mint); e em que o decodificador (2) é configurado para receber a matriz de coeficiente de alinhamento de fase (V, Mint), sendo que a matriz de coeficiente de alinhamento de fase (V, Mint) é baseada na matriz de valor de covariância (C, Cy) e na matriz de downmix de protótipo (Q, MDMX), a partir do codificador (1).
26. Sistema, caracterizado por compreender: um codificador de processamento de sinal de áudio (1), tendo pelo menos uma banda de frequência (36) e sendo configurado para produzir um bitstream (7), em que o bitstream (7) contém um sinal de áudio codificado (37) na banda de frequência (36), em que o sinal de áudio codificado (37) tem uma pluralidade de canais codificados (38) na pelo menos uma banda de frequência (36), e um decodificador de processamento de sinal de áudio (2) tal como descrito na reivindicação 1, que é configurado para processar o sinal de áudio codificado (37) como um sinal de áudio de entrada (37) tendo uma pluralidade de canais de entrada (38) na pelo menos uma banda de frequência (36); em que o codificador (1) é configurado para estabelecer uma matriz de coeficiente de alinhamento de fase regularizada (M, Mmod) com base na ma-triz de coeficiente de alinhamento de fase (V) e para produzir a matriz de coefi-ciente de alinhamento de fase regularizada (M, Mmod) dentro do bitstream (7); e em que o decodificador (2) é configurado para receber a matriz de coeficiente de alinhamento de fase regularizada (M, Mmod) com base na matriz de coeficiente de alinhamento de fase (V, Mint) a partir do codificador (1).
27. Método para processamento de um sinal de áudio de entrada (37) tendo uma pluralidade de canais de entrada (38) em uma banda de fre-quência (36), sendo que o método compreende as etapas de: analisar o sinal de áudio de entrada (37) na banda de frequência (36), sendo que as dependências intercanal (39) entre os canais de áudio de entrada (38) são identificadas; o método sendo caracterizado por compreender as etapas de: alinhar as fases dos canais de entrada (38) com base nas depen-dências intercanal identificadas (39), sendo que quanto maior sua dependência de canal (39), mais alinhadas são as fases dos canais de entrada (38) com relação umas às outras; fazer o downmix do sinal de áudio de entrada alinhado a um sinal de áudio de saída (40) tendo um número inferior de canais de saída (41) do que o número de canais de entrada (38) na banda de frequência (36).
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13177358 | 2013-07-22 | ||
EP13177358.2 | 2013-07-22 | ||
EP13189287.9 | 2013-10-18 | ||
EP13189287.9A EP2838086A1 (en) | 2013-07-22 | 2013-10-18 | In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
PCT/EP2014/065537 WO2015011057A1 (en) | 2013-07-22 | 2014-07-18 | In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
Publications (3)
Publication Number | Publication Date |
---|---|
BR112016001003A2 BR112016001003A2 (pt) | 2017-07-25 |
BR112016001003A8 BR112016001003A8 (pt) | 2020-01-07 |
BR112016001003B1 true BR112016001003B1 (pt) | 2022-09-27 |
Family
ID=48874132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112016001003-5A BR112016001003B1 (pt) | 2013-07-22 | 2014-07-18 | Redução de artefatos de filtro de pente no downmix de multicanal com alinhamento de fase adaptativo |
Country Status (18)
Country | Link |
---|---|
US (2) | US10360918B2 (pt) |
EP (2) | EP2838086A1 (pt) |
JP (1) | JP6279077B2 (pt) |
KR (2) | KR101943601B1 (pt) |
CN (2) | CN111862997A (pt) |
AR (1) | AR097001A1 (pt) |
AU (1) | AU2014295167B2 (pt) |
BR (1) | BR112016001003B1 (pt) |
CA (1) | CA2918874C (pt) |
ES (1) | ES2687952T3 (pt) |
MX (1) | MX359163B (pt) |
PL (1) | PL3025336T3 (pt) |
PT (1) | PT3025336T (pt) |
RU (1) | RU2678161C2 (pt) |
SG (1) | SG11201600393VA (pt) |
TW (1) | TWI560702B (pt) |
WO (1) | WO2015011057A1 (pt) |
ZA (1) | ZA201601112B (pt) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806706B (zh) * | 2013-01-15 | 2022-11-15 | 韩国电子通信研究院 | 处理信道信号的编码/解码装置及方法 |
WO2014112793A1 (ko) | 2013-01-15 | 2014-07-24 | 한국전자통신연구원 | 채널 신호를 처리하는 부호화/복호화 장치 및 방법 |
EP2838086A1 (en) * | 2013-07-22 | 2015-02-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
EP2830051A3 (en) | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
KR102160254B1 (ko) | 2014-01-10 | 2020-09-25 | 삼성전자주식회사 | 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치 |
JP6921832B2 (ja) * | 2016-02-03 | 2021-08-18 | ドルビー・インターナショナル・アーベー | オーディオ符号化における効率的なフォーマット変換 |
US10217467B2 (en) * | 2016-06-20 | 2019-02-26 | Qualcomm Incorporated | Encoding and decoding of interchannel phase differences between audio signals |
CN112492502B (zh) * | 2016-07-15 | 2022-07-19 | 搜诺思公司 | 联网麦克风设备及其方法以及媒体回放系统 |
CN107731238B (zh) * | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN107895580B (zh) * | 2016-09-30 | 2021-06-01 | 华为技术有限公司 | 一种音频信号的重建方法和装置 |
US10362423B2 (en) * | 2016-10-13 | 2019-07-23 | Qualcomm Incorporated | Parametric audio decoding |
PT3539127T (pt) | 2016-11-08 | 2020-12-04 | Fraunhofer Ges Forschung | Dispositivo de downmix e método para executar o downmix de pelo menos dois canais e codificador multicanal e descodificador multicanal |
MX2019005147A (es) | 2016-11-08 | 2019-06-24 | Fraunhofer Ges Forschung | Aparato y metodo para codificar o decodificar una se?al multicanal usando una ganancia lateral y una ganancia residual. |
CN109427338B (zh) * | 2017-08-23 | 2021-03-30 | 华为技术有限公司 | 立体声信号的编码方法和编码装置 |
EP3550561A1 (en) | 2018-04-06 | 2019-10-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value |
CN110660400B (zh) * | 2018-06-29 | 2022-07-12 | 华为技术有限公司 | 立体声信号的编码、解码方法、编码装置和解码装置 |
BR112022000806A2 (pt) | 2019-08-01 | 2022-03-08 | Dolby Laboratories Licensing Corp | Sistemas e métodos para atenuação de covariância |
AU2020372899A1 (en) * | 2019-10-30 | 2022-04-21 | Dolby Laboratories Licensing Corporation | Bitrate distribution in immersive voice and audio services |
CN113518227B (zh) * | 2020-04-09 | 2023-02-10 | 于江鸿 | 数据处理的方法和系统 |
GB2626953A (en) * | 2023-02-08 | 2024-08-14 | Nokia Technologies Oy | Audio rendering of spatial audio |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040042504A1 (en) * | 2002-09-03 | 2004-03-04 | Khoury John Michael | Aligning data bits in frequency synchronous data channels |
US20090299756A1 (en) * | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
CA2992097C (en) | 2004-03-01 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters |
CN1942929A (zh) * | 2004-04-05 | 2007-04-04 | 皇家飞利浦电子股份有限公司 | 多信道编码器 |
JP2006050241A (ja) * | 2004-08-04 | 2006-02-16 | Matsushita Electric Ind Co Ltd | 復号化装置 |
US7830921B2 (en) | 2005-07-11 | 2010-11-09 | Lg Electronics Inc. | Apparatus and method of encoding and decoding audio signal |
TW200742275A (en) * | 2006-03-21 | 2007-11-01 | Dolby Lab Licensing Corp | Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information |
KR101253278B1 (ko) | 2008-03-04 | 2013-04-11 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 복수의 입력 데이터 스트림을 믹싱하는 장치 및 방법 |
ES2739667T3 (es) * | 2008-03-10 | 2020-02-03 | Fraunhofer Ges Forschung | Dispositivo y método para manipular una señal de audio que tiene un evento transitorio |
ES2796493T3 (es) * | 2008-03-20 | 2020-11-27 | Fraunhofer Ges Forschung | Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio |
US8452587B2 (en) * | 2008-05-30 | 2013-05-28 | Panasonic Corporation | Encoder, decoder, and the methods therefor |
CN101604983B (zh) * | 2008-06-12 | 2013-04-24 | 华为技术有限公司 | 编解码装置、系统及其方法 |
WO2010042024A1 (en) * | 2008-10-10 | 2010-04-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Energy conservative multi-channel audio coding |
CA2748045C (en) * | 2009-01-05 | 2016-04-26 | Gordon Toll | Apparatus and method for defining a safety zone for a vehicle, a person or an animal |
EP2214161A1 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for upmixing a downmix audio signal |
WO2010097748A1 (en) * | 2009-02-27 | 2010-09-02 | Koninklijke Philips Electronics N.V. | Parametric stereo encoding and decoding |
US8666752B2 (en) * | 2009-03-18 | 2014-03-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding multi-channel signal |
WO2010105695A1 (en) * | 2009-03-20 | 2010-09-23 | Nokia Corporation | Multi channel audio coding |
CN101533641B (zh) * | 2009-04-20 | 2011-07-20 | 华为技术有限公司 | 对多声道信号的声道延迟参数进行修正的方法和装置 |
WO2011039668A1 (en) * | 2009-09-29 | 2011-04-07 | Koninklijke Philips Electronics N.V. | Apparatus for mixing a digital audio |
RU2576476C2 (ru) | 2009-09-29 | 2016-03-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф., | Декодер аудиосигнала, кодер аудиосигнала, способ формирования представления сигнала повышающего микширования, способ формирования представления сигнала понижающего микширования, компьютерная программа и бистрим, использующий значение общего параметра межобъектной корреляции |
KR101641685B1 (ko) | 2010-03-29 | 2016-07-22 | 삼성전자주식회사 | 멀티채널 오디오의 다운믹스 방법 및 장치 |
KR20110116079A (ko) * | 2010-04-17 | 2011-10-25 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 장치 및 방법 |
CN102986254B (zh) * | 2010-07-12 | 2015-06-17 | 华为技术有限公司 | 音频信号产生装置 |
AU2010345325B2 (en) | 2010-07-14 | 2013-09-26 | Guangdong Shengyi Sci. Tech Co., Ltd. | Composite material, high-frequency circuit substrate made therefrom and making method thereof |
BR112013004362B1 (pt) * | 2010-08-25 | 2020-12-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | aparelho para a geração de um sinal descorrelacionado utilizando informação de fase transmitida |
US9311923B2 (en) * | 2011-05-19 | 2016-04-12 | Dolby Laboratories Licensing Corporation | Adaptive audio processing based on forensic detection of media processing history |
EP2838086A1 (en) * | 2013-07-22 | 2015-02-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
-
2013
- 2013-10-18 EP EP13189287.9A patent/EP2838086A1/en not_active Withdrawn
-
2014
- 2014-07-18 PT PT14748143T patent/PT3025336T/pt unknown
- 2014-07-18 MX MX2016000909A patent/MX359163B/es active IP Right Grant
- 2014-07-18 WO PCT/EP2014/065537 patent/WO2015011057A1/en active Application Filing
- 2014-07-18 KR KR1020187005780A patent/KR101943601B1/ko active IP Right Grant
- 2014-07-18 RU RU2016105741A patent/RU2678161C2/ru active
- 2014-07-18 CN CN202010573675.0A patent/CN111862997A/zh active Pending
- 2014-07-18 SG SG11201600393VA patent/SG11201600393VA/en unknown
- 2014-07-18 CA CA2918874A patent/CA2918874C/en active Active
- 2014-07-18 ES ES14748143.6T patent/ES2687952T3/es active Active
- 2014-07-18 BR BR112016001003-5A patent/BR112016001003B1/pt active IP Right Grant
- 2014-07-18 PL PL14748143T patent/PL3025336T3/pl unknown
- 2014-07-18 EP EP14748143.6A patent/EP3025336B1/en active Active
- 2014-07-18 CN CN201480041810.XA patent/CN105518775B/zh active Active
- 2014-07-18 JP JP2016528469A patent/JP6279077B2/ja active Active
- 2014-07-18 KR KR1020167004624A patent/KR101835239B1/ko active IP Right Grant
- 2014-07-18 AU AU2014295167A patent/AU2014295167B2/en active Active
- 2014-07-21 TW TW103124999A patent/TWI560702B/zh active
- 2014-07-21 AR ARP140102704A patent/AR097001A1/es active IP Right Grant
-
2016
- 2016-01-19 US US15/000,508 patent/US10360918B2/en active Active
- 2016-02-18 ZA ZA2016/01112A patent/ZA201601112B/en unknown
-
2019
- 2019-06-04 US US16/431,601 patent/US10937435B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR112016001003B1 (pt) | Redução de artefatos de filtro de pente no downmix de multicanal com alinhamento de fase adaptativo | |
JP6735053B2 (ja) | マルチチャネル符号化におけるステレオ充填装置及び方法 | |
JP6626581B2 (ja) | 1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号を符号化又は復号化する装置及び方法 | |
US8015018B2 (en) | Multichannel decorrelation in spatial audio coding | |
ES2555579T3 (es) | Codificador de audio multicanal y método para codificar una señal de audio multicanal | |
CA2750272C (en) | Apparatus, method and computer program for upmixing a downmix audio signal | |
US10553223B2 (en) | Adaptive channel-reduction processing for encoding a multi-channel audio signal | |
BRPI0913460B1 (pt) | Aparelho e método para prover um conjunto de indicadores espaciais na base de um sinal de microfone e aparelho para prover um sinal de áudio de dois canais e um conjunto de indicadores espaciais | |
EP2405425A1 (en) | Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing | |
BR122022025766B1 (pt) | Codificador de áudio para codificação de um sinal multicanal e decodificador de áudio para decodificação de um sinal de áudio codificado | |
BRPI1007050B1 (pt) | Sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequênciaalta | |
BR112016001141B1 (pt) | Codificador de áudio, decodificador de áudio e métodos que usam sinais residuais codificados em conjunto | |
BR112012021369B1 (pt) | Aparelho para gerar um sinal downmix intensificado e método para gerar um sinal downmix intensificado | |
BRPI0621530A2 (pt) | número reduzido de decodificação de canais | |
PT2372701E (pt) | Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal | |
TWI843389B (zh) | 音訊編碼器、降混訊號產生方法及非暫時性儲存單元 | |
RU2696952C2 (ru) | Аудиокодировщик и декодер | |
KR20120095920A (ko) | 최적의 저-스루풋 파라메트릭 코딩/디코딩 | |
BR112016006323B1 (pt) | Conceito para gerar um sinal de downmix | |
RU2628177C2 (ru) | Способы кодирования и декодирования звука, соответствующие машиночитаемые носители и соответствующие устройство кодирования и устройство декодирования звука | |
WO2020178322A1 (en) | Apparatus and method for converting a spectral resolution | |
CN104078048A (zh) | 一种声音解码装置及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B350 | Update of information on the portal [chapter 15.35 patent gazette] | ||
B06A | Patent application procedure suspended [chapter 6.1 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 18/07/2014, OBSERVADAS AS CONDICOES LEGAIS |