BR112016006323B1 - Conceito para gerar um sinal de downmix - Google Patents
Conceito para gerar um sinal de downmix Download PDFInfo
- Publication number
- BR112016006323B1 BR112016006323B1 BR112016006323-6A BR112016006323A BR112016006323B1 BR 112016006323 B1 BR112016006323 B1 BR 112016006323B1 BR 112016006323 A BR112016006323 A BR 112016006323A BR 112016006323 B1 BR112016006323 B1 BR 112016006323B1
- Authority
- BR
- Brazil
- Prior art keywords
- signal
- input signal
- input
- phase
- extracted
- Prior art date
Links
- 230000002596 correlated effect Effects 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000005236 sound signal Effects 0.000 claims abstract description 11
- 230000001629 suppression Effects 0.000 claims description 41
- 239000003638 chemical reducing agent Substances 0.000 claims description 22
- 230000010363 phase shift Effects 0.000 claims description 15
- 238000003672 processing method Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 40
- 238000013459 approach Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 10
- 238000002156 mixing Methods 0.000 description 9
- 238000012937 correction Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Amplifiers (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
conceito para gerar um sinal de downmix. trata-se de um dispositivo de processamento de sinal de áudio (1) para realizar o downmix de um primeiro sinal de entrada (x1) e de um segundo sinal de entrada (x2) para um sinal de downmix (xd) que compreende: um extrator de dissimilaridade (2) configurado para receber o primeiro sinal de entrada (x1) e o segundo sinal de entrada (x2) assim como para emitir um sinal extraído (û2), que é menos correlacionado em relação ao primeiro sinal de entrada (x1) do que o segundo sinal de entrada (x2) e um combinador (3) configurado para combinar o prime iro sinal de entrada (x1) e o sinal extraído (û2) a fim de obter o sinal de downmix (xd).
Description
[001] Descrição
[002] A presente invenção se refere ao processamento de sinal de áudio e, em particular, à realização de downmix de uma pluralidade de sinais de entrada em um sinal de downmix.
[003] Em um processamento de sinal, frequentemente se torna necessário misturar dois ou mais sinais em um sinal de soma. O procedimento de mistura normalmente prossegue juntamente com deteriorações de sinal, especialmente se dois sinais, que não devem ser misturados, contiverem partes de sinal semelhantes, mas com desvio de fase. Se esses sinais forem somados, o sinal resultante contém rígidos artefatos de filtro de retardo. Para evitar esses artefatos, diferentes métodos foram sugeridos sendo muito dispendiosos em termos de complexidade computacional ou se baseiam na aplicação de um ganho ou termo de correção ao sinal já deteriorado.
[004] A conversão de sinais de áudio de múltiplos canais em um número menor de canais normalmente implica a mistura de diversos canais de áudio. A ITU, por exemplo, recomenda o uso de uma matriz de mistura passiva de domínio de tempo, com ganhos estáticos para uma conversão descendente a partir de uma determinada configuração de múltiplos canais para outra [1]. Em [2] uma abordagem um tanto semelhante é proposta.
[005] Para aumentar a inteligibilidade do diálogo, uma abordagem combinada de usar o downmix baseado em ITU e um baseado em matriz é proposta em [3]. Também, os codificadores de áudio utilizam um downmix passivo de canais, por exemplo, em alguns módulos paramétricos [4, 5, 6].
[006] A abordagem descrita em [7] realiza uma medição de sonoridade de todo canal de entrada e de saída, isto é, de cada canal antes e depois do processo de mistura. Ao obter a razão da soma das energias de entrada (isto é, energia dos canais supostamente misturados) e a energia de saída (isto é, a energia dos canais misturados), os ganhos podem ser derivados de tal modo que a perda de energia de sinal e os efeitos de coloração sejam reduzidos.
[007] A abordagem descrita em [8] realiza um downmix passivo que é posteriormente transformado em domínio de frequência. O downmix é, então, analisado por um estágio de correção espacial que tenta detectar e corrigir quaisquer inconsistências espaciais através de modificações nas diferenças de nível intercanais e nas diferenças de fase intercanais. Então, um equalizador é aplicado ao sinal para garantir que o sinal de downmix tenha a mesma potência que o sinal de entrada. Na última etapa, o sinal de downmix é transformado de volta em domínio de tempo.
[008] Uma abordagem diferente é revelada em [9, 10], onde dois sinais, que devem ser submetidos ao downmix, são transformados em domínio de frequência e um par de valor desejado/real é construído. O valor desejado é calculado como a raiz da soma das únicas energias, enquanto o valor real é computado como a raiz da energia do sinal de soma. Os dois valores são, então, comparados e, dependendo do fato de o valor real ser maior ou menor que o valor desejado, uma correção diferente é aplicada ao valor real.
[009] Alternativamente, há métodos que visam alinhar as fases dos sinais, de modo que nenhum efeito de cancelamento de sinal ocorra devido às diferenças de fase. Tais métodos foram propostos, por exemplo, para os estéreo- codificadores paramétricos [11, 12, 13].
[010] Um downmix passivo conforme realizado em [1, 2, 3, 4, 5, 6] é a abordagem mais direta para mixar sinais. Mas, se nenhuma ação adicional for tomada, os sinais de downmix resultantes podem sofrer perda de sinal severa e efeitos de filtro de retardo.
[011] As abordagens descritas em [7, 8, 9, 10] realizam um downmix passivo, no sentido de misturar igualmente ambos os sinais, na primeira etapa. Posteriormente, algumas correções são aplicadas ao sinal submetido ao downmix. Isso pode ajudar a reduzir os efeitos de filtro de retardo, mas, por outro lado, irá introduzir os artefatos de modulação. Isso é ocasionado ao alterar rapidamente os ganhos/termos de correção ao longo do tempo. Ademais, um desvio de fase de 180 graus entre os sinais a serem submetidos ao downmix ainda resulta em um downmix de valor zero e não pode ser compensado ao aplicar, por exemplo, um ganho de correção.
[012] Uma abordagem de alinhamento de fase, conforme mencionado em [11, 12, 13], pode ajudar a evitar o cancelamento de sinal indesejado; mas, devido à realização em andamento de um simples procedimento de soma do filtro de retardo de sinais alinhados por fase e de cancelamento pode ocorrer se as fases não forem adequadamente estimadas. Adicionalmente, a estimativa firme das relações de fase entre dois sinais não é uma tarefa fácil e é intensiva de modo computacional, especialmente se for feito para mais de dois sinais.
[013] É um objeto da presente invenção fornecer um conceito aprimorado para a realização de downmix de uma pluralidade de sinais de entrada para um sinal de downmix.
[014] Esse objeto é alcançado por um dispositivo de acordo com a reivindicação 1, um sistema de acordo com a reivindicação 16, um método de acordo com a reivindicação 17 ou um programa de computador de acordo com a reivindicação 18.
[015] Um dispositivo de processamento de sinal de áudio para a realização de downmix de um primeiro sinal de entrada e um segundo sinal de entrada para um sinal de downmix, em que o primeiro sinal de entrada (XJ e o segundo sinal de entrada (X2) são pelo menos parcialmente correlacionados, que compreendem: um extrator de dissimilaridade configurado para receber o primeiro sinal de entrada e o segundo sinal de entrada assim como para emitir um sinal extraído, que é menos correlacionado em relação ao primeiro sinal de entrada do que ao segundo sinal de entrada e um combinador configurado para combinar o primeiro sinal de entrada e o sinal extraído a fim de obter o sinal de downmix é fornecido.
[016] O dispositivo será descrito no presente documento no domínio de frequência por tempo, mas todas as considerações também são verdadeiras para os sinais de domínio de tempo. Um primeiro sinal de entrada e um segundo sinal de entrada são os sinais a serem misturados, onde o primeiro sinal de entrada serve como sinal de referência. Ambos os sinais são fornecidos para um extrator de dissimilaridade, onde as partes de sinal correlacionado do segundo sinal de entrada em relação ao segundo sinal de entrada são rejeitadas e apenas as partes de sinal não correlacionado do segundo sinal de entrada são passadas para a saída do extrator.
[017] O aprimoramento do conceito proposto está no modo no qual os sinais são misturados. Na primeira etapa, um sinal é selecionado para servir como uma referência. Determina-se, então, qual parte do sinal de referência já está presente dentro da outra, e apenas aquelas partes, que não estão presentes no sinal de referência (isto é, o sinal não correlacionado), são adicionadas à referência para construir o sinal de downmix. Uma vez que apenas as partes de sinal pouco correlacionado ou não correlacionado em relação à referência são combinadas com a referência, o risco de introduzir os efeitos de filtro de retardo é minimizado.
[018] Em suma, um novo conceito de mistura de dois sinais em um sinal de downmix é proposto. O método inovador visa impedir a criação de artefatos de downmix, como filtro de retardo. Além disso, o método proposto é eficiente em termos computacionais.
[019] Em algumas modalidades da invenção, o combinador compreende um sistema de dimensionamento de energia configurado de tal modo que a razão da energia do downmix e as energias somadas do primeiro sinal de entrada e do segundo sinal de entrada seja independente da correlação do primeiro sinal de entrada e do segundo sinal de entrada. Tal dispositivo de dimensionamento de energia pode garantir que o processo de downmix seja conservador de energia (isto é, o sinal de downmix contém a mesma quantidade de energia que o sinal estéreo original) ou pelo menos que o som captado se mantenha o mesmo independentemente da correlação do primeiro sinal de entrada e do segundo sinal de entrada.
[020] Em modalidades da invenção, o sistema de dimensionamento de energia compreende um primeiro dispositivo de dimensionamento de energia configurado para dimensionar o primeiro sinal de entrada com base em um primeiro fator de escala a fim de obter um sinal de entrada dimensionado.
[021] Em algumas modalidades da invenção, o sistema de dimensionamento de energia compreende um primeiro provedor de fator de escala configurado para fornecer o primeiro fator de escala, em que o primeiro provedor de fator de escala é preferencialmente projetado como um processador configurado para calcular o primeiro fator de escala dependendo do primeiro sinal de entrada, do segundo sinal de entrada, do sinal extraído e/ou de um fator de escala para o sinal extraído. Durante a realização de downmix, o sinal de referência (primeiro sinal de entrada) pode ser dimensionado para preservar o nível de energia geral ou para manter o nível de energia independente da correlação dos sinais de entrada automaticamente.
[022] Em modalidades da invenção, o sistema de dimensionamento de energia compreende um segundo dispositivo de dimensionamento de energia configurado para dimensionar o sinal extraído com base em um segundo fator de escala a fim de obter um sinal extraído dimensionado.
[023] Em algumas modalidades da invenção, o sistema de dimensionamento de energia compreende um segundo provedor de fator de escala configurado para fornecer o segundo fator de escala, em que o segundo provedor de fator de escala é preferencialmente projetado como uma interface entre homem e máquina configurada para inserir manualmente o segundo fator de escala.
[024] O segundo fator de escala pode ser visto como um equalizador. Em geral, isso pode ser feito dependente da frequência e em modalidades preferenciais manualmente por um engenheiro de som. Logicamente, muitas razões de mistura diferentes são possíveis e isso depende enormemente da experiência e/ou gosto do engenheiro de som.
[025] Alternativamente, o segundo provedor de fator de escala preferencialmente é projetado como um processador configurado para calcular o primeiro fator de escala dependendo do primeiro sinal de entrada, do segundo sinal de entrada e/ou do sinal extraído.
[026] Em algumas modalidades da invenção, o combinador compreende um dispositivo de soma para emitir o sinal de downmix com base no primeiro sinal de entrada e com base no sinal extraído. Uma vez que apenas as partes de sinal pouco correlacionado ou até mesmo não correlacionado em relação à referência são adicionadas à referência, o risco de introduzir efeitos de filtro de retardo é minimizado. Além disso, o uso de um dispositivo de soma é eficiente em termos computacionais.
[027] Em algumas modalidades da invenção, o extrator de dissimilaridade compreende um estimador de similaridade configurado para fornecer coeficientes de filtro para obter as partes de sinal do primeiro sinal de entrada que estão presentes no segundo sinal de entrada a partir do primeiro sinal de entrada e um redutor de similaridade configurado para reduzir as partes de sinal do primeiro sinal de entrada que estão presentes no segundo sinal de entrada com base nos coeficientes de filtro. Em tais implementações, o extrator de dissimilaridade consiste em dois subestágios: um estimador de similaridade e um redutor de similaridade. O primeiro sinal de entrada e o segundo sinal de entrada são fornecidos para um estágio de estimativa de similaridade, onde as partes de sinal do primeiro sinal de entrada que estão presentes no segundo sinal de entrada são estimadas e representadas pelos coeficientes de filtro resultantes. Os coeficientes de filtro, o primeiro sinal de entrada e o segundo sinal de entrada são fornecidos para o redutor de similaridade onde as partes de sinal do segundo sinal de entrada que são semelhantes ao primeiro sinal de entrada são suprimidas e/ou canceladas, respectivamente. Isso resulta no sinal extraído que é uma estimativa para a parte de sinal não correlacionado do segundo sinal de entrada em relação ao primeiro sinal de entrada.
[028] Em algumas modalidades da invenção, o redutor de similaridade compreende um estágio de cancelamento dotado de um dispositivo de cancelamento de sinal configurado para subtrair as partes de sinal obtidas do primeiro sinal de entrada que estão presentes no segundo sinal de entrada ou um sinal derivado das partes de sinal obtidas a partir do segundo sinal de entrada ou de um sinal derivado do segundo sinal de entrada. Esse conceito está relacionado a um método que é usado na questão de cancelamento de ruído adaptativo, mas com a diferença que não é usada, conforme originalmente destinada, para cancelar o ruído ou componente não correlacionado, mas, ao invés disso, para cancelar a parte de sinal correlacionado, o que resulta no sinal extraído.
[029] Em algumas modalidades da invenção, o estágio de cancelamento compreende um dispositivo de filtro complexo configurado para filtrar o primeiro sinal de entrada com o uso de coeficientes de filtro com valor complexo. A vantagem dessa abordagem é que o desvio de fase pode ser moldado.
[030] Em algumas modalidades da invenção, o estágio de cancelamento compreende um dispositivo de desvio de fase configurado para alinhas a fase do segundo sinal de entrada à fase do primeiro sinal de entrada. Para as fases opostas entre o primeiro sinal de entrada e o segundo sinal de entrada além das quedas repentinas de sinal do primeiro sinal de entrada, os pulos de fase e os efeitos de cancelamento de sinal podem ocorrer no sinal de downmix. Esse efeito pode ser drasticamente reduzido alinhando-se a fase do segundo sinal de entrada em direção ao primeiro sinal de entrada. Tal estágio de cancelamento pode ser chamado de estágio de cancelamento alinhado por fase inversa.
[031] Em algumas modalidades da invenção, o redutor de similaridade compreende um estágio de supressão de sinal dotado de um dispositivo de supressão de sinal configurado para multiplicar o segundo sinal de entrada com um fator de ganho de supressão a fim de obter o sinal extraído. Foi observado que as distorções audíveis devido aos erros de estimativa nos coeficientes de filtro podem ser reduzidas por esses recursos.
[032] Em algumas modalidades da invenção, o estágio de supressão de sinal compreende um dispositivo de desvio de fase configurado para alinhar a fase do segundo sinal de entrada à fase do primeiro sinal de entrada. Os fatores de ganho de supressão têm valor real e, portanto, não têm influência nas relações de fase dos dois sinais de entrada, mas uma vez que os coeficientes de filtro com valor complexo foram estimados de qualquer modo, as informações adicionais sobre a fase relativa entre os sinais de entrada podem ser obtidas. Essas informações podem ser usadas para ajustar a fase do segundo sinal de entrada para o primeiro sinal de entrada. Isso pode ser feito no estágio de supressão de sinal antes de os ganhos de supressão serem aplicados, em que a fase do segundo sinal de entrada é alternada pela fase estimada dos fatores de filtro com valor complexo mencionados acima. Tal estágio de supressão pode ser chamado de estágio de supressão alinhado por fase inversa.
[033] Em algumas modalidades da invenção, um sinal de saída do estágio de cancelamento é fornecido para uma entrada do estágio de supressão de sinal a fim de obter o sinal extraído ou um sinal de saída do estágio de supressão de sinal é fornecido para uma entrada do estágio de cancelamento a fim de obter o sinal extraído. Uma abordagem combinada de usar o cancelamento assim como a supressão de componentes de sinal coerentes pode ser usada para aumentar ainda mais a qualidade do sinal de downmix. O sinal de downmix resultante pode ser obtido ao realizar um procedimento de cancelamento primeiro e, posteriormente, ao aplicar um procedimento de supressão. Em outras modalidades, o sinal de downmix resultante pode ser obtido ao realizar um procedimento de supressão primeiro e, posteriormente, ao aplicar um procedimento de cancelamento. Desse modo, as partes de sinal no sinal extraído, que são correlacionadas ao primeiro sinal, podem ser ainda mais reduzidas. O sinal extraído assim como o primeiro sinal de entrada pode ser dimensionado por energia como antes.
[034] Em algumas modalidades da invenção, as partes de sinal do primeiro sinal de entrada que estão presentes no segundo sinal de entrada estão sendo ponderadas antes de serem subtraídas do segundo sinal de entrada dependendo de um fator de ponderação. Um fator de ponderação pode, em geral, ser dependente de tempo e frequência, mas também pode ser escolhido como constante. Em algumas modalidades, o módulo de cancelamento alinhado por fase inversa pode ser usado no presente documento também com uma pequena modificação: a ponderação com o fator de ponderação tem que ser feita de modo análogo após a filtragem com o valor absoluto dos coeficientes de filtro.
[035] Em algumas modalidades da invenção, o dispositivo de desvio de fase é configurado para alinhar a fase do segundo sinal de entrada à fase do primeiro sinal de entrada dependendo do fator de ponderação.
[036] Em algumas modalidades da invenção, o dispositivo de desvio de fase é configurado para alinhas a fase do segundo sinal de entrada à fase do primeiro sinal de entrada apenas, se o fator de ponderação for menor ou igual a um limite predefinido.
[037] A invenção se refere, adicionalmente, a um sistema de processamento de sinal de áudio para a realização de downmix de uma pluralidade de sinais de entrada para um sinal de downmix que compreende pelo menos um primeiro dispositivo de acordo com a invenção e um segundo dispositivo de acordo com a invenção, em que o sinal de downmix do primeiro dispositivo é fornecido para o segundo dispositivo como um primeiro sinal de entrada ou como um segundo sinal de entrada. Para a realização de downmix de uma pluralidade de canais de entrada, uma cascata de uma pluralidade de dispositivos de downmix de dois canais pode ser usada.
[038] Além do mais, a invenção se refere a um método para a realização de downmix de um primeiro sinal de entrada e um segundo sinal de entrada em um sinal de downmix que compreende as etapas de: estimar um sinal não correlacionado, que é um componente do segundo sinal de entrada e que é não correlacionado em relação ao primeiro sinal de entrada e somar o primeiro sinal de entrada e o sinal não correlacionado a fim de obter o sinal de downmix.
[039] Ademais, a invenção se refere a um programa de computador para implementar o método de acordo com a invenção quando executado em um computador ou processador de sinal.
[040] As modalidades preferenciais são subsequentemente discutidas em relação aos desenhos anexos, nos quais:
[041] A Figura 1 ilustra uma primeira modalidade de um dispositivo de processamento de sinal de áudio;
[042] A Figura 2 ilustra a primeira modalidade em mais detalhes;
[043] A Figura 3 da primeira modalidade; ilustra um redutor de similaridade e um combinador
[044] A Figura 4 modalidade; ilustra um redutor de similaridade de uma segunda
[045] A Figura 5 ilustra de uma terceira modalidade; um redutor de similaridade e um combinador
[046] A Figura 6 modalidade; ilustra um redutor de similaridade de uma quarta
[047] A Figura 7 ilustra um redutor de similaridade e um combinador de uma quinta modalidade;
[048] A Figura 8 ilustra um redutor de similaridade e um combinador de uma sexta modalidade; e
[049] A Figura 9 ilustra uma cascata de uma pluralidade de dispositivos de processamento de sinal de áudio.
[050] A Figura 1 mostra uma descrição de sistema de alto nível do dispositivo de downmix 1 inovador proposto. O dispositivo é descrito no domínio de frequência por tempo, onde k e m correspondem aos índices de frequência e tempo respectivamente, mas todas as considerações também são verdadeiras para os sinais de domínio de tempo. Um primeiro sinal de entrada e um segundo sinal de entrada X2(k,m) são os sinais de entrada a serem misturados, onde o primeiro sinal de entrada X1Çk,m) pode servir como o sinal de referência. Ambos os sinais X1Çk,m) e X2(k,m) são fornecidos para um extrator de dissimilaridade 2, onde as partes de sinal correlacionado em relação a X1Çk,m) e X2(k,m) são rejeitadas ou pelo menos reduzidas e apenas o sinal não correlacionado ou as partes pouco correlacionadas Ü2(k,m) são extraídos e passados para a saída do extrator. Então, o primeiro sinal de entrada X1Çk,m) é dimensionado com o uso de um primeiro dispositivo de dimensionamento de energia 4 para satisfazer algumas restrições de energia predefinidas, o que resulta em um sinal de referência dimensionado Xls(k,m). Os fatores de escala necessários GEx(k,m) são fornecidos pelo provedor de fator de escala 5. A parte do sinal extraído Ü2(k,m) também pode ser dimensionada com o uso de um segundo dispositivo de dimensionamento de energia 6, o que resulta em uma parte de sinal não correlacionado dimensionada Ü2s(k,m). Os fatores de escala correspondentes GEu(k,m) são fornecidos pelo segundo provedor de fator de escala 7. Os fatores de escala GEu(k,m) podem ser determinados de preferência manualmente por um engenheiro de som. Ambos os sinais dimensionados Xls(k,m) e Ü2s(k,m) são somados com o uso de um dispositivo de soma 8 para formar o sinal de downmix XD(k,m] desejado.
[051] A Figura 2 mostra uma descrição do sistema de nível médio do dispositivo proposto 1. Em algumas implementações, o extrator de dissimilaridade 2 consiste em dois subestágios: um estimador de similaridade 9 e um redutor de similaridade 10 conforme retratado na Figura 2. O primeiro sinal de entrada X1Çk,m) e o segundo sinal de entrada X2(k,m) são fornecidos para um estágio de estimativa de similaridade 9, onde as partes de sinal de X1Çk,m) que estão presentes dentro de X2(k,m) são estimadas e representadas pelos coeficientes de filtro resultantes Wk(T) com I = 0...L - 1 e L sendo o comprimento do filtro. Os coeficientes de filtro Wk(l), o primeiro sinal de entrada X1Çk,m) e o segundo sinal de entrada X2(k,m) são fornecidos para o redutor de similaridade 10, onde as partes de sinal de X2(k,m) que são semelhantes a X1Çk,m) são pelo menos parcialmente suprimidas e/ou canceladas, respectivamente. Isso resulta no sinal residual Ü2(k,m), que é uma estimativa para a parte de sinal não correlacionado de X2(k,m) em relação a X1Çk,m).
[052] O modelo de sinal assume o segundo sinal de entrada X2(k,m) como sendo uma mistura de uma versão ponderada ou filtrada W(k,m)X1(k,m) do primeiro sinal de entrada X1Çk,m) e um sinal independente inicialmente desconhecido U2(k,m) com E{X1U^>} = 0. Assim, X2(k,m) é considerado para consistir na soma de uma parte de sinal correlacionado e um não correlacionado em relação a X1Çk,m): X2(k,m) = W'(k,m) ■ X1Çk,m) + U2(k,m) (1)
[053] As letras maiúsculas indicam os sinais transformados por frequência e k e m são os índices de frequência e tempo, respectivamente. Agora, o sinal de downmix XD(k,m) desejado pode ser definido como: XD(k,m) = GEx(k,m)X1(k,m) + GEu(k,m)Ü2(k,m), (2)
[054] onde Ü2(k,m) é uma estimativa de U2(k,m) e onde GEx(k,m) e GEu(k,m) são fatores de dimensionamento para ajustar as energias do sinal de referência X1Çk,m) e da parte do sinal extraído Ü2(k,m) do outro sinal de entrada X2(k,m) de acordo com as restrições predefinidas. Adicionalmente, os mesmos podem ser usados para equalizar os sinais. Em algumas situações, isso pode se tornar necessário, especialmente para Ü2(k,m). No restante desse documento, os índices de frequência por tempo (k, m) serão omitidos por questão de clareza.
[055] O objetivo primordial consiste em obter o componente de sinal U2, que não está correlacionado a X±. Isso pode ser feito ao utilizar um método que é usado na questão do cancelamento de ruído adaptativo, mas com a diferença que não é usado, conforme originalmente pretendido, para cancelar o ruído ou o componente não correlacionado, mas em vez disso, a parte de sinal correlacionado, que resulta na estimativa U2 de U2.
[056] A Figura 3 retrata um redutor de similaridade 10 dotado de um estágio de cancelamento 10a e um combinador 3 da primeira modalidade de tal sistema. A vantagem dessa abordagem é que W é permitido a ser complexo e, então. Os desvios de fase podem ser moldados. U2=X2- (3)
[057] Para determinar Ü2, um ganho complexo estimado W para o ganho complexo inicialmente desconhecido W é necessário. Isso é feito ao minimizar a energia do sinal extraído 02 no sentido da média quadrática mínima (MMS): = £{|X2 WX, |2}
[058] A definição do derivado parcial de J(W) em relação a W* para zero leva aos coeficientes de filtro desejados, isto é,: !
[059] Em uma modalidade, o módulo de cancelamento 10a, realçado pelo retângulo tracejado cinza na Figura 3, pode ser substituído por um bloco de cancelamento alinhado por fase inversa 10a’ conforme retratado na Figura 4, em que o estágio de cancelamento 10a’ compreende um dispositivo de desvio de fase 13 configurado para alinhar a fase do segundo sinal de entrada X2 para a fase do primeiro sinal de entrada e um dispositivo de filtro absoluto 11’ configurado para filtrar um primeiro sinal de entrada alinhado (X'2 com o uso de coeficientes de filtro com valor absoluto |W|.
[060] Para a fase oposta do primeiro sinal de entrada e do segundo sinal de entrada X2, além das quedas repentinas de sinal do primeiro sinal de entrada A\, os pulos de fase e os efeitos de cancelamento de sinal podem ocorrer no sinal de downmix XD. Esse efeito pode ser reduzido drasticamente ao alinhar a fase do segundo sinal de entrada X2 para a fase do primeiro sinal de entrada X±. Ademais, apenas o valor absoluto de W é usado para realizar a filtragem de X} e, por isso, o cancelamento também.
[061] A Figura 5 ilustra um redutor de similaridade 10 e um combinador 3 de uma terceira modalidade, em que o redutor de similaridade 10 compreende um estágio de supressão de sinal 10b dotado de um dispositivo de supressão de sinal 14 configurado para multiplicar o segundo sinal de entrada X2 com um fator de ganho de supressão (6) a fim de obter o sinal extraído Ü2
[062] Na prática, o sinal extraído 02 obtido com o uso de (3) pode conter distorções audíveis devido aos erros de estimativa no ganho complexo W. Como uma alternativa, um estimador 9 (vide Figura 2) para obter uma estimativa U2 de U2 no sentido de erro de média quadrática mínima (MMSE) pode ser derivado. A Figura 5 mostra um diagrama de blocos da abordagem proposta.
[065] De acordo com (12), pode-se substituir a energia de X2 pela soma das energias da versão filtrada de X±e o sinal não correlacionado U2:
[067] com SNRll2ÍWXíj sendo o SNR a priori de X2. Os ganhos de filtro complexo W foram determinados com o uso de (6).
[068] Em uma modalidade, o módulo de supressão 10b, realçado pelo retângulo cinza tracejado na Figura 5, pode ser substituído por um módulo de supressão alinhado por fase inversa 10b’ que compreende um dispositivo de desvio de fase 15 configurado para alinhar a fase do segundo sinal de entrada X2 para a fase do primeiro sinal de entrada X±.
[069] A Figura 6 ilustra um redutor de similaridade 10b’ dotado de tal dispositivo de desvio de fase 15 como uma quarta modalidade da invenção. Os ganhos de supressão G têm valor real e, portanto, não têm influência nas relações de fase dos dois sinais Xx e X2. Mas uma vez que os coeficientes de filtro W têm que ser estimados de qualquer modo, as informações adicionais sobre a fase relativa entre os sinais de entrada podem ser ganhas. Essas informações podem ser usadas para ajustar a fase de X2 usada para a fase de X±. Isso é feito no bloco de supressão alinhado por fase inversa 10b’; antes de os ganhos de supressão G serem aplicados, a fase de X2 é alternada pela fase estimada de W. Com um alinhamento de fase, o sinal 02 pode ser espresso como
[070] que mostra o componente residual de Xx dentro de U2 está na fase em relação a Xx contanto que ΔV seja corretamente estimado.
[071] Uma abordagem combinada de usar o cancelamento assim como a supressão de componentes de sinal coerentes é retratada na Figura 7, em que um sinal de saída £/'2.do estágio de cancelamento 10a é fornecido para uma entrada do estágio de supressão de sinal 10b a fim de obter o sinal extraído Í72. O estágio de cancelamento 10a compreende um dispositivo de ponderação configurado para ponderar as partes de sinal obtidas WX± do primeiro sinal de entrada X± que está presente no segundo sinal de entrada x2).
[072] No presente, o sinal de downmix resultante XD é obtido ao realizar um procedimento de cancelamento ponderado, primeiro, e posteriormente ao aplicar um ganho de supressão. O sinal resultante f72 assim como X± é dimensionado por energia como antes. Devido ao fator de ponderação Y, o sinal U'2 após o estágio de cancelamento ainda contém algumas partes de sinal correlacionado a X±. Para reduzir ainda mais essas partes de sinal, deriva-se o ganho de supressão G c para a abordagem combinada:
[073] O parâmetro y é, em geral, dependente de tempo e frequência, mas também pode ser escolhido como constante. Uma possibilidade para determinar uma dependência de tempo e frequência y é:
[074] A Figura 8 ilustra um redutor de similaridade 10 e um combinador 3 de uma sexta modalidade. De acordo com essa modalidade, a correlação cruzada normalizada em (19) é fornecida como a entrada para uma função de mapeamento cuja saída pode ser usada para determinar os valores de y atuais. Para o mapeamento, uma função de logística pode ser usada, que pode ser definida como:
[075] onde i define os dados de entrada, Au e At a assintota superior e inferior, R é a taxa de crescimento, v > 0 influencia a taxa de crescimento máxima próxima da assintota, f0 especifica o valor de saída para /(O) e M é o ponto de dados í do crescimento máximo. Em tal modalidade, y é determinado por
[076] Em uma modalidade, o módulo de cancelamento alinhado por fase inversa 10a’ pode ser usado no presente documento também com uma pequena modificação. A ponderação com y tem que ser feita de modo análogo após a filtragem com o valor absoluto de W.
[077] Uma sexta modalidade mostrada na Figura 8 compreende uma aplicação mais sofisticada do processamento de fase inversa. Isso afeta apenas os intervalos de tempo e frequência que foram mapeados para serem, principalmente, suprimidos, isto é, y está abaixo de um determinado limite résimo. Por essa razão, um marcador F definido por
[078] é introduzido.
[079] Em uma modalidade, o módulo de cancelamento alinhado por fase inversa 10a’ pode ser usado no presente documento também com uma pequena modificação. A ponderação com Y tem que ser feita de modo análogo após a filtragem como valor absoluto de W.
[080] Em algumas modalidades, o provedor de fator de escala 7 fornece GEU, pelo qual a quantidade de energia do sinal não correlacionado U2 em relação a Xr. que contribui para o sinal de downmix XD pode ser controlada. Esses fatores de escala GEu podem ser vistos como um equalizador. Em geral, isso é feito dependendo da frequência e, na modalidade preferência, manualmente por um engenheiro de som. Logicamente, muitas das diferentes razões de mistura são possíveis e são altamente dependentes da experiência e/ou do gosto do engenheiro de som. Alternativamente, os fatores de escala GEu podem ser uma função dos sinais Xr, X2 e U2.
[081] Em algumas modalidades, o provedor de fator de escala 4 fornece GEX, pelo qual a quantidade de energia do primeiro sinal de entrada Xr que contribui para o sinal de downmix XD pode ser controlada. Se o processo de downmix tiver que ser conservador de energia (isto é, o sinal de downmix contiver a mesma quantidade de energia que o estéreo sinal original) ou pelo menos se o nível de som percebido tiver que se manter o mesmo, o processamento adicional é necessário. A consideração a seguir com a objeção de manter constante o nível de som percebido das partes de sinal individuais no sinal de downmix. Na modalidade preferencial, a energia é dimensionada de acordo com uma consideração de downmix-energia ideal derivada. Podem ser considerados dois sinais Xf e X2 e supondo-se que estejam altamente correlacionados como seria o caso, por exemplo, de uma fonte estendida de amplitude com ^0. O sinal X2 pode ser expresso como X2 = a • Xf de modo que o sinal de downmix XE resulte em
[083] Supõe-se, agora, que dois sinais não estejam totalmente correlacionados com E{XIX2*] = 0 . O sinal de downmix XE resulta em
[085] A partir dessas considerações, pode-se ver que a energia de um downmix ideal das partes de sinal correlacionado resultaria em
[086] com W correspondendo a a em (23) e para as partes de sinal não correlacionado, uma simples adição da energia tem que ser feita. A energia de downmix ideal final em relação ao modelo de sinal suposto e o sinal de downmix desejado em (1) e (2) resultaria, então, em
[087] A fim de garantir que XE e XD contêm a mesma quantidade de energia, introduz-se os fatores de dimensionamento de energia GEx e GEu, onde os últimos são fornecidos pelo provedor de fator de escala U2. O sinal de downmix real XD é computado como
[091] Para realizar o downmix de múltiplos canais de entrada , , N, uma cascata de múltiplos estágios de downmix de dois canais 1 pode ser usada. Na Figura 9, um exemplo é mostrado para três sinais de entrada , , N.
[093] Os recursos chave de uma modalidade da invenção são: • Considerar X± como um sinal de referência e considerar X2 como uma mistura de uma versão filtrada de X1; e, portanto, uma parte de sinal correlacionado WX± e uma parte de sinal não correlacionado U2 em relação a X±. • Separação/Decomposição de X2 em seus dois componentes de sinal mencionados anteriormente. Extração de dissimilaridade de X±. e X2 por meio de • a estimativa da similaridade de X,. e X2, que resulta em um coeficiente de filtro W e • a redução de similaridade através de cancelamento ou de supressão das partes de sinal correlacionado ou uma combinação de ambos, o que resulta em uma parte de sinal não correlacionado estimada Ü2. • Dimensionamento de energia de Ampara satisfazer um nível de energia predefinido. • Dimensionamento de energia de í72. • Somar os sinais dimensionados por energia para formar o sinal de downmix desejado XD. • Processamento em bandas de frequência. Os recursos de implementação opcionais são: • Supressão alinhada por fase inversa ou cancelamento alinhado por fase inversa. • Cascata de dois ou mais blocos de downmix para realizar um downmix de múltiplos canais. • Supressão alinhada por fase inversa apenas parcialmente aplicada.
[094] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, fica claro que esses aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente.
[095] Dependendo de determinadas exigências de implementação, as modalidades da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada com o uso de um meio de armazenamento não transitório como meio de armazenamento digital, por exemplo, um disco flexível, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM e uma EPROM, uma EEPROM ou uma memória FLASH, que têm sinais de controle eletronicamente legíveis armazenados na mesma, que cooperam (ou têm a capacidade de cooperar) com um sistema de computador programável de tal modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legível por computador.
[096] Algumas modalidades de acordo com a invenção compreendem um portador de dados dotado de sinais de controle eletronicamente legíveis, que têm a capacidade de cooperar com um sistema de computador programável, como aquele dos métodos descritos no presente documento que é realizado.
[097] Em geral, as modalidades da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, sendo que o código de programa é operativo para realizar um dos métodos quando o produto de programa de computador for executado em um computador. O código de programa pode, por exemplo, ser armazenado em um portador legível por máquina.
[098] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos no presente documento, armazenados em um portador legível por máquina.
[099] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador dotado de um código de programa para realizar um dos métodos descritos no presente documento, quando o programa de computador for executado em um computador.
[100] Uma modalidade adicional do método inventivo é, portanto, um portador de dados (ou um meio de armazenamento digital ou um meio legível por computador) que compreende, gravado nos mesmos, o programa de computador para realizar um dos métodos descritos no presente documento. O portador de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangível e/ou não transitório.
[101] Em uma modalidade adicional da invenção, o método é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, através da internet.
[102] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descritos no presente documento.
[103] Uma modalidade adicional compreende um computador que tem instalado no mesmo o programa de computador para realizar um dos métodos descritos no presente documento.
[104] Uma modalidade adicional de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos descritos no presente documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhantes. O aparelho ou o sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador para o receptor.
[105] Em algumas modalidades, um dispositivo lógico programável (por exemplo, um arranjo de porta programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, um arranjo de porta programável em campo pode cooperar com um microprocessador a fim de realizar um dos métodos descritos no presente documento. Em geral, os métodos são preferencialmente realizados por qualquer aparelho de hardware.
[106] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Compreende-se que as modificações e as variações das disposições e dos detalhes descritos no presente documento serão evidentes para outros versados na técnica. Pretende-se, portanto, que seja limitado apenas pelo escopo das reivindicações da patente iminente e não pelos detalhes específicos apresentados por meio de descrição e explicação das modalidades no presente documento.
[107] Referências numéricas: 1 dispositivo de processamento de sinal de áudio 2 extrator de dissimilaridade 3 combinador 4 primeiro dispositivo de dimensionamento de energia 5 primeiro provedor de fator de escala 6 segundo dispositivo de dimensionamento de energia 7 segundo provedor de fator de escala 8 dispositivo de soma 9 estimador de similaridade 10 redutor de similaridade 10a estágio de cancelamento 10a’ estágio de cancelamento 10b estágio de supressão 10b’ estágio de supressão 11 dispositivo de filtro complexo 1 1’ dispositivo de filtro absoluto 12 dispositivo de cancelamento de sinal 13 dispositivo de desvio de fase 14 dispositivo de supressão 15 dispositivo de desvio de fase 16 dispositivo de ponderação primeiro sinal de entrada X2 segundo sinal de entrada XD sinal de downmix U2 sinal extraído GEX primeiro fator de escala Xls um primeiro sinal de entrada dimensionado W coeficientes de filtro WX± partes de sinal do primeiro sinal de entrada que estão presentes no segundo sinal de entrada (X2) X'2 sinal derivado do segundo sinal de entrada Y fator de ponderação yWX} partes de sinal ponderadas do primeiro sinal de entrada que estão presentes no segundo sinal de entrada (X2)
[108] Referências: [1] ITU-R BS.775-2, “Multichannel Stereophonic Sound System With And Without Accompanying Picture”, 07/2006. [2] R. Dressler, (05.08.2004) Dolby Surround Pro Logic II Decoder Principles of Operation. [Online]. Disponível em: http://www.dolby.com/uploadedFiles/Assets/US/Doc/Professional/209_Dolby_S urround_Pro_Logic_II_Decoder_Principles_of_Operation.pdf. [3] K. Lopatka, B. Kunka e A. Czyzewski, “Novel 5.1 Downmix Algorithm with Improved Dialogue Intelligibility”, na 134â Convenção dos AES, 2013. [4] J. Breebaart, K. S. Chong, S. Disch, C. Faller, J. Herre, J. Hilpert, K. Kjorling, J. Koppens, K. Linzmeier, W. Oomen, H. Purnhagen e J. Rodén, “MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding”, J. Audio Eng. Soc, volume 56, no 11, páginas 932 a 955, 2007. [5] M. Neuendorf, M. Multrus, N. Rellerbach, R. J. Fuchs Guillaume, J. Lecomte, Wilde Stefan, S. Bayer, S. Disch, C. Helmrich, R. Lefebvre, P. Gournay, B. Bessette, J. Lapierre, K. Kjorling, H. Purnhagen, L. Villemoes, W. Oomen, E. Schuijers, K. Kikuiri, T. Chinen, T. Norimatsu, C. K. Seng, E. Oh, M. Kim, S. Quackenbush e B. Grill, “MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types”, J. Audio Eng. Soc, volume 13, 2â Convenção, 2012. [6] C. Faller e F. Baumgarte, “Binaural Cue Coding-Part II: Schemes and Applications”, Speech and Audio Processing, IEEE Transactions on, volume 11, no 6, páginas 520 a 531,2003. [7] F. Baumgarte, “Equalization for Audio Mixing”, Patente US 7.039.204 B2, 2003. [8] J. Thompson, A. Warner e B. Smith, “An Active Multichannel Downmix Enhancement for Minimizing Spatial and Spectral Distortions”, na 127â Convenção dos AES, Outubro de 2009. [9] G. Stoll, J. Groh, M. Link, J. Deigmoller, B. Runow, M. Keil, R. Stoll, M. Stoll e C. Stoll, “Method for Generating a Downward-Compatible Sound Format”, Patente US US2012/0 014 526, 2012. [10] B. Runow e J. Deigmoller, “Optimierter Stereo-Dowmix von 5.1- Mehrkanalproduktionen: An optimized Stereo-Downmix of a 5.1 multichannel audio production”, em 25. Tonmeistertagung - VDT International Convention, 2008. [11] Samsudin, E. Kurniawati, Ng Boon Poh, F. Sattar e S. George, “A Stereo to Mono Dowmixing Scheme for MPEG-4 Parametric Stereo Encoder”, em Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on, volume 5, 2006, p. V. 2. [12] M. Kim, E. Oh e H. Shim, “Stereo audio coding improved by phase parameters”, na 129a Convenção da AES, 2010. [13] W. Wu, L. Miao, Y. Lang e D. Virette, “Parametric Stereo Coding Scheme with a New Downmix Method and Whole Band Inter Channel Time/Phase Differences”, Acoustics, Speech and Signal Processing, IEEE Transactions on, páginas 556 a 560, 2013.
Claims (17)
1. Dispositivo de processamento de sinal de áudio (1) para realizar o downmix de um primeiro sinal de entrada (X1) e de um segundo sinal de entrada (X2) para um sinal de downmix (XD), em que o primeiro sinal de entrada (X1) e o segundo sinal de entrada (X2) são pelo menos parcialmente correlacionados, caracterizado por compreender: um extrator de dissimilaridade (2) configurado para receber o primeiro sinal de entrada (X1) e o segundo sinal de entrada (X2) assim como para emitir um sinal extraído (£72), que é menos correlacionado em relação ao primeiro sinal de entrada (X1) do que o segundo sinal de entrada (X2) e um combinador (3) configurado para combinar o primeiro sinal de entrada (X1) e o sinal extraído (U2) a fim de obter o sinal de downmix (XD); em que o extrator de dissimilaridade (2) compreende um estimador de similaridade (9) configurado para fornecer coeficientes de filtro (W, |W|) para obter partes de sinal (WX1, |WX1|) do primeiro sinal de entrada (X1) que está presente no segundo sinal de entrada (X2) a partir do primeiro sinal de entrada (Xi), em que o extrator de dissimilaridade (2) compreende um redutor de similaridade (10) configurado para reduzir as partes de sinal obtidas (WX1, IWX11) do primeiro sinal de entrada que estão presentes no segundo sinal de entrada (X2) com base nos coeficientes de filtro (W, IW|), em que o redutor de similaridade (10) compreende um estágio de supressão de sinal (10b, 10b’) dotado de um dispositivo de supressão de sinal (14) configurado para multiplicar o segundo sinal de entrada (X2) ou um sinal (X'2) derivado do segundo sinal de entrada (X2) com um fator de ganho de supressão (G) a fim de obter o sinal extraído (£72), em que o fator de ganho de supressão (G) é escolhido de tal modo que um erro de média quadrática entre o sinal extraído (£72) e uma parte de sinal (U2) do segundo sinal de entrada (X2), no qual a parte de sinal (U2) que não é correlacionado com o primeiro sinal de entrada (X1), seja minimizado.
2. Dispositivo, de acordo com a reivindicação 1, caracterizado por combinador (3) compreender um sistema de dimensionamento de energia (4, 5, 6, 7) configurado de tal modo que a razão da energia do downmix (JrD) e das energias somadas do primeiro sinal de entrada (X1) e do segundo sinal de entrada (X2) é independente da correlação do primeiro sinal de entrada (X1) e do segundo sinal de entrada (X2).
3. Dispositivo, de acordo com uma das reivindicações 1 e 2, caracterizado por sistema de dimensionamento de energia (4, 5, 6, 7) compreender um primeiro dispositivo de dimensionamento de energia (4) configurado para dimensionar o primeiro sinal de entrada (X1) com base em um primeiro fator de escala (GEx) a fim de obter um sinal de entrada dimensionado (*1s).
4. Dispositivo, de acordo com a reivindicação 3, caracterizado por sistema de dimensionamento de energia (4, 5, 6, 7) compreender um primeiro provedor de fator de escala (5) configurado para fornecer o primeiro fator de escala (GEx), em que o primeiro provedor de fator de escala (5) é preferencialmente projetado como um processador (5) configurado para calcular o primeiro fator de escala (GEx) dependendo do primeiro sinal de entrada (X1), do segundo sinal de entrada (X2) e/ou do sinal extraído (Í72).
5. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado por sistema de dimensionamento de energia (4, 5, 6, 7) compreender um segundo dispositivo de dimensionamento de energia (6) configurado para dimensionar o sinal extraído (Í72) com base em um segundo fator de escala (GEu) a fim de obter um sinal extraído dimensionado (U2s).
6. Dispositivo, de acordo com a reivindicação 5, caracterizado por sistema de dimensionamento de energia (4, 5, 6, 7) compreender segundo um provedor de fator de escala (7) configurado para fornecer o segundo fator de escala (GEu), em que o segundo provedor de fator de escala (7) é preferencialmente projetado como uma interface entre homem e máquina configurada para inserir manualmente o segundo fator de escala (GEu).
7. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por combinador (3) compreender um dispositivo de soma (8) para emitir o sinal de downmix (XD) com base no primeiro sinal de entrada (X1) e com base no sinal extraído (Í72).
8. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por redutor de similaridade (10) compreender um estágio de cancelamento (10a, 10a’) dotado de um dispositivo de cancelamento de sinal (12) configurado para subtrair as partes de sinal obtidas (WX1, |WX1|) do primeiro sinal de entrada (X1) que estão presentes no segundo sinal de entrada (X2) ou um sinal (yWX1) derivado das partes de sinal obtidas ( WX1, | VKX1|) do segundo sinal de entrada (X2) ou de um sinal (X'2) derivado do segundo sinal de entrada (X2).
9. Dispositivo, de acordo com a reivindicação 8, caracterizado por estágio de cancelamento (10a) compreender um dispositivo de filtro complexo (11) configurado para filtrar o primeiro sinal de entrada (X1) com o uso de coeficientes de filtro com valor complexo WW.
10. Dispositivo, de acordo com as reivindicações 8 e 9, caracterizado por estágio de cancelamento (10a’) compreender um dispositivo de desvio de fase (13) configurado para alinhar a fase do segundo sinal de entrada (X2) à fase do primeiro sinal de entrada (X1).
11. Dispositivo, de acordo com qualquer uma das reivindicações 8 a 10, caracterizado por um sinal de saída (£7'2) do estágio de cancelamento (10a) ser fornecido para uma entrada do estágio de supressão de sinal (10b) a fim de obter o sinal extraído (£72), ou em que um sinal de saída do estágio de supressão de sinal (10b) é fornecido para uma entrada do estágio de cancelamento (10a) a fim de obter o sinal extraído (U2).
12. Dispositivo, de acordo com a reivindicação 11, caracterizado por estágio de cancelamento (10a) compreender um dispositivo de ponderação (16) configurado para ponderar as partes de sinal obtidas ( WX1, |WX11) do primeiro sinal de entrada (X1) que estão presentes no segundo sinal de entrada (X2) dependendo de um fator de ponderação (y).
13. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado por estágio de supressão de sinal (10b’) compreender um dispositivo de desvio de fase (15) configurado para alinhar a fase do segundo sinal de entrada (X2) à fase do primeiro sinal de entrada (X1).
14. Dispositivo, de acordo com as reivindicações 10 e 12, caracterizado por dispositivo de desvio de fase (13) estar configurado para alinhar a fase do segundo sinal de entrada (X2) à fase do primeiro sinal de entrada (X1) dependendo do fator de ponderação (y).
15. Dispositivo, de acordo com a reivindicação 14, caracterizado por dispositivo de desvio de fase (13) estar configurado para alinhar a fase do segundo sinal de entrada (X2) à fase do primeiro sinal de entrada (X1) apenas, se o fator de ponderação (y) for menor ou igual a um limite predefinido (f).
16. Sistema de processamento de sinal de áudio para realizar downmix de uma pluralidade de sinais de entrada (X1, X2, X3) para um sinal de downmix (XD2) caracterizado por compreender pelo menos um primeiro dispositivo (1) de acordo com uma das reivindicações anteriores e um segundo dispositivo (1’) de acordo com uma das reivindicações anteriores, em que o sinal de downmix (XD1) do primeiro dispositivo é fornecido para o segundo dispositivo como um primeiro sinal de entrada (XD1) ou como um segundo sinal de entrada.
17. Método de processamento de sinal de áudio para downmix de um primeiro sinal de entrada (X1) e de um segundo sinal de entrada (X2) para um sinal de downmix (XD) caracterizado por compreender as etapas de: extrair um sinal (Í72) do segundo sinal de entrada (X2), que é menos correlacionado em relação ao primeiro sinal de entrada (X1) do que o segundo sinal de entrada (X2) somar o primeiro sinal de entrada (X1) e o sinal extraído (Í72) a fim de obter o sinal de downmix (XD) fornecer coeficientes de filtro (IV, |VK|) para obter partes de sinal (WX1, |WX1|) do primeiro sinal de entrada (X1) que está presente no segundo sinal de entrada (X2) do primeiro sinal de entrada (X1), reduzir as partes de sinal obtidas (WX1, |WX1|) do primeiro sinal de entrada presentes no segundo sinal de entrada (X2) com base nos coeficientes de filtro (W, |W|), multiplicar o segundo sinal de entrada (X2) ou um sinal (X'2) derivado do segundo sinal de entrada (X2) com um fator de ganho de supressão (G) a fim de obter o sinal extraído (Í72), em que o fator de ganho de supressão (G) é escolhido de tal modo que um erro de média quadrática entre o sinal extraído (Í72) e uma parte de sinal (U2) do segundo sinal de entrada (X2), no qual a parte de sinal (U2) que não é correlacionado com o primeiro sinal de entrada (X1), seja minimizado.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13186480 | 2013-09-27 | ||
EP13186480.3 | 2013-09-27 | ||
EP14161059.2A EP2854133A1 (en) | 2013-09-27 | 2014-03-21 | Generation of a downmix signal |
EP14161059.2 | 2014-03-21 | ||
PCT/EP2014/068611 WO2015043891A1 (en) | 2013-09-27 | 2014-09-02 | Concept for generating a downmix signal |
Publications (2)
Publication Number | Publication Date |
---|---|
BR112016006323A2 BR112016006323A2 (pt) | 2017-08-01 |
BR112016006323B1 true BR112016006323B1 (pt) | 2021-12-14 |
Family
ID=50442340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112016006323-6A BR112016006323B1 (pt) | 2013-09-27 | 2014-09-02 | Conceito para gerar um sinal de downmix |
Country Status (11)
Country | Link |
---|---|
US (1) | US10021501B2 (pt) |
EP (2) | EP2854133A1 (pt) |
JP (1) | JP6275831B2 (pt) |
KR (1) | KR101833380B1 (pt) |
CN (1) | CN105765652B (pt) |
BR (1) | BR112016006323B1 (pt) |
CA (1) | CA2925230C (pt) |
ES (1) | ES2649481T3 (pt) |
MX (1) | MX359381B (pt) |
RU (1) | RU2661310C2 (pt) |
WO (1) | WO2015043891A1 (pt) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6817433B2 (ja) * | 2016-11-08 | 2021-01-20 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | 少なくとも2つのチャンネルをダウンミックスするためのダウンミキサおよび方法ならびにマルチチャンネルエンコーダおよびマルチチャンネルデコーダ |
WO2019076739A1 (en) * | 2017-10-16 | 2019-04-25 | Sony Europe Limited | AUDIO PROCESSING |
CN110060696B (zh) * | 2018-01-19 | 2021-06-15 | 腾讯科技(深圳)有限公司 | 混音方法及装置、终端及可读存储介质 |
CN110556116B (zh) * | 2018-05-31 | 2021-10-22 | 华为技术有限公司 | 计算下混信号和残差信号的方法和装置 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5832840B2 (ja) * | 1977-09-10 | 1983-07-15 | 日本ビクター株式会社 | 立体音場拡大装置 |
US4975954A (en) * | 1987-10-15 | 1990-12-04 | Cooper Duane H | Head diffraction compensated stereo system with optimal equalization |
US4893342A (en) * | 1987-10-15 | 1990-01-09 | Cooper Duane H | Head diffraction compensated stereo system |
WO2004103023A1 (ja) * | 1995-09-26 | 2004-11-25 | Ikuichiro Kinoshita | 仮想音像定位用伝達関数表作成方法、その伝達関数表を記録した記憶媒体及びそれを用いた音響信号編集方法 |
DE69631955T2 (de) * | 1995-12-15 | 2005-01-05 | Koninklijke Philips Electronics N.V. | Verfahren und schaltung zur adaptiven rauschunterdrückung und sendeempfänger |
US5715319A (en) * | 1996-05-30 | 1998-02-03 | Picturetel Corporation | Method and apparatus for steerable and endfire superdirective microphone arrays with reduced analog-to-digital converter and computational requirements |
US6243476B1 (en) * | 1997-06-18 | 2001-06-05 | Massachusetts Institute Of Technology | Method and apparatus for producing binaural audio for a moving listener |
JP3526185B2 (ja) * | 1997-10-07 | 2004-05-10 | パイオニア株式会社 | 記録情報再生装置におけるクロストーク除去装置 |
CA2365529C (en) * | 1999-04-07 | 2011-08-30 | Dolby Laboratories Licensing Corporation | Matrix improvements to lossless encoding and decoding |
US7039204B2 (en) | 2002-06-24 | 2006-05-02 | Agere Systems Inc. | Equalization for audio mixing |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
CN101197798B (zh) * | 2006-12-07 | 2011-11-02 | 华为技术有限公司 | 信号处理系统、芯片、外接卡、滤波、收发装置及方法 |
GB0704622D0 (en) * | 2007-03-09 | 2007-04-18 | Skype Ltd | Speech coding system and method |
CN101809654B (zh) * | 2007-04-26 | 2013-08-07 | 杜比国际公司 | 供合成输出信号的装置和方法 |
KR101434200B1 (ko) * | 2007-10-01 | 2014-08-26 | 삼성전자주식회사 | 혼합 사운드로부터의 음원 판별 방법 및 장치 |
MX2010004220A (es) * | 2007-10-17 | 2010-06-11 | Fraunhofer Ges Forschung | Codificacion de audio usando mezcla descendente. |
EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
DE102008056704B4 (de) | 2008-11-11 | 2010-11-04 | Institut für Rundfunktechnik GmbH | Verfahren zum Erzeugen eines abwärtskompatiblen Tonformates |
EP2214161A1 (en) | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for upmixing a downmix audio signal |
EP2214162A1 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Upmixer, method and computer program for upmixing a downmix audio signal |
MX2011006248A (es) | 2009-04-08 | 2011-07-20 | Fraunhofer Ges Forschung | Aparato, metodo y programa de computacion para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavizacion de valor de fase. |
KR101697550B1 (ko) * | 2010-09-16 | 2017-02-02 | 삼성전자주식회사 | 멀티채널 오디오 대역폭 확장 장치 및 방법 |
JP5533502B2 (ja) * | 2010-09-28 | 2014-06-25 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
CN103348408B (zh) * | 2011-02-10 | 2015-11-25 | 杜比实验室特许公司 | 噪声和位置外信号的组合抑制方法和系统 |
KR101662680B1 (ko) * | 2012-02-14 | 2016-10-05 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 멀티-채널 오디오 신호의 적응적 다운-믹싱 및 업-믹싱을 수행하기 위한 방법 및 장치 |
JP2013207487A (ja) | 2012-03-28 | 2013-10-07 | Nec Corp | 携帯端末不正利用防止システム |
-
2014
- 2014-03-21 EP EP14161059.2A patent/EP2854133A1/en not_active Withdrawn
- 2014-09-02 BR BR112016006323-6A patent/BR112016006323B1/pt active IP Right Grant
- 2014-09-02 WO PCT/EP2014/068611 patent/WO2015043891A1/en active Application Filing
- 2014-09-02 KR KR1020167007500A patent/KR101833380B1/ko active IP Right Grant
- 2014-09-02 ES ES14758881.8T patent/ES2649481T3/es active Active
- 2014-09-02 CA CA2925230A patent/CA2925230C/en active Active
- 2014-09-02 CN CN201480053053.8A patent/CN105765652B/zh active Active
- 2014-09-02 RU RU2016116285A patent/RU2661310C2/ru not_active IP Right Cessation
- 2014-09-02 JP JP2016517420A patent/JP6275831B2/ja active Active
- 2014-09-02 MX MX2016003504A patent/MX359381B/es active IP Right Grant
- 2014-09-02 EP EP14758881.8A patent/EP3050054B1/en active Active
-
2016
- 2016-03-25 US US15/080,584 patent/US10021501B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
BR112016006323A2 (pt) | 2017-08-01 |
RU2016116285A (ru) | 2017-11-01 |
CA2925230C (en) | 2018-08-14 |
US20160212561A1 (en) | 2016-07-21 |
MX2016003504A (es) | 2016-07-06 |
CN105765652B (zh) | 2019-11-19 |
JP2016538578A (ja) | 2016-12-08 |
US10021501B2 (en) | 2018-07-10 |
ES2649481T3 (es) | 2018-01-12 |
KR20160067099A (ko) | 2016-06-13 |
CN105765652A (zh) | 2016-07-13 |
RU2661310C2 (ru) | 2018-07-13 |
EP3050054A1 (en) | 2016-08-03 |
EP2854133A1 (en) | 2015-04-01 |
JP6275831B2 (ja) | 2018-02-07 |
CA2925230A1 (en) | 2015-04-02 |
MX359381B (es) | 2018-09-25 |
WO2015043891A1 (en) | 2015-04-02 |
EP3050054B1 (en) | 2017-10-18 |
KR101833380B1 (ko) | 2018-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7156986B2 (ja) | 無相関化信号の寄与の残差信号ベースの調整を用いたマルチチャンネルオーディオデコーダ、マルチチャンネルオーディオエンコーダ、方法およびコンピュータプログラム | |
JP6279077B2 (ja) | 適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 | |
JP5604933B2 (ja) | ダウンミクス装置およびダウンミクス方法 | |
US10163446B2 (en) | Audio encoder and decoder | |
BRPI1005299B1 (pt) | aparelho e método para realizar o upmmix em um sinal de áudio downmix | |
TWI665660B (zh) | 用以降混至少兩聲道之降混器與方法及多聲道編碼器與多聲道解碼器 | |
BR112016006323B1 (pt) | Conceito para gerar um sinal de downmix | |
JP6248186B2 (ja) | オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 02/09/2014, OBSERVADAS AS CONDICOES LEGAIS. |