BR112016006323B1 - Conceito para gerar um sinal de downmix - Google Patents

Conceito para gerar um sinal de downmix Download PDF

Info

Publication number
BR112016006323B1
BR112016006323B1 BR112016006323-6A BR112016006323A BR112016006323B1 BR 112016006323 B1 BR112016006323 B1 BR 112016006323B1 BR 112016006323 A BR112016006323 A BR 112016006323A BR 112016006323 B1 BR112016006323 B1 BR 112016006323B1
Authority
BR
Brazil
Prior art keywords
signal
input signal
input
phase
extracted
Prior art date
Application number
BR112016006323-6A
Other languages
English (en)
Other versions
BR112016006323A2 (pt
Inventor
Alexander ADAMI
Emanuel Habets
Jürgen Herre
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Publication of BR112016006323A2 publication Critical patent/BR112016006323A2/pt
Publication of BR112016006323B1 publication Critical patent/BR112016006323B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Amplifiers (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

conceito para gerar um sinal de downmix. trata-se de um dispositivo de processamento de sinal de áudio (1) para realizar o downmix de um primeiro sinal de entrada (x1) e de um segundo sinal de entrada (x2) para um sinal de downmix (xd) que compreende: um extrator de dissimilaridade (2) configurado para receber o primeiro sinal de entrada (x1) e o segundo sinal de entrada (x2) assim como para emitir um sinal extraído (û2), que é menos correlacionado em relação ao primeiro sinal de entrada (x1) do que o segundo sinal de entrada (x2) e um combinador (3) configurado para combinar o prime iro sinal de entrada (x1) e o sinal extraído (û2) a fim de obter o sinal de downmix (xd).

Description

[001] Descrição
[002] A presente invenção se refere ao processamento de sinal de áudio e, em particular, à realização de downmix de uma pluralidade de sinais de entrada em um sinal de downmix.
[003] Em um processamento de sinal, frequentemente se torna necessário misturar dois ou mais sinais em um sinal de soma. O procedimento de mistura normalmente prossegue juntamente com deteriorações de sinal, especialmente se dois sinais, que não devem ser misturados, contiverem partes de sinal semelhantes, mas com desvio de fase. Se esses sinais forem somados, o sinal resultante contém rígidos artefatos de filtro de retardo. Para evitar esses artefatos, diferentes métodos foram sugeridos sendo muito dispendiosos em termos de complexidade computacional ou se baseiam na aplicação de um ganho ou termo de correção ao sinal já deteriorado.
[004] A conversão de sinais de áudio de múltiplos canais em um número menor de canais normalmente implica a mistura de diversos canais de áudio. A ITU, por exemplo, recomenda o uso de uma matriz de mistura passiva de domínio de tempo, com ganhos estáticos para uma conversão descendente a partir de uma determinada configuração de múltiplos canais para outra [1]. Em [2] uma abordagem um tanto semelhante é proposta.
[005] Para aumentar a inteligibilidade do diálogo, uma abordagem combinada de usar o downmix baseado em ITU e um baseado em matriz é proposta em [3]. Também, os codificadores de áudio utilizam um downmix passivo de canais, por exemplo, em alguns módulos paramétricos [4, 5, 6].
[006] A abordagem descrita em [7] realiza uma medição de sonoridade de todo canal de entrada e de saída, isto é, de cada canal antes e depois do processo de mistura. Ao obter a razão da soma das energias de entrada (isto é, energia dos canais supostamente misturados) e a energia de saída (isto é, a energia dos canais misturados), os ganhos podem ser derivados de tal modo que a perda de energia de sinal e os efeitos de coloração sejam reduzidos.
[007] A abordagem descrita em [8] realiza um downmix passivo que é posteriormente transformado em domínio de frequência. O downmix é, então, analisado por um estágio de correção espacial que tenta detectar e corrigir quaisquer inconsistências espaciais através de modificações nas diferenças de nível intercanais e nas diferenças de fase intercanais. Então, um equalizador é aplicado ao sinal para garantir que o sinal de downmix tenha a mesma potência que o sinal de entrada. Na última etapa, o sinal de downmix é transformado de volta em domínio de tempo.
[008] Uma abordagem diferente é revelada em [9, 10], onde dois sinais, que devem ser submetidos ao downmix, são transformados em domínio de frequência e um par de valor desejado/real é construído. O valor desejado é calculado como a raiz da soma das únicas energias, enquanto o valor real é computado como a raiz da energia do sinal de soma. Os dois valores são, então, comparados e, dependendo do fato de o valor real ser maior ou menor que o valor desejado, uma correção diferente é aplicada ao valor real.
[009] Alternativamente, há métodos que visam alinhar as fases dos sinais, de modo que nenhum efeito de cancelamento de sinal ocorra devido às diferenças de fase. Tais métodos foram propostos, por exemplo, para os estéreo- codificadores paramétricos [11, 12, 13].
[010] Um downmix passivo conforme realizado em [1, 2, 3, 4, 5, 6] é a abordagem mais direta para mixar sinais. Mas, se nenhuma ação adicional for tomada, os sinais de downmix resultantes podem sofrer perda de sinal severa e efeitos de filtro de retardo.
[011] As abordagens descritas em [7, 8, 9, 10] realizam um downmix passivo, no sentido de misturar igualmente ambos os sinais, na primeira etapa. Posteriormente, algumas correções são aplicadas ao sinal submetido ao downmix. Isso pode ajudar a reduzir os efeitos de filtro de retardo, mas, por outro lado, irá introduzir os artefatos de modulação. Isso é ocasionado ao alterar rapidamente os ganhos/termos de correção ao longo do tempo. Ademais, um desvio de fase de 180 graus entre os sinais a serem submetidos ao downmix ainda resulta em um downmix de valor zero e não pode ser compensado ao aplicar, por exemplo, um ganho de correção.
[012] Uma abordagem de alinhamento de fase, conforme mencionado em [11, 12, 13], pode ajudar a evitar o cancelamento de sinal indesejado; mas, devido à realização em andamento de um simples procedimento de soma do filtro de retardo de sinais alinhados por fase e de cancelamento pode ocorrer se as fases não forem adequadamente estimadas. Adicionalmente, a estimativa firme das relações de fase entre dois sinais não é uma tarefa fácil e é intensiva de modo computacional, especialmente se for feito para mais de dois sinais.
[013] É um objeto da presente invenção fornecer um conceito aprimorado para a realização de downmix de uma pluralidade de sinais de entrada para um sinal de downmix.
[014] Esse objeto é alcançado por um dispositivo de acordo com a reivindicação 1, um sistema de acordo com a reivindicação 16, um método de acordo com a reivindicação 17 ou um programa de computador de acordo com a reivindicação 18.
[015] Um dispositivo de processamento de sinal de áudio para a realização de downmix de um primeiro sinal de entrada e um segundo sinal de entrada para um sinal de downmix, em que o primeiro sinal de entrada (XJ e o segundo sinal de entrada (X2) são pelo menos parcialmente correlacionados, que compreendem: um extrator de dissimilaridade configurado para receber o primeiro sinal de entrada e o segundo sinal de entrada assim como para emitir um sinal extraído, que é menos correlacionado em relação ao primeiro sinal de entrada do que ao segundo sinal de entrada e um combinador configurado para combinar o primeiro sinal de entrada e o sinal extraído a fim de obter o sinal de downmix é fornecido.
[016] O dispositivo será descrito no presente documento no domínio de frequência por tempo, mas todas as considerações também são verdadeiras para os sinais de domínio de tempo. Um primeiro sinal de entrada e um segundo sinal de entrada são os sinais a serem misturados, onde o primeiro sinal de entrada serve como sinal de referência. Ambos os sinais são fornecidos para um extrator de dissimilaridade, onde as partes de sinal correlacionado do segundo sinal de entrada em relação ao segundo sinal de entrada são rejeitadas e apenas as partes de sinal não correlacionado do segundo sinal de entrada são passadas para a saída do extrator.
[017] O aprimoramento do conceito proposto está no modo no qual os sinais são misturados. Na primeira etapa, um sinal é selecionado para servir como uma referência. Determina-se, então, qual parte do sinal de referência já está presente dentro da outra, e apenas aquelas partes, que não estão presentes no sinal de referência (isto é, o sinal não correlacionado), são adicionadas à referência para construir o sinal de downmix. Uma vez que apenas as partes de sinal pouco correlacionado ou não correlacionado em relação à referência são combinadas com a referência, o risco de introduzir os efeitos de filtro de retardo é minimizado.
[018] Em suma, um novo conceito de mistura de dois sinais em um sinal de downmix é proposto. O método inovador visa impedir a criação de artefatos de downmix, como filtro de retardo. Além disso, o método proposto é eficiente em termos computacionais.
[019] Em algumas modalidades da invenção, o combinador compreende um sistema de dimensionamento de energia configurado de tal modo que a razão da energia do downmix e as energias somadas do primeiro sinal de entrada e do segundo sinal de entrada seja independente da correlação do primeiro sinal de entrada e do segundo sinal de entrada. Tal dispositivo de dimensionamento de energia pode garantir que o processo de downmix seja conservador de energia (isto é, o sinal de downmix contém a mesma quantidade de energia que o sinal estéreo original) ou pelo menos que o som captado se mantenha o mesmo independentemente da correlação do primeiro sinal de entrada e do segundo sinal de entrada.
[020] Em modalidades da invenção, o sistema de dimensionamento de energia compreende um primeiro dispositivo de dimensionamento de energia configurado para dimensionar o primeiro sinal de entrada com base em um primeiro fator de escala a fim de obter um sinal de entrada dimensionado.
[021] Em algumas modalidades da invenção, o sistema de dimensionamento de energia compreende um primeiro provedor de fator de escala configurado para fornecer o primeiro fator de escala, em que o primeiro provedor de fator de escala é preferencialmente projetado como um processador configurado para calcular o primeiro fator de escala dependendo do primeiro sinal de entrada, do segundo sinal de entrada, do sinal extraído e/ou de um fator de escala para o sinal extraído. Durante a realização de downmix, o sinal de referência (primeiro sinal de entrada) pode ser dimensionado para preservar o nível de energia geral ou para manter o nível de energia independente da correlação dos sinais de entrada automaticamente.
[022] Em modalidades da invenção, o sistema de dimensionamento de energia compreende um segundo dispositivo de dimensionamento de energia configurado para dimensionar o sinal extraído com base em um segundo fator de escala a fim de obter um sinal extraído dimensionado.
[023] Em algumas modalidades da invenção, o sistema de dimensionamento de energia compreende um segundo provedor de fator de escala configurado para fornecer o segundo fator de escala, em que o segundo provedor de fator de escala é preferencialmente projetado como uma interface entre homem e máquina configurada para inserir manualmente o segundo fator de escala.
[024] O segundo fator de escala pode ser visto como um equalizador. Em geral, isso pode ser feito dependente da frequência e em modalidades preferenciais manualmente por um engenheiro de som. Logicamente, muitas razões de mistura diferentes são possíveis e isso depende enormemente da experiência e/ou gosto do engenheiro de som.
[025] Alternativamente, o segundo provedor de fator de escala preferencialmente é projetado como um processador configurado para calcular o primeiro fator de escala dependendo do primeiro sinal de entrada, do segundo sinal de entrada e/ou do sinal extraído.
[026] Em algumas modalidades da invenção, o combinador compreende um dispositivo de soma para emitir o sinal de downmix com base no primeiro sinal de entrada e com base no sinal extraído. Uma vez que apenas as partes de sinal pouco correlacionado ou até mesmo não correlacionado em relação à referência são adicionadas à referência, o risco de introduzir efeitos de filtro de retardo é minimizado. Além disso, o uso de um dispositivo de soma é eficiente em termos computacionais.
[027] Em algumas modalidades da invenção, o extrator de dissimilaridade compreende um estimador de similaridade configurado para fornecer coeficientes de filtro para obter as partes de sinal do primeiro sinal de entrada que estão presentes no segundo sinal de entrada a partir do primeiro sinal de entrada e um redutor de similaridade configurado para reduzir as partes de sinal do primeiro sinal de entrada que estão presentes no segundo sinal de entrada com base nos coeficientes de filtro. Em tais implementações, o extrator de dissimilaridade consiste em dois subestágios: um estimador de similaridade e um redutor de similaridade. O primeiro sinal de entrada e o segundo sinal de entrada são fornecidos para um estágio de estimativa de similaridade, onde as partes de sinal do primeiro sinal de entrada que estão presentes no segundo sinal de entrada são estimadas e representadas pelos coeficientes de filtro resultantes. Os coeficientes de filtro, o primeiro sinal de entrada e o segundo sinal de entrada são fornecidos para o redutor de similaridade onde as partes de sinal do segundo sinal de entrada que são semelhantes ao primeiro sinal de entrada são suprimidas e/ou canceladas, respectivamente. Isso resulta no sinal extraído que é uma estimativa para a parte de sinal não correlacionado do segundo sinal de entrada em relação ao primeiro sinal de entrada.
[028] Em algumas modalidades da invenção, o redutor de similaridade compreende um estágio de cancelamento dotado de um dispositivo de cancelamento de sinal configurado para subtrair as partes de sinal obtidas do primeiro sinal de entrada que estão presentes no segundo sinal de entrada ou um sinal derivado das partes de sinal obtidas a partir do segundo sinal de entrada ou de um sinal derivado do segundo sinal de entrada. Esse conceito está relacionado a um método que é usado na questão de cancelamento de ruído adaptativo, mas com a diferença que não é usada, conforme originalmente destinada, para cancelar o ruído ou componente não correlacionado, mas, ao invés disso, para cancelar a parte de sinal correlacionado, o que resulta no sinal extraído.
[029] Em algumas modalidades da invenção, o estágio de cancelamento compreende um dispositivo de filtro complexo configurado para filtrar o primeiro sinal de entrada com o uso de coeficientes de filtro com valor complexo. A vantagem dessa abordagem é que o desvio de fase pode ser moldado.
[030] Em algumas modalidades da invenção, o estágio de cancelamento compreende um dispositivo de desvio de fase configurado para alinhas a fase do segundo sinal de entrada à fase do primeiro sinal de entrada. Para as fases opostas entre o primeiro sinal de entrada e o segundo sinal de entrada além das quedas repentinas de sinal do primeiro sinal de entrada, os pulos de fase e os efeitos de cancelamento de sinal podem ocorrer no sinal de downmix. Esse efeito pode ser drasticamente reduzido alinhando-se a fase do segundo sinal de entrada em direção ao primeiro sinal de entrada. Tal estágio de cancelamento pode ser chamado de estágio de cancelamento alinhado por fase inversa.
[031] Em algumas modalidades da invenção, o redutor de similaridade compreende um estágio de supressão de sinal dotado de um dispositivo de supressão de sinal configurado para multiplicar o segundo sinal de entrada com um fator de ganho de supressão a fim de obter o sinal extraído. Foi observado que as distorções audíveis devido aos erros de estimativa nos coeficientes de filtro podem ser reduzidas por esses recursos.
[032] Em algumas modalidades da invenção, o estágio de supressão de sinal compreende um dispositivo de desvio de fase configurado para alinhar a fase do segundo sinal de entrada à fase do primeiro sinal de entrada. Os fatores de ganho de supressão têm valor real e, portanto, não têm influência nas relações de fase dos dois sinais de entrada, mas uma vez que os coeficientes de filtro com valor complexo foram estimados de qualquer modo, as informações adicionais sobre a fase relativa entre os sinais de entrada podem ser obtidas. Essas informações podem ser usadas para ajustar a fase do segundo sinal de entrada para o primeiro sinal de entrada. Isso pode ser feito no estágio de supressão de sinal antes de os ganhos de supressão serem aplicados, em que a fase do segundo sinal de entrada é alternada pela fase estimada dos fatores de filtro com valor complexo mencionados acima. Tal estágio de supressão pode ser chamado de estágio de supressão alinhado por fase inversa.
[033] Em algumas modalidades da invenção, um sinal de saída do estágio de cancelamento é fornecido para uma entrada do estágio de supressão de sinal a fim de obter o sinal extraído ou um sinal de saída do estágio de supressão de sinal é fornecido para uma entrada do estágio de cancelamento a fim de obter o sinal extraído. Uma abordagem combinada de usar o cancelamento assim como a supressão de componentes de sinal coerentes pode ser usada para aumentar ainda mais a qualidade do sinal de downmix. O sinal de downmix resultante pode ser obtido ao realizar um procedimento de cancelamento primeiro e, posteriormente, ao aplicar um procedimento de supressão. Em outras modalidades, o sinal de downmix resultante pode ser obtido ao realizar um procedimento de supressão primeiro e, posteriormente, ao aplicar um procedimento de cancelamento. Desse modo, as partes de sinal no sinal extraído, que são correlacionadas ao primeiro sinal, podem ser ainda mais reduzidas. O sinal extraído assim como o primeiro sinal de entrada pode ser dimensionado por energia como antes.
[034] Em algumas modalidades da invenção, as partes de sinal do primeiro sinal de entrada que estão presentes no segundo sinal de entrada estão sendo ponderadas antes de serem subtraídas do segundo sinal de entrada dependendo de um fator de ponderação. Um fator de ponderação pode, em geral, ser dependente de tempo e frequência, mas também pode ser escolhido como constante. Em algumas modalidades, o módulo de cancelamento alinhado por fase inversa pode ser usado no presente documento também com uma pequena modificação: a ponderação com o fator de ponderação tem que ser feita de modo análogo após a filtragem com o valor absoluto dos coeficientes de filtro.
[035] Em algumas modalidades da invenção, o dispositivo de desvio de fase é configurado para alinhar a fase do segundo sinal de entrada à fase do primeiro sinal de entrada dependendo do fator de ponderação.
[036] Em algumas modalidades da invenção, o dispositivo de desvio de fase é configurado para alinhas a fase do segundo sinal de entrada à fase do primeiro sinal de entrada apenas, se o fator de ponderação for menor ou igual a um limite predefinido.
[037] A invenção se refere, adicionalmente, a um sistema de processamento de sinal de áudio para a realização de downmix de uma pluralidade de sinais de entrada para um sinal de downmix que compreende pelo menos um primeiro dispositivo de acordo com a invenção e um segundo dispositivo de acordo com a invenção, em que o sinal de downmix do primeiro dispositivo é fornecido para o segundo dispositivo como um primeiro sinal de entrada ou como um segundo sinal de entrada. Para a realização de downmix de uma pluralidade de canais de entrada, uma cascata de uma pluralidade de dispositivos de downmix de dois canais pode ser usada.
[038] Além do mais, a invenção se refere a um método para a realização de downmix de um primeiro sinal de entrada e um segundo sinal de entrada em um sinal de downmix que compreende as etapas de: estimar um sinal não correlacionado, que é um componente do segundo sinal de entrada e que é não correlacionado em relação ao primeiro sinal de entrada e somar o primeiro sinal de entrada e o sinal não correlacionado a fim de obter o sinal de downmix.
[039] Ademais, a invenção se refere a um programa de computador para implementar o método de acordo com a invenção quando executado em um computador ou processador de sinal.
[040] As modalidades preferenciais são subsequentemente discutidas em relação aos desenhos anexos, nos quais:
[041] A Figura 1 ilustra uma primeira modalidade de um dispositivo de processamento de sinal de áudio;
[042] A Figura 2 ilustra a primeira modalidade em mais detalhes;
[043] A Figura 3 da primeira modalidade; ilustra um redutor de similaridade e um combinador
[044] A Figura 4 modalidade; ilustra um redutor de similaridade de uma segunda
[045] A Figura 5 ilustra de uma terceira modalidade; um redutor de similaridade e um combinador
[046] A Figura 6 modalidade; ilustra um redutor de similaridade de uma quarta
[047] A Figura 7 ilustra um redutor de similaridade e um combinador de uma quinta modalidade;
[048] A Figura 8 ilustra um redutor de similaridade e um combinador de uma sexta modalidade; e
[049] A Figura 9 ilustra uma cascata de uma pluralidade de dispositivos de processamento de sinal de áudio.
[050] A Figura 1 mostra uma descrição de sistema de alto nível do dispositivo de downmix 1 inovador proposto. O dispositivo é descrito no domínio de frequência por tempo, onde k e m correspondem aos índices de frequência e tempo respectivamente, mas todas as considerações também são verdadeiras para os sinais de domínio de tempo. Um primeiro sinal de entrada e um segundo sinal de entrada X2(k,m) são os sinais de entrada a serem misturados, onde o primeiro sinal de entrada X1Çk,m) pode servir como o sinal de referência. Ambos os sinais X1Çk,m) e X2(k,m) são fornecidos para um extrator de dissimilaridade 2, onde as partes de sinal correlacionado em relação a X1Çk,m) e X2(k,m) são rejeitadas ou pelo menos reduzidas e apenas o sinal não correlacionado ou as partes pouco correlacionadas Ü2(k,m) são extraídos e passados para a saída do extrator. Então, o primeiro sinal de entrada X1Çk,m) é dimensionado com o uso de um primeiro dispositivo de dimensionamento de energia 4 para satisfazer algumas restrições de energia predefinidas, o que resulta em um sinal de referência dimensionado Xls(k,m). Os fatores de escala necessários GEx(k,m) são fornecidos pelo provedor de fator de escala 5. A parte do sinal extraído Ü2(k,m) também pode ser dimensionada com o uso de um segundo dispositivo de dimensionamento de energia 6, o que resulta em uma parte de sinal não correlacionado dimensionada Ü2s(k,m). Os fatores de escala correspondentes GEu(k,m) são fornecidos pelo segundo provedor de fator de escala 7. Os fatores de escala GEu(k,m) podem ser determinados de preferência manualmente por um engenheiro de som. Ambos os sinais dimensionados Xls(k,m) e Ü2s(k,m) são somados com o uso de um dispositivo de soma 8 para formar o sinal de downmix XD(k,m] desejado.
[051] A Figura 2 mostra uma descrição do sistema de nível médio do dispositivo proposto 1. Em algumas implementações, o extrator de dissimilaridade 2 consiste em dois subestágios: um estimador de similaridade 9 e um redutor de similaridade 10 conforme retratado na Figura 2. O primeiro sinal de entrada X1Çk,m) e o segundo sinal de entrada X2(k,m) são fornecidos para um estágio de estimativa de similaridade 9, onde as partes de sinal de X1Çk,m) que estão presentes dentro de X2(k,m) são estimadas e representadas pelos coeficientes de filtro resultantes Wk(T) com I = 0...L - 1 e L sendo o comprimento do filtro. Os coeficientes de filtro Wk(l), o primeiro sinal de entrada X1Çk,m) e o segundo sinal de entrada X2(k,m) são fornecidos para o redutor de similaridade 10, onde as partes de sinal de X2(k,m) que são semelhantes a X1Çk,m) são pelo menos parcialmente suprimidas e/ou canceladas, respectivamente. Isso resulta no sinal residual Ü2(k,m), que é uma estimativa para a parte de sinal não correlacionado de X2(k,m) em relação a X1Çk,m).
[052] O modelo de sinal assume o segundo sinal de entrada X2(k,m) como sendo uma mistura de uma versão ponderada ou filtrada W(k,m)X1(k,m) do primeiro sinal de entrada X1Çk,m) e um sinal independente inicialmente desconhecido U2(k,m) com E{X1U^>} = 0. Assim, X2(k,m) é considerado para consistir na soma de uma parte de sinal correlacionado e um não correlacionado em relação a X1Çk,m): X2(k,m) = W'(k,m) ■ X1Çk,m) + U2(k,m) (1)
[053] As letras maiúsculas indicam os sinais transformados por frequência e k e m são os índices de frequência e tempo, respectivamente. Agora, o sinal de downmix XD(k,m) desejado pode ser definido como: XD(k,m) = GEx(k,m)X1(k,m) + GEu(k,m)Ü2(k,m), (2)
[054] onde Ü2(k,m) é uma estimativa de U2(k,m) e onde GEx(k,m) e GEu(k,m) são fatores de dimensionamento para ajustar as energias do sinal de referência X1Çk,m) e da parte do sinal extraído Ü2(k,m) do outro sinal de entrada X2(k,m) de acordo com as restrições predefinidas. Adicionalmente, os mesmos podem ser usados para equalizar os sinais. Em algumas situações, isso pode se tornar necessário, especialmente para Ü2(k,m). No restante desse documento, os índices de frequência por tempo (k, m) serão omitidos por questão de clareza.
[055] O objetivo primordial consiste em obter o componente de sinal U2, que não está correlacionado a X±. Isso pode ser feito ao utilizar um método que é usado na questão do cancelamento de ruído adaptativo, mas com a diferença que não é usado, conforme originalmente pretendido, para cancelar o ruído ou o componente não correlacionado, mas em vez disso, a parte de sinal correlacionado, que resulta na estimativa U2 de U2.
[056] A Figura 3 retrata um redutor de similaridade 10 dotado de um estágio de cancelamento 10a e um combinador 3 da primeira modalidade de tal sistema. A vantagem dessa abordagem é que W é permitido a ser complexo e, então. Os desvios de fase podem ser moldados. U2=X2- (3)
[057] Para determinar Ü2, um ganho complexo estimado W para o ganho complexo inicialmente desconhecido W é necessário. Isso é feito ao minimizar a energia do sinal extraído 02 no sentido da média quadrática mínima (MMS): = £{|X2 WX, |2}
Figure img0001
[058] A definição do derivado parcial de J(W) em relação a W* para zero leva aos coeficientes de filtro desejados, isto é,: !
Figure img0002
[059] Em uma modalidade, o módulo de cancelamento 10a, realçado pelo retângulo tracejado cinza na Figura 3, pode ser substituído por um bloco de cancelamento alinhado por fase inversa 10a’ conforme retratado na Figura 4, em que o estágio de cancelamento 10a’ compreende um dispositivo de desvio de fase 13 configurado para alinhar a fase do segundo sinal de entrada X2 para a fase do primeiro sinal de entrada e um dispositivo de filtro absoluto 11’ configurado para filtrar um primeiro sinal de entrada alinhado (X'2 com o uso de coeficientes de filtro com valor absoluto |W|.
[060] Para a fase oposta do primeiro sinal de entrada e do segundo sinal de entrada X2, além das quedas repentinas de sinal do primeiro sinal de entrada A\, os pulos de fase e os efeitos de cancelamento de sinal podem ocorrer no sinal de downmix XD. Esse efeito pode ser reduzido drasticamente ao alinhar a fase do segundo sinal de entrada X2 para a fase do primeiro sinal de entrada X±. Ademais, apenas o valor absoluto de W é usado para realizar a filtragem de X} e, por isso, o cancelamento também.
[061] A Figura 5 ilustra um redutor de similaridade 10 e um combinador 3 de uma terceira modalidade, em que o redutor de similaridade 10 compreende um estágio de supressão de sinal 10b dotado de um dispositivo de supressão de sinal 14 configurado para multiplicar o segundo sinal de entrada X2 com um fator de ganho de supressão (6) a fim de obter o sinal extraído Ü2
[062] Na prática, o sinal extraído 02 obtido com o uso de (3) pode conter distorções audíveis devido aos erros de estimativa no ganho complexo W. Como uma alternativa, um estimador 9 (vide Figura 2) para obter uma estimativa U2 de U2 no sentido de erro de média quadrática mínima (MMSE) pode ser derivado. A Figura 5 mostra um diagrama de blocos da abordagem proposta.
[063] O sinal extraído 02 é, então, dado por
Figure img0003
[064] A definição do derivado parcial de /(G) em relação a G para zero leva aos ganhos desejados:
Figure img0004
[065] De acordo com (12), pode-se substituir a energia de X2 pela soma das energias da versão filtrada de X±e o sinal não correlacionado U2:
Figure img0005
[066] Para os ganhos de G, isso leva a
Figure img0006
[067] com SNRll2ÍWXíj sendo o SNR a priori de X2. Os ganhos de filtro complexo W foram determinados com o uso de (6).
[068] Em uma modalidade, o módulo de supressão 10b, realçado pelo retângulo cinza tracejado na Figura 5, pode ser substituído por um módulo de supressão alinhado por fase inversa 10b’ que compreende um dispositivo de desvio de fase 15 configurado para alinhar a fase do segundo sinal de entrada X2 para a fase do primeiro sinal de entrada X±.
[069] A Figura 6 ilustra um redutor de similaridade 10b’ dotado de tal dispositivo de desvio de fase 15 como uma quarta modalidade da invenção. Os ganhos de supressão G têm valor real e, portanto, não têm influência nas relações de fase dos dois sinais Xx e X2. Mas uma vez que os coeficientes de filtro W têm que ser estimados de qualquer modo, as informações adicionais sobre a fase relativa entre os sinais de entrada podem ser ganhas. Essas informações podem ser usadas para ajustar a fase de X2 usada para a fase de X±. Isso é feito no bloco de supressão alinhado por fase inversa 10b’; antes de os ganhos de supressão G serem aplicados, a fase de X2 é alternada pela fase estimada de W. Com um alinhamento de fase, o sinal 02 pode ser espresso como
Figure img0007
[070] que mostra o componente residual de Xx dentro de U2 está na fase em relação a Xx contanto que ΔV seja corretamente estimado.
[071] Uma abordagem combinada de usar o cancelamento assim como a supressão de componentes de sinal coerentes é retratada na Figura 7, em que um sinal de saída £/'2.do estágio de cancelamento 10a é fornecido para uma entrada do estágio de supressão de sinal 10b a fim de obter o sinal extraído Í72. O estágio de cancelamento 10a compreende um dispositivo de ponderação configurado para ponderar as partes de sinal obtidas WX± do primeiro sinal de entrada X± que está presente no segundo sinal de entrada x2).
[072] No presente, o sinal de downmix resultante XD é obtido ao realizar um procedimento de cancelamento ponderado, primeiro, e posteriormente ao aplicar um ganho de supressão. O sinal resultante f72 assim como X± é dimensionado por energia como antes. Devido ao fator de ponderação Y, o sinal U'2 após o estágio de cancelamento ainda contém algumas partes de sinal correlacionado a X±. Para reduzir ainda mais essas partes de sinal, deriva-se o ganho de supressão G c para a abordagem combinada:
Figure img0008
[073] O parâmetro y é, em geral, dependente de tempo e frequência, mas também pode ser escolhido como constante. Uma possibilidade para determinar uma dependência de tempo e frequência y é:
Figure img0009
[074] A Figura 8 ilustra um redutor de similaridade 10 e um combinador 3 de uma sexta modalidade. De acordo com essa modalidade, a correlação cruzada normalizada em (19) é fornecida como a entrada para uma função de mapeamento cuja saída pode ser usada para determinar os valores de y atuais. Para o mapeamento, uma função de logística pode ser usada, que pode ser definida como:
Figure img0010
[075] onde i define os dados de entrada, Au e At a assintota superior e inferior, R é a taxa de crescimento, v > 0 influencia a taxa de crescimento máxima próxima da assintota, f0 especifica o valor de saída para /(O) e M é o ponto de dados í do crescimento máximo. Em tal modalidade, y é determinado por
Figure img0011
[076] Em uma modalidade, o módulo de cancelamento alinhado por fase inversa 10a’ pode ser usado no presente documento também com uma pequena modificação. A ponderação com y tem que ser feita de modo análogo após a filtragem com o valor absoluto de W.
[077] Uma sexta modalidade mostrada na Figura 8 compreende uma aplicação mais sofisticada do processamento de fase inversa. Isso afeta apenas os intervalos de tempo e frequência que foram mapeados para serem, principalmente, suprimidos, isto é, y está abaixo de um determinado limite résimo. Por essa razão, um marcador F definido por
Figure img0012
[078] é introduzido.
[079] Em uma modalidade, o módulo de cancelamento alinhado por fase inversa 10a’ pode ser usado no presente documento também com uma pequena modificação. A ponderação com Y tem que ser feita de modo análogo após a filtragem como valor absoluto de W.
[080] Em algumas modalidades, o provedor de fator de escala 7 fornece GEU, pelo qual a quantidade de energia do sinal não correlacionado U2 em relação a Xr. que contribui para o sinal de downmix XD pode ser controlada. Esses fatores de escala GEu podem ser vistos como um equalizador. Em geral, isso é feito dependendo da frequência e, na modalidade preferência, manualmente por um engenheiro de som. Logicamente, muitas das diferentes razões de mistura são possíveis e são altamente dependentes da experiência e/ou do gosto do engenheiro de som. Alternativamente, os fatores de escala GEu podem ser uma função dos sinais Xr, X2 e U2.
[081] Em algumas modalidades, o provedor de fator de escala 4 fornece GEX, pelo qual a quantidade de energia do primeiro sinal de entrada Xr que contribui para o sinal de downmix XD pode ser controlada. Se o processo de downmix tiver que ser conservador de energia (isto é, o sinal de downmix contiver a mesma quantidade de energia que o estéreo sinal original) ou pelo menos se o nível de som percebido tiver que se manter o mesmo, o processamento adicional é necessário. A consideração a seguir com a objeção de manter constante o nível de som percebido das partes de sinal individuais no sinal de downmix. Na modalidade preferencial, a energia é dimensionada de acordo com uma consideração de downmix-energia ideal derivada. Podem ser considerados dois sinais Xf e X2 e supondo-se que estejam altamente correlacionados como seria o caso, por exemplo, de uma fonte estendida de amplitude com ^0. O sinal X2 pode ser expresso como X2 = a • Xf de modo que o sinal de downmix XE resulte em
Figure img0013
[082] A energia de XE é dada por
Figure img0014
[083] Supõe-se, agora, que dois sinais não estejam totalmente correlacionados com E{XIX2*] = 0 . O sinal de downmix XE resulta em
Figure img0015
[084] A energia de XE é dada por
Figure img0016
[085] A partir dessas considerações, pode-se ver que a energia de um downmix ideal das partes de sinal correlacionado resultaria em
Figure img0017
[086] com W correspondendo a a em (23) e para as partes de sinal não correlacionado, uma simples adição da energia tem que ser feita. A energia de downmix ideal final em relação ao modelo de sinal suposto e o sinal de downmix desejado em (1) e (2) resultaria, então, em
Figure img0018
[087] A fim de garantir que XE e XD contêm a mesma quantidade de energia, introduz-se os fatores de dimensionamento de energia GEx e GEu, onde os últimos são fornecidos pelo provedor de fator de escala U2. O sinal de downmix real XD é computado como
Figure img0019
[088] Dada a energia de downmix ideal e GEu, pode-se, agora, derivar GEx conforme segue:
Figure img0020
Figure img0021
[089] Com (12), a parte intermediária da equação (32) é identificada como
Figure img0022
[090] então a mesma se torna
Figure img0023
[091] Para realizar o downmix de múltiplos canais de entrada , , N, uma cascata de múltiplos estágios de downmix de dois canais 1 pode ser usada. Na Figura 9, um exemplo é mostrado para três sinais de entrada , , N.
[092] O sinal de downmix final XD2 para um sistema com dois estágios resulta em
Figure img0024
[093] Os recursos chave de uma modalidade da invenção são: • Considerar X± como um sinal de referência e considerar X2 como uma mistura de uma versão filtrada de X1; e, portanto, uma parte de sinal correlacionado WX± e uma parte de sinal não correlacionado U2 em relação a X±. • Separação/Decomposição de X2 em seus dois componentes de sinal mencionados anteriormente. Extração de dissimilaridade de X±. e X2 por meio de • a estimativa da similaridade de X,. e X2, que resulta em um coeficiente de filtro W e • a redução de similaridade através de cancelamento ou de supressão das partes de sinal correlacionado ou uma combinação de ambos, o que resulta em uma parte de sinal não correlacionado estimada Ü2. • Dimensionamento de energia de Ampara satisfazer um nível de energia predefinido. • Dimensionamento de energia de í72. • Somar os sinais dimensionados por energia para formar o sinal de downmix desejado XD. • Processamento em bandas de frequência. Os recursos de implementação opcionais são: • Supressão alinhada por fase inversa ou cancelamento alinhado por fase inversa. • Cascata de dois ou mais blocos de downmix para realizar um downmix de múltiplos canais. • Supressão alinhada por fase inversa apenas parcialmente aplicada.
[094] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, fica claro que esses aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente.
[095] Dependendo de determinadas exigências de implementação, as modalidades da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada com o uso de um meio de armazenamento não transitório como meio de armazenamento digital, por exemplo, um disco flexível, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM e uma EPROM, uma EEPROM ou uma memória FLASH, que têm sinais de controle eletronicamente legíveis armazenados na mesma, que cooperam (ou têm a capacidade de cooperar) com um sistema de computador programável de tal modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legível por computador.
[096] Algumas modalidades de acordo com a invenção compreendem um portador de dados dotado de sinais de controle eletronicamente legíveis, que têm a capacidade de cooperar com um sistema de computador programável, como aquele dos métodos descritos no presente documento que é realizado.
[097] Em geral, as modalidades da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, sendo que o código de programa é operativo para realizar um dos métodos quando o produto de programa de computador for executado em um computador. O código de programa pode, por exemplo, ser armazenado em um portador legível por máquina.
[098] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos no presente documento, armazenados em um portador legível por máquina.
[099] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador dotado de um código de programa para realizar um dos métodos descritos no presente documento, quando o programa de computador for executado em um computador.
[100] Uma modalidade adicional do método inventivo é, portanto, um portador de dados (ou um meio de armazenamento digital ou um meio legível por computador) que compreende, gravado nos mesmos, o programa de computador para realizar um dos métodos descritos no presente documento. O portador de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangível e/ou não transitório.
[101] Em uma modalidade adicional da invenção, o método é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, através da internet.
[102] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descritos no presente documento.
[103] Uma modalidade adicional compreende um computador que tem instalado no mesmo o programa de computador para realizar um dos métodos descritos no presente documento.
[104] Uma modalidade adicional de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos descritos no presente documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhantes. O aparelho ou o sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador para o receptor.
[105] Em algumas modalidades, um dispositivo lógico programável (por exemplo, um arranjo de porta programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, um arranjo de porta programável em campo pode cooperar com um microprocessador a fim de realizar um dos métodos descritos no presente documento. Em geral, os métodos são preferencialmente realizados por qualquer aparelho de hardware.
[106] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Compreende-se que as modificações e as variações das disposições e dos detalhes descritos no presente documento serão evidentes para outros versados na técnica. Pretende-se, portanto, que seja limitado apenas pelo escopo das reivindicações da patente iminente e não pelos detalhes específicos apresentados por meio de descrição e explicação das modalidades no presente documento.
[107] Referências numéricas: 1 dispositivo de processamento de sinal de áudio 2 extrator de dissimilaridade 3 combinador 4 primeiro dispositivo de dimensionamento de energia 5 primeiro provedor de fator de escala 6 segundo dispositivo de dimensionamento de energia 7 segundo provedor de fator de escala 8 dispositivo de soma 9 estimador de similaridade 10 redutor de similaridade 10a estágio de cancelamento 10a’ estágio de cancelamento 10b estágio de supressão 10b’ estágio de supressão 11 dispositivo de filtro complexo 1 1’ dispositivo de filtro absoluto 12 dispositivo de cancelamento de sinal 13 dispositivo de desvio de fase 14 dispositivo de supressão 15 dispositivo de desvio de fase 16 dispositivo de ponderação primeiro sinal de entrada X2 segundo sinal de entrada XD sinal de downmix U2 sinal extraído GEX primeiro fator de escala Xls um primeiro sinal de entrada dimensionado W coeficientes de filtro WX± partes de sinal do primeiro sinal de entrada que estão presentes no segundo sinal de entrada (X2) X'2 sinal derivado do segundo sinal de entrada Y fator de ponderação yWX} partes de sinal ponderadas do primeiro sinal de entrada que estão presentes no segundo sinal de entrada (X2)
[108] Referências: [1] ITU-R BS.775-2, “Multichannel Stereophonic Sound System With And Without Accompanying Picture”, 07/2006. [2] R. Dressler, (05.08.2004) Dolby Surround Pro Logic II Decoder Principles of Operation. [Online]. Disponível em: http://www.dolby.com/uploadedFiles/Assets/US/Doc/Professional/209_Dolby_S urround_Pro_Logic_II_Decoder_Principles_of_Operation.pdf. [3] K. Lopatka, B. Kunka e A. Czyzewski, “Novel 5.1 Downmix Algorithm with Improved Dialogue Intelligibility”, na 134â Convenção dos AES, 2013. [4] J. Breebaart, K. S. Chong, S. Disch, C. Faller, J. Herre, J. Hilpert, K. Kjorling, J. Koppens, K. Linzmeier, W. Oomen, H. Purnhagen e J. Rodén, “MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding”, J. Audio Eng. Soc, volume 56, no 11, páginas 932 a 955, 2007. [5] M. Neuendorf, M. Multrus, N. Rellerbach, R. J. Fuchs Guillaume, J. Lecomte, Wilde Stefan, S. Bayer, S. Disch, C. Helmrich, R. Lefebvre, P. Gournay, B. Bessette, J. Lapierre, K. Kjorling, H. Purnhagen, L. Villemoes, W. Oomen, E. Schuijers, K. Kikuiri, T. Chinen, T. Norimatsu, C. K. Seng, E. Oh, M. Kim, S. Quackenbush e B. Grill, “MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types”, J. Audio Eng. Soc, volume 13, 2â Convenção, 2012. [6] C. Faller e F. Baumgarte, “Binaural Cue Coding-Part II: Schemes and Applications”, Speech and Audio Processing, IEEE Transactions on, volume 11, no 6, páginas 520 a 531,2003. [7] F. Baumgarte, “Equalization for Audio Mixing”, Patente US 7.039.204 B2, 2003. [8] J. Thompson, A. Warner e B. Smith, “An Active Multichannel Downmix Enhancement for Minimizing Spatial and Spectral Distortions”, na 127â Convenção dos AES, Outubro de 2009. [9] G. Stoll, J. Groh, M. Link, J. Deigmoller, B. Runow, M. Keil, R. Stoll, M. Stoll e C. Stoll, “Method for Generating a Downward-Compatible Sound Format”, Patente US US2012/0 014 526, 2012. [10] B. Runow e J. Deigmoller, “Optimierter Stereo-Dowmix von 5.1- Mehrkanalproduktionen: An optimized Stereo-Downmix of a 5.1 multichannel audio production”, em 25. Tonmeistertagung - VDT International Convention, 2008. [11] Samsudin, E. Kurniawati, Ng Boon Poh, F. Sattar e S. George, “A Stereo to Mono Dowmixing Scheme for MPEG-4 Parametric Stereo Encoder”, em Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on, volume 5, 2006, p. V. 2. [12] M. Kim, E. Oh e H. Shim, “Stereo audio coding improved by phase parameters”, na 129a Convenção da AES, 2010. [13] W. Wu, L. Miao, Y. Lang e D. Virette, “Parametric Stereo Coding Scheme with a New Downmix Method and Whole Band Inter Channel Time/Phase Differences”, Acoustics, Speech and Signal Processing, IEEE Transactions on, páginas 556 a 560, 2013.

Claims (17)

1. Dispositivo de processamento de sinal de áudio (1) para realizar o downmix de um primeiro sinal de entrada (X1) e de um segundo sinal de entrada (X2) para um sinal de downmix (XD), em que o primeiro sinal de entrada (X1) e o segundo sinal de entrada (X2) são pelo menos parcialmente correlacionados, caracterizado por compreender: um extrator de dissimilaridade (2) configurado para receber o primeiro sinal de entrada (X1) e o segundo sinal de entrada (X2) assim como para emitir um sinal extraído (£72), que é menos correlacionado em relação ao primeiro sinal de entrada (X1) do que o segundo sinal de entrada (X2) e um combinador (3) configurado para combinar o primeiro sinal de entrada (X1) e o sinal extraído (U2) a fim de obter o sinal de downmix (XD); em que o extrator de dissimilaridade (2) compreende um estimador de similaridade (9) configurado para fornecer coeficientes de filtro (W, |W|) para obter partes de sinal (WX1, |WX1|) do primeiro sinal de entrada (X1) que está presente no segundo sinal de entrada (X2) a partir do primeiro sinal de entrada (Xi), em que o extrator de dissimilaridade (2) compreende um redutor de similaridade (10) configurado para reduzir as partes de sinal obtidas (WX1, IWX11) do primeiro sinal de entrada que estão presentes no segundo sinal de entrada (X2) com base nos coeficientes de filtro (W, IW|), em que o redutor de similaridade (10) compreende um estágio de supressão de sinal (10b, 10b’) dotado de um dispositivo de supressão de sinal (14) configurado para multiplicar o segundo sinal de entrada (X2) ou um sinal (X'2) derivado do segundo sinal de entrada (X2) com um fator de ganho de supressão (G) a fim de obter o sinal extraído (£72), em que o fator de ganho de supressão (G) é escolhido de tal modo que um erro de média quadrática entre o sinal extraído (£72) e uma parte de sinal (U2) do segundo sinal de entrada (X2), no qual a parte de sinal (U2) que não é correlacionado com o primeiro sinal de entrada (X1), seja minimizado.
2. Dispositivo, de acordo com a reivindicação 1, caracterizado por combinador (3) compreender um sistema de dimensionamento de energia (4, 5, 6, 7) configurado de tal modo que a razão da energia do downmix (JrD) e das energias somadas do primeiro sinal de entrada (X1) e do segundo sinal de entrada (X2) é independente da correlação do primeiro sinal de entrada (X1) e do segundo sinal de entrada (X2).
3. Dispositivo, de acordo com uma das reivindicações 1 e 2, caracterizado por sistema de dimensionamento de energia (4, 5, 6, 7) compreender um primeiro dispositivo de dimensionamento de energia (4) configurado para dimensionar o primeiro sinal de entrada (X1) com base em um primeiro fator de escala (GEx) a fim de obter um sinal de entrada dimensionado (*1s).
4. Dispositivo, de acordo com a reivindicação 3, caracterizado por sistema de dimensionamento de energia (4, 5, 6, 7) compreender um primeiro provedor de fator de escala (5) configurado para fornecer o primeiro fator de escala (GEx), em que o primeiro provedor de fator de escala (5) é preferencialmente projetado como um processador (5) configurado para calcular o primeiro fator de escala (GEx) dependendo do primeiro sinal de entrada (X1), do segundo sinal de entrada (X2) e/ou do sinal extraído (Í72).
5. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado por sistema de dimensionamento de energia (4, 5, 6, 7) compreender um segundo dispositivo de dimensionamento de energia (6) configurado para dimensionar o sinal extraído (Í72) com base em um segundo fator de escala (GEu) a fim de obter um sinal extraído dimensionado (U2s).
6. Dispositivo, de acordo com a reivindicação 5, caracterizado por sistema de dimensionamento de energia (4, 5, 6, 7) compreender segundo um provedor de fator de escala (7) configurado para fornecer o segundo fator de escala (GEu), em que o segundo provedor de fator de escala (7) é preferencialmente projetado como uma interface entre homem e máquina configurada para inserir manualmente o segundo fator de escala (GEu).
7. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por combinador (3) compreender um dispositivo de soma (8) para emitir o sinal de downmix (XD) com base no primeiro sinal de entrada (X1) e com base no sinal extraído (Í72).
8. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por redutor de similaridade (10) compreender um estágio de cancelamento (10a, 10a’) dotado de um dispositivo de cancelamento de sinal (12) configurado para subtrair as partes de sinal obtidas (WX1, |WX1|) do primeiro sinal de entrada (X1) que estão presentes no segundo sinal de entrada (X2) ou um sinal (yWX1) derivado das partes de sinal obtidas ( WX1, | VKX1|) do segundo sinal de entrada (X2) ou de um sinal (X'2) derivado do segundo sinal de entrada (X2).
9. Dispositivo, de acordo com a reivindicação 8, caracterizado por estágio de cancelamento (10a) compreender um dispositivo de filtro complexo (11) configurado para filtrar o primeiro sinal de entrada (X1) com o uso de coeficientes de filtro com valor complexo WW.
10. Dispositivo, de acordo com as reivindicações 8 e 9, caracterizado por estágio de cancelamento (10a’) compreender um dispositivo de desvio de fase (13) configurado para alinhar a fase do segundo sinal de entrada (X2) à fase do primeiro sinal de entrada (X1).
11. Dispositivo, de acordo com qualquer uma das reivindicações 8 a 10, caracterizado por um sinal de saída (£7'2) do estágio de cancelamento (10a) ser fornecido para uma entrada do estágio de supressão de sinal (10b) a fim de obter o sinal extraído (£72), ou em que um sinal de saída do estágio de supressão de sinal (10b) é fornecido para uma entrada do estágio de cancelamento (10a) a fim de obter o sinal extraído (U2).
12. Dispositivo, de acordo com a reivindicação 11, caracterizado por estágio de cancelamento (10a) compreender um dispositivo de ponderação (16) configurado para ponderar as partes de sinal obtidas ( WX1, |WX11) do primeiro sinal de entrada (X1) que estão presentes no segundo sinal de entrada (X2) dependendo de um fator de ponderação (y).
13. Dispositivo, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado por estágio de supressão de sinal (10b’) compreender um dispositivo de desvio de fase (15) configurado para alinhar a fase do segundo sinal de entrada (X2) à fase do primeiro sinal de entrada (X1).
14. Dispositivo, de acordo com as reivindicações 10 e 12, caracterizado por dispositivo de desvio de fase (13) estar configurado para alinhar a fase do segundo sinal de entrada (X2) à fase do primeiro sinal de entrada (X1) dependendo do fator de ponderação (y).
15. Dispositivo, de acordo com a reivindicação 14, caracterizado por dispositivo de desvio de fase (13) estar configurado para alinhar a fase do segundo sinal de entrada (X2) à fase do primeiro sinal de entrada (X1) apenas, se o fator de ponderação (y) for menor ou igual a um limite predefinido (f).
16. Sistema de processamento de sinal de áudio para realizar downmix de uma pluralidade de sinais de entrada (X1, X2, X3) para um sinal de downmix (XD2) caracterizado por compreender pelo menos um primeiro dispositivo (1) de acordo com uma das reivindicações anteriores e um segundo dispositivo (1’) de acordo com uma das reivindicações anteriores, em que o sinal de downmix (XD1) do primeiro dispositivo é fornecido para o segundo dispositivo como um primeiro sinal de entrada (XD1) ou como um segundo sinal de entrada.
17. Método de processamento de sinal de áudio para downmix de um primeiro sinal de entrada (X1) e de um segundo sinal de entrada (X2) para um sinal de downmix (XD) caracterizado por compreender as etapas de: extrair um sinal (Í72) do segundo sinal de entrada (X2), que é menos correlacionado em relação ao primeiro sinal de entrada (X1) do que o segundo sinal de entrada (X2) somar o primeiro sinal de entrada (X1) e o sinal extraído (Í72) a fim de obter o sinal de downmix (XD) fornecer coeficientes de filtro (IV, |VK|) para obter partes de sinal (WX1, |WX1|) do primeiro sinal de entrada (X1) que está presente no segundo sinal de entrada (X2) do primeiro sinal de entrada (X1), reduzir as partes de sinal obtidas (WX1, |WX1|) do primeiro sinal de entrada presentes no segundo sinal de entrada (X2) com base nos coeficientes de filtro (W, |W|), multiplicar o segundo sinal de entrada (X2) ou um sinal (X'2) derivado do segundo sinal de entrada (X2) com um fator de ganho de supressão (G) a fim de obter o sinal extraído (Í72), em que o fator de ganho de supressão (G) é escolhido de tal modo que um erro de média quadrática entre o sinal extraído (Í72) e uma parte de sinal (U2) do segundo sinal de entrada (X2), no qual a parte de sinal (U2) que não é correlacionado com o primeiro sinal de entrada (X1), seja minimizado.
BR112016006323-6A 2013-09-27 2014-09-02 Conceito para gerar um sinal de downmix BR112016006323B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13186480 2013-09-27
EP13186480.3 2013-09-27
EP14161059.2A EP2854133A1 (en) 2013-09-27 2014-03-21 Generation of a downmix signal
EP14161059.2 2014-03-21
PCT/EP2014/068611 WO2015043891A1 (en) 2013-09-27 2014-09-02 Concept for generating a downmix signal

Publications (2)

Publication Number Publication Date
BR112016006323A2 BR112016006323A2 (pt) 2017-08-01
BR112016006323B1 true BR112016006323B1 (pt) 2021-12-14

Family

ID=50442340

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016006323-6A BR112016006323B1 (pt) 2013-09-27 2014-09-02 Conceito para gerar um sinal de downmix

Country Status (11)

Country Link
US (1) US10021501B2 (pt)
EP (2) EP2854133A1 (pt)
JP (1) JP6275831B2 (pt)
KR (1) KR101833380B1 (pt)
CN (1) CN105765652B (pt)
BR (1) BR112016006323B1 (pt)
CA (1) CA2925230C (pt)
ES (1) ES2649481T3 (pt)
MX (1) MX359381B (pt)
RU (1) RU2661310C2 (pt)
WO (1) WO2015043891A1 (pt)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6817433B2 (ja) * 2016-11-08 2021-01-20 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 少なくとも2つのチャンネルをダウンミックスするためのダウンミキサおよび方法ならびにマルチチャンネルエンコーダおよびマルチチャンネルデコーダ
WO2019076739A1 (en) * 2017-10-16 2019-04-25 Sony Europe Limited AUDIO PROCESSING
CN110060696B (zh) * 2018-01-19 2021-06-15 腾讯科技(深圳)有限公司 混音方法及装置、终端及可读存储介质
CN110556116B (zh) * 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5832840B2 (ja) * 1977-09-10 1983-07-15 日本ビクター株式会社 立体音場拡大装置
US4975954A (en) * 1987-10-15 1990-12-04 Cooper Duane H Head diffraction compensated stereo system with optimal equalization
US4893342A (en) * 1987-10-15 1990-01-09 Cooper Duane H Head diffraction compensated stereo system
WO2004103023A1 (ja) * 1995-09-26 2004-11-25 Ikuichiro Kinoshita 仮想音像定位用伝達関数表作成方法、その伝達関数表を記録した記憶媒体及びそれを用いた音響信号編集方法
DE69631955T2 (de) * 1995-12-15 2005-01-05 Koninklijke Philips Electronics N.V. Verfahren und schaltung zur adaptiven rauschunterdrückung und sendeempfänger
US5715319A (en) * 1996-05-30 1998-02-03 Picturetel Corporation Method and apparatus for steerable and endfire superdirective microphone arrays with reduced analog-to-digital converter and computational requirements
US6243476B1 (en) * 1997-06-18 2001-06-05 Massachusetts Institute Of Technology Method and apparatus for producing binaural audio for a moving listener
JP3526185B2 (ja) * 1997-10-07 2004-05-10 パイオニア株式会社 記録情報再生装置におけるクロストーク除去装置
CA2365529C (en) * 1999-04-07 2011-08-30 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
US7039204B2 (en) 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
CN101197798B (zh) * 2006-12-07 2011-11-02 华为技术有限公司 信号处理系统、芯片、外接卡、滤波、收发装置及方法
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
CN101809654B (zh) * 2007-04-26 2013-08-07 杜比国际公司 供合成输出信号的装置和方法
KR101434200B1 (ko) * 2007-10-01 2014-08-26 삼성전자주식회사 혼합 사운드로부터의 음원 판별 방법 및 장치
MX2010004220A (es) * 2007-10-17 2010-06-11 Fraunhofer Ges Forschung Codificacion de audio usando mezcla descendente.
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
DE102008056704B4 (de) 2008-11-11 2010-11-04 Institut für Rundfunktechnik GmbH Verfahren zum Erzeugen eines abwärtskompatiblen Tonformates
EP2214161A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
MX2011006248A (es) 2009-04-08 2011-07-20 Fraunhofer Ges Forschung Aparato, metodo y programa de computacion para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavizacion de valor de fase.
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
JP5533502B2 (ja) * 2010-09-28 2014-06-25 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
CN103348408B (zh) * 2011-02-10 2015-11-25 杜比实验室特许公司 噪声和位置外信号的组合抑制方法和系统
KR101662680B1 (ko) * 2012-02-14 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티-채널 오디오 신호의 적응적 다운-믹싱 및 업-믹싱을 수행하기 위한 방법 및 장치
JP2013207487A (ja) 2012-03-28 2013-10-07 Nec Corp 携帯端末不正利用防止システム

Also Published As

Publication number Publication date
BR112016006323A2 (pt) 2017-08-01
RU2016116285A (ru) 2017-11-01
CA2925230C (en) 2018-08-14
US20160212561A1 (en) 2016-07-21
MX2016003504A (es) 2016-07-06
CN105765652B (zh) 2019-11-19
JP2016538578A (ja) 2016-12-08
US10021501B2 (en) 2018-07-10
ES2649481T3 (es) 2018-01-12
KR20160067099A (ko) 2016-06-13
CN105765652A (zh) 2016-07-13
RU2661310C2 (ru) 2018-07-13
EP3050054A1 (en) 2016-08-03
EP2854133A1 (en) 2015-04-01
JP6275831B2 (ja) 2018-02-07
CA2925230A1 (en) 2015-04-02
MX359381B (es) 2018-09-25
WO2015043891A1 (en) 2015-04-02
EP3050054B1 (en) 2017-10-18
KR101833380B1 (ko) 2018-02-28

Similar Documents

Publication Publication Date Title
JP7156986B2 (ja) 無相関化信号の寄与の残差信号ベースの調整を用いたマルチチャンネルオーディオデコーダ、マルチチャンネルオーディオエンコーダ、方法およびコンピュータプログラム
JP6279077B2 (ja) 適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制
JP5604933B2 (ja) ダウンミクス装置およびダウンミクス方法
US10163446B2 (en) Audio encoder and decoder
BRPI1005299B1 (pt) aparelho e método para realizar o upmmix em um sinal de áudio downmix
TWI665660B (zh) 用以降混至少兩聲道之降混器與方法及多聲道編碼器與多聲道解碼器
BR112016006323B1 (pt) Conceito para gerar um sinal de downmix
JP6248186B2 (ja) オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 02/09/2014, OBSERVADAS AS CONDICOES LEGAIS.