BR112019009944A2 - aparelho e método para decompor um sinal de áudio e programa de computador - Google Patents

aparelho e método para decompor um sinal de áudio e programa de computador Download PDF

Info

Publication number
BR112019009944A2
BR112019009944A2 BR112019009944A BR112019009944A BR112019009944A2 BR 112019009944 A2 BR112019009944 A2 BR 112019009944A2 BR 112019009944 A BR112019009944 A BR 112019009944A BR 112019009944 A BR112019009944 A BR 112019009944A BR 112019009944 A2 BR112019009944 A2 BR 112019009944A2
Authority
BR
Brazil
Prior art keywords
signal
block
foreground
characteristic
blocks
Prior art date
Application number
BR112019009944A
Other languages
English (en)
Inventor
adami Alexander
Ghido Florin
Herre Jürgen
Disch Sascha
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of BR112019009944A2 publication Critical patent/BR112019009944A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/035Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

trata-se de um aparelho para decompor um sinal de áudio (100) em um sinal de componente de segundo plano (140) e um sinal de componente de primeiro plano (150), que compreende: um gerador de bloco (110) para gerar uma sequência temporal de blocos de valores de sinal de áudio; um analisador de sinal de áudio (120) para determinar uma característica de bloco de um bloco atual do sinal de áudio e para determinar uma característica média para um grupo de blocos, sendo que o grupo de blocos compreende pelo menos dois blocos; e um separador (130) para separar o bloco atual em uma porção de segundo plano e uma porção de primeiro plano em resposta a uma razão da característica de bloco do bloco atual e da característica média do grupo de blocos, sendo que o sinal de componente de segundo plano (140) compreende a porção de segundo plano do bloco atual e o sinal de componente de primeiro plano (150) compreende a porção de primeiro plano do bloco atual.

Description

Relatório Descritivo da Patente de Invenção para “APARELHO E MÉTODO PARA
DECOMPOR UM SINAL DE ÁUDIO E PROGRAMA DE COMPUTADOR” RELATÓRIO DESCRITIVO [001] A presente invenção refere-se ao processamento de áudio e, em particular, à decomposição de sinais de áudio em um sinal de componente de segundo plano e um sinal de componente de primeiro plano.
[002] Uma quantidade significativa de referências direcionadas ao processamento de sinal de áudio existem, em que algumas dessas referências se referem à decomposição de sinal de áudio. Referências exemplificativas são:
[1] S. Disch e A. Kuntz, A Dedicated Decorrelator for Parametric Spatial Coding of Applause-Like Audio Signals. Springer-Verlag, janeiro de 2012, páginas 355 a 363.
[2] A. Kuntz, S. Disch, T. Bãckstrõm, e J. Robilliard, “The Transient Steering Decorrelator Tool in the Upcoming MPEG Unified Speech and Audio Coding Standard,” em 131st Convention of the AES, Nova Iorque, E.U.A., 2011.
[3] A. Walther, C. Uhle, e S. Disch, “Using Transient Suppression in Blind Multi-channel Upmix Algorithms,” em Proceedings, 122nd AES Pro Audio Expo and Convention, maio de 2007.
[4] G. Hotho, S. van de Par, e J. Breebaart, “Multichannel coding of applause signals”, EURASIP J. Adv. Signal Process, volume 2008, Janeiro de 2008. [Online]. Disponível: http://dx.doi.org/10.1155/2008/531693 [5] D. FitzGerald, “Harmonic/Percussive Separation Using Median Filtering,” em Proceedings of the 13th International Conference on Digital Audio Effects (DAFx-10), Graz, Áustria, 2010.
[6] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies, e Μ. B. Sandler, “A Tutorial on Onset Detection in Music Signals,” IEEE Transactions on Speech and Audio Processing, volume 13, n2 5, páginas 1.035 a 1.047, 2005.
[7] M. Goto e Y. Muraoka, “Beat tracking based on multiple-agent architecture - a real-time beat tracking system for audio signals,” em Proceedings of
Petição 870190045735, de 15/05/2019, pág. 135/200
2/41 the 2nd International Conference on Multiagent Systems, 1996, páginas 103 a 110.
[8] A. Klapuri, “Sound onset detection by applying psychoacoustic knowledge,” em Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP), volume 6, 1999, páginas 3.089 a 3.092, volume 6. [003] Ademais, o documento n2 WO 2010017967 revela um aparelho para determinar um sinal de áudio de múltiplos canais de saída espacial com base em urn sinal de áudio de entrada que compreende urn decompositor semântico para decompor o sinal de áudio de entrada em um primeiro sinal decomposto que é uma parte de sinal de primeiro plano e em um segundo sinal decomposto que é uma parte de sinal de segundo plano. Ademais, um renderizador é configurado para renderizar a parte de sinal de primeiro plano com o uso de movimento panorâmico de amplitude e para renderizar a parte de sinal de segundo plano por decorrelação. Finalmente, o primeiro sinal renderizado e o segundo sinal renderizado são processados de modo a obter um sinal de áudio de múltiplos canais de saída espacial.
[004] Ademais, as referências [1] e [2] revelam um decorrelacionador de direcionamento transiente.
[005] O pedido europeu n2 16156200.4 ainda não publicado revela um processamento de envelope de alta resolução. O processamento de envelope de alta resolução é uma ferramenta para codificação melhorada de sinais que consistem, predominantemente, em diversos eventos transientes densos, tais como aplausos, sons de chuva, etc. Em um lado de codificador, a ferramenta funciona como um préprocessador com alta resolução temporal antes do codec de áudio perceptual real analisando-se o sinal de entrada, atenuando-se e, assim, temporalmente comprimindo-se a parte de alta frequência dos eventos transientes e gerando-se uma pequena quantidade de informações laterais, tal como 1 a 4 kbps para sinais estéreos. No lado de decodificador, a ferramenta funciona como um pós-processador após o codec de áudio intensificando-se e, assim, conformando-se temporalmente a parte de alta frequência de eventos transientes, fazendo uso das informações laterais que foram geradas durante a codificação.
Petição 870190045735, de 15/05/2019, pág. 136/200
3/41 [006] Mixagem de aumento normalmente envolve uma decomposição de sinal em partes de sinal direto e ambiente, em que o sinal direto é panoramizado entre altofalantes e a parte ambiente é decorrelacionada e distribuída através do dado número de canais. Componentes diretos restantes, como transientes, dentro dos sinais ambiente resultou em uma deficiência do ambiente percebido resultante no cenário de som mixado de aumento. Em [3] um processamento e detecção transiente é proposto, o que reduz transientes detectados dentro do sinal ambiente. Um método proposto para detecção transiente compreende uma comparação entre uma soma de frequência ponderada de compartimentos em um bloco de tempo e uma média de execução de longa duração ponderada para decidir se um determinado bloco deve ser suprimido ou não.
[007] Em [4], codificação de áudio espacial eficiente de sinais de aplauso é abordada. Os métodos de mixagem de redução e aumento propostos funcionam todos para um sinal de aplauso completo.
[008] Ademais, a referência [5] revela uma separação harmônica/percussiva, em que sinais são separados em componentes de sinal harmônico e percussive aplicando-se filtros medianos ao espectrograma na direção horizontal e vertical.
[009] A referência [6] representa um tutorial que compreende abordagens de domínio de frequência, abordagens de domínio de tempo, tais como um seguidor de envelope ou um seguidor de energia no contexto de detecção de início. A referência [7] revela rastreio de potência no domínio de frequência, tal como um aumento rápido de potência e a referência [8] revela uma nova medida para o propósito da detecção de início.
[010] A separação de um sinal em uma parte de sinal de primeiro plano e segundo plano, conforme descrito nas referências da técnica anterior, é desvantajosa devido ao fato de que tais procedimentos conhecidos podem resultar em uma qualidade de áudio reduzida de um sinal resultante ou de sinais decompostos.
[011] É um objetivo da presente invenção fornecer um conceito melhorado com o propósito de decompor um sinal de áudio em um sinal de componente de segundo
Petição 870190045735, de 15/05/2019, pág. 137/200
4/41 plano e um sinal de componente de primeiro plano.
[012] Esse objetivo é alcançado através de um aparelho para decompor um sinal de áudio em um sinal de componente de segundo plano e um sinal de componente de primeiro plano, em conformidade com a reivindicação 1, um método para decompor um sinal de áudio em um sinal de componente de segundo plano e um sinal de componente de primeiro plano, em conformidade com a reivindicação 22, ou através de um programa de computador, em conformidade com a reivindicação 23.
[013] Em um aspecto, um aparelho para decompor um sinal de áudio em um sinal de componente de segundo plano e um sinal de componente de primeiro plano compreende um gerador de bloco para gerar uma sequência temporal de blocos de valores de sinal de áudio, um analisador de sinal de áudio conectado ao gerador de bloco e um separador conectado ao gerador de bloco e ao analisador de sinal de áudio. Em conformidade com um primeiro aspecto, o analisador de sinal de áudio é configurado para determinar uma característica de bloco de um bloco atual do sinal de áudio e uma característica média para um grupo de blocos, sendo que o grupo de blocos compreende pelo menos dois blocos, tais como um bloco anterior, o bloco atual e um bloco seguinte ou ainda blocos mais anteriores ou blocos mais seguintes.
[014] O separador é configurado para separar o bloco atual em uma porção de segundo plano e uma porção de primeiro plano em resposta a uma razão da característica de bloco do bloco atual e da característica média. Assim, o sinal de componente de segundo plano compreende a porção de segundo plano do bloco atual e o sinal de componente de primeiro plano compreende a porção de primeiro plano do bloco atual. Portanto, o bloco atual não é simplesmente decidido como de segundo plano ou primeiro plano. Em vez disso, o bloco atual é, na realidade, separado em uma porção de segundo plano diferente de zero e uma porção de primeiro plano diferente de zero. Esse procedimento reflete a situação de que, tipicamente, um sinal de primeiro plano nunca existe sozinho em um sinal, mas, sempre combinado com um componente de sinal de segundo plano. Assim, a presente invenção, em conformidade com esse primeiro aspecto, reflete a situação em que
Petição 870190045735, de 15/05/2019, pág. 138/200
5/41 independentemente de uma limitação determinada ser ou não realizada, a separação real seja sem nenhum limiar ou quando um determinado limiar é alcançado pela razão, uma porção de segundo plano adicionalmente à porção de primeiro plano sempre permanece.
[015] Ademais, a separação é realizada por uma medida de separação muito específica, isto é, a razão de uma característica de bloco do bloco atual e a característica média derivada de pelo menos dois blocos, isto é, derivada do grupo de blocos. Assim, dependendo do tamanho do grupo de blocos, uma média móvel de alteração bem lenta ou uma média móvel de alteração bem rápida podem ser definidas. Para um alto número de blocos no grupo de blocos, a média móvel se altera de maneira relativamente lenta enquanto, para um número pequeno de blocos no grupo de blocos, a média móvel se altera de maneira bem rápida. Ademais, a utilização de uma relação entre uma característica do bloco atual e uma característica média sobre o grupo de blocos reflete uma situação perceptiva, isto é, em que indivíduos percebem que um determinado bloco compreende um componente de primeiro plano quando uma razão entre uma característica desse bloco, com relação a uma média, está em um determinado valor. Em conformidade com esse aspecto, no entanto, esse determinado valor não necessariamente deve ser um limiar. Em vez disso, a própria razão já pode ser usada para realizar uma separação quantitativa do bloco atual em uma porção de segundo plano e uma porção de primeiro plano. Uma alta razão resulta em uma alta porção do bloco atual que é uma porção de primeiro plano, enquanto uma baixa razão resulta na situação em que a maior parte ou todo o bloco atual permanece na porção de segundo plano e o bloco atual apenas tem uma pequena porção de primeiro plano ou não tem nenhuma porção de primeiro plano.
[016] Preferencialmente, uma característica relacionada à amplitude é determinada e essa característica relacionada à amplitude, tal como uma energia do bloco atual é comparada a uma energia média do grupo de blocos para se obter a razão, com base nisso a separação é realizada. De modo certificar que, em resposta a uma separação, um sinal de segundo plano permanece, um fator de ganho é
Petição 870190045735, de 15/05/2019, pág. 139/200
6/41 determinado e esse fator de ganho, então, controla quando da energia média de um determinado bloco permanece dentro do sinal de segundo plano ou semelhante a ruído e qual porção vai para a porção de sinal de primeiro plano que pode, por exemplo, ser um sinal transiente, tal como um sinal de palma ou um sinal de chuva ou semelhantes.
[017] Em um segundo aspecto adicional da presente invenção que pode ser usado adicionalmente ao primeiro aspecto ou separado do primeiro aspecto, o aparelho para decompor o sinal de áudio compreende um gerador de bloco, um analisador de sinal de áudio e um separador. O analisador de sinal de áudio é configurado para analisar a característica do bloco atual do sinal de áudio. A característica do bloco atual do sinal de áudio pode ser a razão, conforme abordado com relação ao primeiro aspecto, porém, alternativamente, também pode ser uma característica de bloco derivada apenas do bloco atual sem nenhuma promediação. Ademais, o analisador de sinal de áudio é configurado para determinar uma variabilidade da característica dentro de um grupo de blocos, sendo que o grupo de blocos compreende pelo menos dois blocos e preferencialmente pelo menos dois blocos anteriores com ou sem o bloco atual ou pelo menos dois blocos seguintes com ou sem o bloco atual ou pelo menos ambos os dois blocos anteriores, pelo menos dois blocos seguintes, novamente com ou sem o bloco atual. Em modalidades preferenciais, o número de blocos é maior que 30 ou mesmo 40.
[018] Ademais, o separador é configurado para separar o bloco atual na porção de segundo plano e na porção de primeiro plano, sendo que esse separador é configurado para determinar um limiar de separação com base na variabilidade determinada pelo analisador de sinal e para separar o bloco atual quando a característica do bloco atual está em uma relação predeterminada com o limiar de separação, tal como maior ou igual ao limiar de separação. Naturalmente, quando o limiar é definido de modo a ser um tipo de valor inverso, então, a relação predeterminada pode ser uma relação menor que a relação ou uma relação menor ou igual a relação. Assim, a limitação é sempre realizada de uma tal maneira que quando
Petição 870190045735, de 15/05/2019, pág. 140/200
7/41 a característica estiver dentro de uma relação predeterminada com o limiar de separação, então, a separação na porção de segundo plano e na porção de primeiro plano será realizada enquanto, quando a característica não estiver dentro da relação predeterminada com o limiar de separação, então, uma separação não será realizada. [019] Em conformidade com o segundo aspecto que usa o limiar variável dependendo da variabilidade da característica dentro do grupo de blocos, a separação pode ser uma separação completa, isto é, em que o bloco todo de valores de sinal de áudio é introduzido no componente de primeiro plano quando uma separação é realizada ou o bloco todo de valores de sinal de áudio se assemelha a uma porção de sinal de segundo plano quando a relação predeterminada, com relação ao limiar de separação variável, não é cumprido. Em uma modalidade preferencial esse aspecto é combinado com o primeiro aspecto, em que assim que o limiar variável se encontra em uma relação predeterminada com a característica, então, uma separação não binária é realizada, isto é, em que apenas uma porção dos valores de sinal de áudio é colocada na porção de sinal de primeiro plano e uma porção restante é deixada no sinal de segundo plano.
[020] Preferencialmente, a separação da porção para a porção de sinal de primeiro plano e a porção de sinal de segundo plano é determinada com base em um fator de ganho, isto é, os mesmos valores de sinal estão, por fim, dentro da porção de sinal de primeiro plano e da porção de sinal de segundo plano, porém, as energias dos valores de sinal dentro das diferentes porções são diferentes umas das outras e são determinadas por um ganho de separação que, por fim, depende da característica, tal como a característica de bloco do próprio bloco atual ou a razão para o bloco atual entre a característica de bloco para o bloco atual e uma característica média para o grupo de blocos associado ao bloco atual.
[021] A utilização de um limiar variável reflete a situação em que indivíduos percebem uma porção de sinal de primeiro plano mesmo como um pequeno desvio de um sinal bastante estacionário, isto é, quando um determinado sinal é considerado bastante estacionário, isto é, não tem flutuações significativas. Então, mesmo uma
Petição 870190045735, de 15/05/2019, pág. 141/200
8/41 pequena flutuação já é percebida como uma porção de sinal de primeiro plano. No entanto, quando há um sinal de flutuação forte, então, parece que o próprio sinal de flutuação forte é percebido para ser o componente de sinal de segundo plano e um pequeno desvio desse padrão de flutuações não é percebido como uma porção de sinal de primeiro plano. Apenas desvios mais fortes do valor médio ou esperado são percebidos como uma porção de sinal de primeiro plano. Assim, é preferencial o uso de um limiar de separação bem pequeno para sinais com uma pequena variação e o uso de um limiar de separação superior para sinais com uma alta variação. No entanto, quando valores inversos são considerados, a situação é oposta ao citado acima.
[022] Ambos os aspectos, isto é, o primeiro aspecto que tem uma separação não binária na porção de sinal de primeiro plano e na porção de sinal de segundo plano, com base na razão entre a característica de bloco e a característica média, e o segundo aspecto que compreende um limiar variável dependendo da variabilidade da característica dentro do grupo de blocos, podem ser usados separadamente ou pode, até mesmo, ser usados juntos, isto é, em combinação. A última alternativa constitui uma modalidade preferencial, conforme descrito mais adiante.
[023] Modalidades da invenção são referem a um sistema em que um sinal de entrada é decomposto em dois componentes de sinal aos quais o processamento individual pode ser aplicado e em que os sinais processados são ressintetizados para formar um sinal de saída. Sinais de aplauso e também outros sinais transientes podem ser vistos como uma sobreposição de eventos de palmas transientes distinta e individualmente perceptíveis e um sinal mais semelhante a ruído de segundo plano. De modo a modificar características, tais como a razão de densidade de sinal de primeiro plano e segundo plano, etc., de tais sinais, é vantajoso ter capacidade para aplicar um processamento individual em cada parte de sinal. Adicionalmente, uma separação de sinal motivada pela percepção humana é obtida. Ademais, o conceito também pode ser usado como um dispositivo de medição para medir características de sinal, tal como em um local emissor, e para restaurar aquelas características em um local receptor.
Petição 870190045735, de 15/05/2019, pág. 142/200
9/41 [024] Modalidades da presente invenção não visam exclusivamente a geração de um sinal de saída espacial de múltiplos canais. Um sinal de entrada mono é decomposto e partes de sinal individuais são processadas e ressintetizadas em um sinal de saída mono. Em algumas modalidades o conceito, conforme definido no primeiro ou no segundo aspecto, emite medidas ou informações laterais em vez de um sinal sonoro.
[025] Adicionalmente, uma separação ocorre com base em um aspecto perceptive e preferencialmente em uma característica ou valor quantitativo em vez de um aspecto semântico.
[026] Em conformidade com modalidades, a separação é com base em um desvio de uma energia instantânea com relação a uma energia média dentro de um período de tempo considerado curto. Embora um evento transiente com um nível de energia próximo ou abaixo da média de energia em tal período de tempo não seja percebido como substancialmente diferente do segundo plano, eventos com um alto desvio de energia podem ser distinguidos do sinal de segundo plano. Esse tipo de separação de sinal adota o princípio e permite o processamento mais próximo à percepção humana de eventos transientes e mais próximo à percepção humana de eventos de primeiro plano sobre eventos de segundo plano.
[027] Subsequentemente, modalidades preferenciais da presente invenção serão abordadas com relação aos desenhos anexos, nos quais:
A Figura 1a é um diagrama de blocos de um aparelho para decompor um sinal de áudio que depende de uma razão, em conformidade com um primeiro aspecto;
A Figura 1 b é um diagrama de blocos de uma modalidade de um conceito para decompor um sinal de áudio que depende de um limiar de separação variável, em conformidade com um segundo aspecto;
A Figura 1c ilustra um diagrama de blocos de um aparelho para decompor um sinal de áudio, em conformidade com o primeiro aspecto, o segundo aspecto ou ambos os aspectos;
Petição 870190045735, de 15/05/2019, pág. 143/200
10/41
A Figura 1d ilustra uma ilustração preferencial do analisador de sinal de áudio e do separador, em conformidade com o primeiro aspecto, o segundo aspecto ou ambos os aspectos;
A Figura 1e ilustra uma modalidade do separador de sinal, em conformidade com o segundo aspecto;
A Figura 1f ilustra uma descrição do conceito para decompor um sinal de áudio, em conformidade com o primeiro aspecto, o segundo aspecto e com referência aos diferentes limiares;
A Figura 2 ilustra duas maneiras diferentes para separar valores de sinal de áudio do bloco atual em um componente de primeiro plano e um componente de segundo plano, em conformidade com o primeiro aspecto, o segundo aspecto ou ambos os aspectos;
A Figura 3 ilustra uma representação esquemática de blocos sobrepostos gerados pelo gerador de bloco e a geração de sinais de componente de primeiro plano e sinais de componente de segundo plano de domínio de tempo subsequentes a uma separação;
A Figura 4a ilustra uma primeira alternativa para determinar um limiar variável com base em uma suavização de variabilidades brutas;
A Figura 4b ilustra uma determinação de um limiar variável com base em uma suavização de limiares brutos;
A Figura 4c ilustra diferentes funções para mapear variabilidades (suavizadas) em limiares;
A Figura 5 ilustra uma implantação preferencial para determinar a variabilidade, conforme necessário no segundo aspecto;
A Figura 6 ilustra uma visão geral sobre a separação, um processamento de primeiro plano e um processamento de segundo plano e uma ressíntese de sinal subsequente;
A Figura 7 ilustra uma medição e restauração de características de sinal com ou sem metadados; e
Petição 870190045735, de 15/05/2019, pág. 144/200
11/41
A Figura 8 ilustra um diagrama de blocos para um caso de uso de codificador-decodificador.
[028] A Figura 1a ilustra um aparelho para decompor um sinal de áudio em um sinal de componente de segundo plano e um sinal de componente de primeiro plano. O sinal de áudio é inserido em uma entrada de sinal de áudio 100. A entrada de sinal de áudio é conectada a um gerador de bloco 110 para gerar uma sequência temporal de blocos de saída de valores de sinal de áudio na linha 112. Ademais, o aparelho compreende um analisador de sinal de áudio 120 para determinar uma característica de bloco de um bloco atual do sinal de áudio e para determinar, adicionalmente, uma característica média para um grupo de blocos, sendo que o grupo de blocos compreende pelo menos 2 blocos. Preferencialmente, o grupo de blocos compreende pelo menos um bloco anterior ou pelo menos um bloco seguinte, e, adicionalmente, o bloco atual.
[029] Ademais, o aparelho compreende um separador 130 para separar o bloco atual em uma porção de segundo plano e uma porção de primeiro plano, em resposta a uma razão da característica de bloco do bloco atual e da característica média. Assim, a razão da característica de bloco do bloco atual e da característica média é usada como uma característica, com base nisso a separação do bloco atual de valores de sinal de áudio é realizada. Particularmente, o sinal de componente de segundo plano na saída de sinal 140 compreende a porção de segundo plano do bloco atual, e a saída de sinal de componente de primeiro plano na saída de sinal de componente de primeiro plano 150 compreende a porção de primeiro plano do bloco atual. O procedimento ilustrado na Figura 1a é realizado na base de bloco em bloco, isto é, um bloco da sequência temporal de blocos é processado após o outro, de modo que, por fim, quando uma sequência de blocos de valores de entrada de sinal de áudio na entrada 100 for processada, uma sequência correspondente de blocos do sinal de componente de segundo plano e uma sequência igual de blocos do sinal de componente de primeiro plano existam nas linhas 140, 150, conforme será abordado posteriormente com relação à Figura 3.
Petição 870190045735, de 15/05/2019, pág. 145/200
12/41 [030] Preferencialmente, o analisador de sinal de áudio é configurado para analisar uma medida relacionada à amplitude como a característica de bloco do bloco atual e, adicionalmente, o analisador de sinal de áudio 120 também é configurado para analisar, adicionalmente, a característica relacionada à amplitude para o grupo de blocos.
[031] Preferencialmente, uma medida de potência ou uma medida de energia para o bloco atual e uma medida de potência média ou uma medida de energia média para o grupo de blocos é determinada pelo analisador de sinal de áudio, e uma razão entre esses dois valores para o bloco atual é usada pelo separador 130 para realizar a separação.
[032] A Figura 2 ilustra um procedimento realizado pelo separador 130 da Figura 1 a, em conformidade com o primeiro aspecto. A etapa 200 representa a determinação da razão, em conformidade com o primeiro aspecto, ou da característica, em conformidade com o segundo aspecto, que não deve necessariamente ser uma razão, porém, também pode ser uma característica de bloco sozinha, por exemplo.
[033] Na etapa 202, um ganho de separação é calculado a partir da razão ou da característica. Então, uma comparação de limiar na etapa 204 pode ser realizada opcionalmente. Quando uma comparação de limiar é realizada na etapa 204, então, o resultado pode ser que a característica está em uma relação predeterminada com o limiar. Quando esse é o caso, o controle avança para a etapa 206. Quando, no entanto, é determinado na etapa 204 que a característica não tem relação com o limiar predeterminado, então, nenhuma separação é realizada e o controle avança para o próximo bloco na sequência de blocos.
[034] Em conformidade com o primeiro aspecto, uma comparação de limiar na etapa 204 pode ser realizada ou pode, alternativamente, não ser realizada, conforme ilustrado pela linha tracejada 208. Quando é determinado no bloco 204 que a característica está em uma relação predeterminada com o limiar de separação ou, na alternativa da linha 208, em todo caso, a etapa 206 é realizada, em que os sinais de áudio são ponderados com o uso de um ganho de separação. Com essa finalidade, a
Petição 870190045735, de 15/05/2019, pág. 146/200
13/41 etapa 206 recebe os valores de sinal de áudio de um sinal de áudio de entrada em uma representação temporal ou, preferencialmente, uma representação espectral, conforme ilustrado pela linha 210. Então, dependendo da aplicação do ganho de separação, o componente de primeiro plano C é calculado, conforme ilustrado pela equação diretamente abaixo da Figura 2. Especificamente, o ganho de separação, que é uma função de gN e a razão não são usados diretamente, porém, de uma forma diferente, isto é, a função é subtraída por 1. Alternativamente, o componente de segundo plano N pode ser diretamente calculado ponderando-se, na realidade, o sinal de áudio A(k,n) pela função de gi\i/n).
[035] A Figura 2 ilustra diversas possibilidade para calcular o componente de primeiro plano e o componente de segundo plano, em que todas podem ser realizadas pelo separador 130. Uma possibilidade é que ambos os componentes são calculados com o uso do ganho de separação. Uma alternativa é que apenas o componente de primeiro plano seja calculado com o uso do ganho de separação e o componente de segundo plano N seja calculado subtraindo-se o componente de primeiro plano dos valores de sinal de áudio, conforme ilustrado em 210. A outra alternativa, no entanto, é que o componente de segundo plano N seja calculado diretamente com o uso do ganho de separação pelo bloco 206 e, então, o componente de segundo plano N é subtraído do sinal de áudio A para obter finalmente o componente de primeiro plano C. Assim, a Figura 2 ilustra 3 diferentes modalidades para calcular o componente de segundo plano e o componente de primeiro plano, enquanto cada uma dessas alternativas compreende pelo menos a ponderação dos valores de sinal de áudio com o uso do ganho de separação.
[036] Subsequentemente, a Figura 1 b é ilustrada de modo a descrever o segundo aspecto da presente invenção que depende de um limiar de separação variável.
[037] A Figura 1 b, que representa o segundo aspecto, depende do sinal de áudio 100, que é inserido na geração de bloco 110 e o gerador de bloco é conectado ao analisador de sinal de áudio 120 por meio da linha de conexão 122. Ademais, o sinal de áudio pode ser inserido no analisador de sinal de áudio diretamente, por meio de
Petição 870190045735, de 15/05/2019, pág. 147/200
14/41 linha de conexão adicional 111.0 analisador de sinal de áudio 120 é configurado para determinar uma característica do bloco atual do sinal de áudio, por um lado, e para determinar, adicionalmente, uma variabilidade da característica dentro de um grupo de blocos, sendo que o grupo de blocos compreende pelo menos dois blocos e compreende, preferencialmente, pelo menos dois blocos anteriores ou dois blocos seguintes ou pelo menos dois blocos anteriores, pelo menos dois blocos seguintes e o bloco atual também.
[038] A característica do bloco atual e a variabilidade da característica são, ambas, encaminhadas ao separador 130 por meio de uma linha de conexão 129. O separador é, então, configurado para separar o bloco atual em uma porção de segundo plano e a porção de primeiro plano para gerar o sinal de componente de segundo plano 140 e o sinal de componente de primeiro plano 150. Particularmente, o separador é configurado, em conformidade com o segundo aspecto, para determinar um limiar de separação com base na variabilidade determinada pelo analisador de sinal de áudio e para separar o bloco atual na porção de sinal de componente de segundo plano e na porção de sinal de componente de primeiro plano, quando a característica do bloco atual é uma relação predeterminada com o limiar de separação. Quando, no entanto, a característica do bloco atual não está na relação predeterminada com o limiar de separação (variável), então, nenhuma separação do bloco atual é realizada e o bloco atual inteiro é encaminhado ou usado ou atribuído como o sinal de componente de segundo plano 140.
[039] Especificamente, o separador 130 é configurado para determinar o primeiro limiar de separação para uma primeira variabilidade e um segundo limiar de separação para uma segunda variabilidade, sendo que o primeiro limiar de separação é menor que o segundo limiar de separação e a primeira variabilidade é menor que a segunda variabilidade, e em que a relação predeterminada é “maior que”.
[040] Um exemplo é ilustrado na Figura 4c, porção esquerda, em que o primeiro limiar de separação é indicado em 401, em que o segundo limiar de separação é indicado em 402, em que a primeira variabilidade é indicada em 501 e a segunda
Petição 870190045735, de 15/05/2019, pág. 148/200
15/41 variabilidade é indicada em 502. Particularmente, referência é feita à função linear por partes superior 410 que representa o limiar de separação enquanto a função linear por partes inferior 412 na Figura 4c ilustra o limiar de liberação que será descrito posteriormente. A Figura 4c ilustra a situação, em que os limiares são tais que, para aumentar as variabilidades, limiares crescentes sejam determinados. Quando, no entanto, a situação é implantada de uma tal maneira que, por exemplo, valores de limiar inversos, com relação àqueles na Figura 4c, sejam tomados, então, a situação ocorre de modo que o separador esteja configurado para determinar um primeiro limiar de separação para uma primeira variabilidade e um segundo limiar de separação para uma segunda variabilidade, em que o primeiro limiar de separação é maior que o segundo limiar de separação, e a primeira variabilidade é menor que a segunda variabilidade e, nessa situação, a relação predeterminada é “menor que”, em vez de “maior que” como na primeira alternativa ilustrada na Figura 4c.
[041] Dependendo das determinadas implantações, o separador 130 é configurado para determinar o limiar de separação (variável) com o uso de um acesso à Tabela, em que as funções ilustradas na porção esquerda ou porção direita da Figura 4c são armazenadas, ou em conformidade com uma função de interpolação monotônica que interpola entre o primeiro limiar de separação 401 e o segundo limiar de separação 402, de modo que, para uma terceira variabilidade 503, um terceiro limiar de separação 403 seja obtido e para uma quarta variabilidade 504, um quarto limiar seja obtido, em que o primeiro limiar de separação 401 é associado à primeira variabilidade 501 e o segundo limiar de separação 402 é associado à segunda variabilidade 502, e em que a terceira e a quarta variabilidades 503, 504 estão localizadas, com relação a seus valores, entre a primeira e a segunda variabilidades, e o terceiro e o quarto limiares de separação 403, 404 estão localizados, com relação a seus valores, entre o primeiro e o segundo limiares de separação 401,402.
[042] Conforme ilustrado na porção esquerda da Figura 4c, a interpolação monotônica é uma função linear ou, conforme ilustrado na porção direita da Figura 4c, a função de interpolação monotônica é uma função cúbica ou qualquer função de
Petição 870190045735, de 15/05/2019, pág. 149/200
16/41 potência com uma ordem maior que 1.
[043] A Figura 6 representa um diagrama de blocos de nível superior de uma separação, processamento e síntese de sinal de aplauso de sinais processados.
[044] Particularmente, um estágio de separação 600 que é ilustrado em detalhes na Figura 6 separa um sinal de áudio de entrada a(t) em um sinal de segundo plano n(t), e um sinal de primeiro plano c(t), o sinal de segundo plano é inserido em um estágio de processamento de segundo plano 602 e o sinal de primeiro plano é inserido em um estágio de processamento de primeiro plano 604, e, subsequente ao processamento, ambos os sinais n’(t) e c’(t) são combinados por uma combinadora 606 para se obter, finalmente, o sinal processado a’(t).
[045] Preferencialmente, com base na separação/decomposição de sinal do sinal de entrada a(t) em palmas distintamente perceptíveis c(t) e sinais de segundo plano mais semelhantes à ruído n(t), um processamento individual das partes de sinal decomposto é realizado. Após o processamento, os sinais de primeiro plano e segundo plano modificados c’(t) e n’(t) são ressintetizados, o que resulta no sinal de saída a’(t).
[046] A Figura 1c ilustra um diagrama de nível superior de um estágio de separação de aplauso preferencial. Um modelo de aplauso é dado na equação 1 e é ilustrado na Figura 1 f, em que um sinal de aplauso A(k,n) consiste em uma sobreposição de palmas de primeiro plano distinta e individualmente perceptíveis C(k,n) e um sinal de segundo plano mais semelhante a ruído N(k,n). Os sinais são considerados em domínio de frequência com alta resolução de tempo, enquanto k e n denotam a frequência discreta k e o índices n de tempo de uma transformada de frequência de tempo curto, respectivamente.
[047] Particularmente, o sistema na Figura 1 c ilustra um processador de DFT 110 como o gerador de bloco, um detector de primeiro plano que tem funções do analisador de sinal de áudio 120 e do separador 130 da Figura 1a ou Figura 1b, e estágios de separador de sinal adicionais, tal como um ponderador 152, que realizam a função abordada com relação à etapa 206 da Figura 2, e um subtrator 154 que
Petição 870190045735, de 15/05/2019, pág. 150/200
17/41 implanta a função ilustrada na etapa 210 da Figura 2. Ademais, um compositor de sinal é fornecido, o qual compõe, a partir de uma representação de domínio de frequência correspondente, o sinal de primeiro plano de domínio de tempo c(t) e o sinal de segundo plano n(t), em que o compositor de sinal compreende, para cada componente de sinal, um bloco de DFT 160a, 160b.
[048] O sinal de aplauso de entrada a(t), isto é, o sinal de entrada que compreende componentes de segundo plano e componentes de aplauso, é alimentado em uma comutação de sinal (não mostrado na Figura 1c) assim como no detector de primeiro plano 150 em que, com base nas características de sinal, quadros são identificados, os quais correspondem a palmas de primeiro plano. O estágio de detector 150 emite o ganho de separação gS(n) que é alimentado na comutação de sinal e controla as quantidades de sinal encaminhadas no sinal de palma distinto e individualmente perceptível C(k,n) e no sinal mais semelhante a ruído N(k,n). A comutação de sinal é ilustrada no bloco 170 para ilustrar uma comutação binária, isto é, que um determinado quadro ou recorte de tempo/frequência, isto é, apenas um determinado compartimento de frequência de um determinado quadro é encaminhado para C ou N, em conformidade com o segundo aspecto. Em conformidade com o primeiro aspecto, o ganho é usado para separar cada quadro ou diversos compartimentos de frequência da representação espectral A(k,n) em um componente de primeiro plano e um componente de segundo plano, de modo que, em conformidade com o ganho gS(n), que depende da razão entre a característica de bloco e a característica média, em conformidade com o primeiro aspecto, o quadro inteiro ou pelo menos um ou mais recortes de tempo/frequência ou compartimentos de frequência são separados, de modo que o compartimento correspondente em cada um dos sinais C e N tenha o mesmo valor, porém, com uma amplitude diferente, em que a relação das amplitudes depende de gS(n).
[049] A Figura 1 d ilustra uma modalidade mais detalhada do detector de primeiro plano 150 que ilustra, especificamente, as funções do analisador de sinal de áudio. Em uma modalidade, o analisador de sinal de áudio recebe uma representação
Petição 870190045735, de 15/05/2019, pág. 151/200
18/41 espectral gerada pelo gerador de bloco que tem o bloco de DFT (Transformada Discreta de Fourier) 110 da Figura 1c. Ademais, o analisador de sinal de áudio é configurado para realizar uma filtragem de alta passagem com uma certa frequência cruzada predeterminada no bloco 170. Então, o analisador de sinal de áudio 120 das Figuras 1a ou 1b realiza um procedimento de extração de energia no bloco 172. O procedimento de extração de energia resulta em uma energia instantânea ou atual do bloco atual inst(n) e uma energia média média(n).
[050] O separador de sinal 130 nas Figuras 1a ou 1b determina, então, uma razão, conforme ilustrado em 180, e determina, adicionalmente, um limiar adaptável ou não adaptável, e realiza a operação de limitação correspondente 182.
[051] Ademais, quando a operação de limitação adaptável, em conformidade com o segundo aspecto, é realizada, então, o analisador de sinal de áudio realiza, adicionalmente, uma estimativa de variabilidade de envelope, conforme ilustrado no bloco 174, e a medida de variabilidade v(n) é encaminhada ao separador e, particularmente, ao bloco de processamento de limitação adaptável 182 para se obter, finalmente, o ganho gs(n) conforme será descrito posteriormente.
[052] Um fluxograma da parte interna do detector de sinal de primeiro plano é representado na Figura 1d. Se apenas a trajetória superior for considerada, isso corresponde a um caso sem limitação adaptável, enquanto a limitação adaptável for possível, caso a trajetória inferior também seja levada em conta. O sinal alimentado no detector de sinal de primeiro plano é filtrado em passagem alta e sua energia média (ΦΛ) e instantânea (ΦΛ) é estimada. As energias instantâneas de um sinal X(k, n) são dadas por Φχ(η) = II X (k,ri) II, em que ||-|| denota a norma vetorial e a energia média é dada por:
-ç- f ' _ Σ=-μ φλ (n - m) w(m + M) Αΐ1 + em que w(n) denota uma janela de ponderação aplicada às estimativas de energia instantânea com comprimento de janela Lw = 2M + 1. Como uma indicação de a possibilidade de uma palma distinta estar ativa dentro do sinal de entrada, a razão de energia Ψ(η) de energia instantânea e média é usada de acordo;
Petição 870190045735, de 15/05/2019, pág. 152/200
19/41 ψ(η) = [053] No caso mais simples sem limitação adaptável, para exemplos de tempo em que a razão de energia excede o limiar de ataque rataque, o ganho de separação que extrai a parte de palma distinta do sinal de entrada é definido em 1;
consequentemente, o sinal semelhante a ruído é zero nesses exemplos de tempo. Um diagrama de blocos de um sistema com comutação de sinal difícil é representado na
Figura 1e. Se for necessário evitar quedas de sinal no sinal semelhante a ruído, um termo de correção pode ser subtraído do ganho. Um bom ponto de partida é deixar a energia média do sinal de entrada permanecer dentro do sinal semelhante a ruído. Isso é realizado subtraindo-se y/WÇri)-1 ou Ψ(η)_]^ο ganho. A quantidade de energia média também pode ser controlada introduzindo-se um ganho gN > 0 que controla quanto da energia média permanece dentro do sinal semelhante a ruído. Isso resulta na forma geral do ganho de separação:
SsW = rax 1 “ FUõ'0 'if ψ(η) - T“’”
0, diferente.
[054]
Em uma modalidade adicional, a equação acima é substituída pela seguinte equação:
[055] 3sm= k 0, diferente.
Nota: se rataque = 0, a quantidade de sinal encaminhada à palma distinta depende apenas da razão de energia Ψ(η) e do ganho fixo gN que rende uma decisão suave dependente de sinal. Em um sistema bem afinado, o período de tempo no qual a razão de energia excede os limiares de ataque captura apenas o evento transiente real. Em alguns casos, pode ser desejável extrair um período de tempo mais longo após um ataque ocorrer. Isso pode ser realizado, por exemplo, introduzindo-se um limiar de liberação r;íí)eraçã0 que indica o nível no qual a razão de energia Ψ tem de diminuir após um ataque antes do ganho de separação ser definido de novo em zero:
Petição 870190045735, de 15/05/2019, pág. 153/200
20/41 gs (n) = <
maX ( 1 ” Ψ&)’ 0 |Ψ - Tataque.
gs(jl > Íf Tataque > Ψ (íl) > Tliberação,
0, íf Ψ (rí) < ^liberação [056] Em uma modalidade adicional, a equação imediatamente anterior é substituída pela seguinte equação:
gs (A) = <
τ ataque, gS^-^), if τataque > Ψ (íl) > t liberação,
0, if Ψ (τΐ) < ^liberação [057] Um método alternativo, porém, mais estático é simplesmente encaminhar um determinado número de quadros após um ataque detectado no sinal de palma distinta.
[058] De modo a aumentar flexibilidade da limitação, limiares poderíam ser escolhidos de uma maneira adaptável ao sinal que resulte em Tataque(rí) e τliberação(jf), respectivamente. Os limiares são controlados por uma estimativa da variabilidade do envelope do sinal de aplauso de entrada, em que uma alta variabilidade indica a presença de palmas distintas e individualmente perceptíveis, e uma variabilidade mais baixa indica um sinal estacionário e mais semelhante a ruído.
A estimativa de variabilidade podería ser realizada em domínio de tempo, assim como em domínio de frequência. O método preferencial nesse caso é realizar a estimativa em domínio de frequência:
ν'(rí) = νατ([ΦΑ(η — Μ), ΦΑ(η — M + 1),..., ΦΛ(η + m)]),m = — Μ ....M em que var(-) denota a computação de variação. Para render um sinal mais estável, a variabilidade estimada é suavizada por filtragem de baixa passagem que rende a estimativa de variabilidade de envelope final v(rí) = hTP(rí) * v'(rí) em que * denota uma convolução. O mapeamento de variabilidade de envelope para valores de limiar correspondentes pode ser realizada mapeando-se funções fataque (.%) θ fiber ação (λ) de modo que
Petição 870190045735, de 15/05/2019, pág. 154/200
21/41 τ ataque (η)= fataque(y(n)) Tliberação (n)-f liberação (v(n)) [059] Em uma modalidade, a função de mapeamento podería ser realizada como funções lineares recortadas, que correspondem a uma interpelação linear dos limiares. A configuração para essa situação é representada na Figura 4c. Ademais, uma função ou funções de mapeamento cúbicas com ordem superior, em geral, também poderíam ser usadas. Em particular, os pontos de base poderíam ser usados para definir níveis de limiar extras para valores de variabilidade entre aqueles definidos para aplauso esparso e denso. Isso é ilustrado de maneira exemplificativa na Figura 4c, lado da mão direita.
[060] Os sinais separados são obtidos por
C(k,rí) = gs(n) A(k,rí)
N(k,n) = A(k,n) — C(k,ri) [061] A Figura 1f ilustra as equações abordadas acima em uma visão geral e em relação aos blocos funcionais nas Figuras 1a e 1b.
[062] Ademais, a Figura 1f ilustra uma situação em que, dependendo de uma determinada modalidade, nenhum limiar, um único limiar ou um limiar duplo é aplicado.
[063] Ademais, conforme ilustrado com relação às equações (7) a (9) na Figura 1f, limiares adaptáveis podem ser usados. Naturalmente, um único limiar é usado como um único limiar adaptável. Então, apenas a equação (8) estaria ativa e a equação (9) não estaria ativa. No entanto, é preferencial realizar limitação adaptável dupla em determinada modalidade preferencial, que implementa recursos do primeiro aspecto e do segundo aspecto em conjunto.
[064] Ademais, as Figuras 7 e 8 ilustram implantações adicionais em relação a como alguém podería implantar uma determinada aplicação da presente invenção.
[065] Particularmente, a Figura 7, porção esquerda, ilustra um medidor de característica de sinal 700 para medir uma característica de sinal do sinal de componente de segundo plano ou o sinal de componente de primeiro plano. Particularmente, a medida de característica de sinal 700 é configurada para
Petição 870190045735, de 15/05/2019, pág. 155/200
22/41 determinar uma densidade de primeiro plano no bloco 702 que ilustra uma calculadora de densidade de primeiro plano com o uso do sinal de componente de primeiro plano, alternativa ou adicionalmente, o medidor de característica de sinal é configurado para realizar um cálculo de proeminência de primeiro plano com o uso de uma calculadora de proeminência de primeiro plano 704 que calcula a fração do primeiro plano em relação ao sinal de entrada original a(t).
[066] Alternativamente, conforme ilustrado na porção direita da Figura 7, um processador de primeiro plano 604 e um processador de segundo plano 602, em que esses processadores, em contraste com a Figura 6, dependem de determinados metadados Θ que podem ser os metadados derivados pela porção esquerda da Figura 7 ou podem ser quaisquer outros metadados úteis para realizar processamento de primeiro plano e processamento de segundo plano.
[067] As partes de sinal de aplauso separadas podem ser alimentadas em estágios de medição, em que determinadas características (perceptivamente motivadas) de sinais transientes podem ser medidas. Uma configuração exemplificativa para um dado caso de uso é representada na Figura 7a, em que a densidade das palmas de primeiro plano distinta e individualmente perceptíveis, assim como a fração de energia das palmas de primeiro plano com relação à energia de sinal total, é estimada.
[068] A estimativa da densidade de primeiro plano &FGD(ri) pode ser realizada contando-se a taxa de evento por segundos, isto é, o número de palmas detectadas por segundo. A proeminência de primeiro plano &FFG(n) é dada pela razão de energia de sinal de palma de primeiro plano estimada C(n) e A(n):
Φσ(η)
ΦΛ(η) ®FFG 01) [069] Um diagrama de blocos da restauração das características de sinal medidas é representado na Figura 7b, em que Θ e as linhas tracejadas denotam informações laterais.
[070] Embora na modalidade anterior, a característica de sinal tenha sido apenas medida, o sistema é usado para modificar características de sinal. Em uma
Petição 870190045735, de 15/05/2019, pág. 156/200
23/41 modalidade, o processamento de primeiro plano podería emitir um número reduzido de palmas de primeiro plano detectadas que resultam em uma modificação de densidade em relação à densidade inferior do sinal de saída resultante. Em outra modalidade, o processamento de primeiro plano podería emitir um número aumentado de palmas de primeiro plano, por exemplo, adicionando-se uma versão atrasada do sinal de palma de primeiro plano a si mesmo, o que resulta em uma modificação de densidade em relação à densidade aumentada. Ademais, aplicando-se pesos nos respectivos estágios de processamento, o equilíbrio de palmas de primeiro plano e primeiro plano semelhante a ruído podería ser modificado. Adicionalmente, qualquer processamento como filtragem, adição de reverb, atraso, etc., em ambas as trajetórias, pode ser usado para modificar as características de um sinal de aplauso. [071] A Figura 8 se refere, adicionalmente, a um estágio de codificador para codificar o sinal de componente de primeiro plano e o sinal de componente de segundo plano para obter uma representação codificada do sinal de componente de primeiro plano e uma representação codificada separada do sinal de componente de segundo plano para transmissão ou armazenamento. Particularmente, o codificador de primeiro plano é ilustrado em 801 e o codificador de segundo plano é ilustrado em 802. As representações separadamente codificadas 804 e 806 são encaminhadas a um dispositivo de lado de decodificador 808 que consiste em um decodificador de segundo plano 810 e um decodificador de segundo plano 812 que decodificam, finalmente, as representações separadas e as representações decodificadas e, então, combinadas por uma combinadora 606 para emitir, finalmente, o sinal decodificado a’(t).
[072] Subsequentemente, modalidades adicionalmente preferenciais são abordadas com relação à Figura 3. Em particular, a Figura 3 ilustra uma representação esquemática do sinal de áudio de entrada dado em uma linha do tempo 300, em que a representação esquemática ilustra uma situação de blocos temporalmente sobrepostos. É ilustrada na Figura 3 uma situação em que há uma faixa de sobreposição 302 de 50%. Outras faixas de sobreposição, tais como faixas de
Petição 870190045735, de 15/05/2019, pág. 157/200
24/41 múltiplas sobreposições com mais de 50% ou menos, se sobrepõem às faixas em que apenas porções menores que 50% de sobreposição também são úteis.
[073] Na modalidade da Figura 3, um bloco tem, tipicamente, menos que 600 valores de amostragem e, preferencialmente, apenas 256 ou apenas 128 valores de amostragem para obter uma alta resolução de tempo.
[074] Os blocos sobrepostos ilustrados de maneira exemplificativa consistem, por exemplo, em um bloco atual 304 que se sobrepõe, dentro da faixa de sobreposição, a um bloco anterior 303 ou um bloco seguinte 305. Assim, quando um grupo de blocos compreende pelo menos dois blocos anteriores, então, esse grupo de blocos consistiría no bloco anterior 303 com relação ao bloco atual 304 e no bloco anterior adicional indicado com o número de ordem 3 na Figura 3. Ademais, e de maneira análoga, quando um grupo de blocos compreende pelo menos dois blocos seguintes (em tempo), então, esses dois blocos seguintes compreenderíam o bloco seguinte 305 indicado com o número de ordem 6 e o bloco adicional 7 ilustrado com o número de ordem 7.
[075] Esses blocos são, por exemplo, formados pelo gerador de bloco 110 que também realiza, preferencialmente, uma conversão espectro-temporal, tal como a DFT mencionada anteriormente ou uma FFT (transformada rápida de Fourier).
[076] O resultado da conversão espectro-temporal é uma sequência de blocos espectrais I a VIII, em que cada bloco espectral ilustrado na Figura 3 abaixo do bloco 110 corresponde a um dentre oito blocos da linha temporal 300.
[077] Preferencialmente, uma separação é, então, realizada no domínio de frequência, isto é, com o uso da representação espectral em que os valores de sinal de áudio são valores espectrais. Subsequente à separação, uma representação espectral de primeiro plano, uma vez que consiste novamente nos blocos I a VIII, e uma representação de primeiro plano que consiste em I a VIII, são obtidas. Naturalmente, e dependendo da operação de limitação, não é necessariamente o caso de cada bloco da representação de primeiro plano subsequente à separação 130 ter valores diferentes de zero. No entanto, preferencialmente, se certifica, através pelo
Petição 870190045735, de 15/05/2019, pág. 158/200
25/41 menos do primeiro aspecto da presente invenção, de que cada bloco na representação espectral do componente de segundo plano tenha valores diferentes de zero, de modo a evitar uma queda de energia no componente de sinal de segundo plano.
[078] Para cada componente, isto é, o componente de primeiro plano e o componente de segundo plano, uma conversão espectro-temporal é realizada conforme foi abordado no contexto da Figura 1c e o subsequente esmaecimento/intensificação com relação à faixa de sobreposição 302 é realizado para ambos os componentes, conforme ilustrado no bloco 161 a e no bloco 161b, para os componentes de primeiro plano e segundo plano, respectivamente. Assim, por fim, o sinal de primeiro plano e o sinal de segundo plano têm, ambos, o mesmo comprimento L que o sinal de áudio original antes da separação.
[079] Preferencialmente, conforme ilustrado na Figura 4b, o separador 130 que calcula as variabilidades ou limiares é suavizado.
[080] Em particular, a etapa 400 ilustra a determinação de uma característica geral ou uma razão entre uma característica de bloco e uma característica média para um bloco atual, conforme ilustrado em 400.
[081] No bloco 402, uma variabilidade bruta é calculada com relação ao bloco atual. No bloco 404, as variabilidades brutas para blocos anteriores ou seguintes são calculadas de modo a obter, através da saída do bloco 402 e 404, uma sequência de variabilidades brutas. No bloco 406, a sequência é suavizada. Assim, na saída do bloco 406 uma sequência suavizada de variabilidades existe. As variabilidades da sequência suavizada são mapeadas para limiares adaptáveis correspondentes, conforme ilustrado no bloco 408, de modo que se obtenha o limiar variável para o bloco atual.
[082] Uma modalidade alternativa é ilustrada na Figura 4b na qual, em contraste com a suavização das variabilidades, os limiares são suavizados. Com essa finalidade, mais uma vez, a característica/razão para um bloco atual é determinada conforme ilustrado no bloco 400.
Petição 870190045735, de 15/05/2019, pág. 159/200
26/41 [083] No bloco 403, uma sequência de variabilidades é calculada com o uso, por exemplo, da equação 6 da Figura 1 f para cada bloco atual indicado pelo número inteiro m.
[084] No bloco 405, a sequência de variabilidades é mapeada para uma sequência de limiares brutos em conformidade com a equação 8 e a equação 9, porém, com variabilidades não suavizadas em contraste com a equação 7 da Figura 1f.
[085] No bloco 407, a sequência de limiares brutos é suavizada de modo a obter, finalmente, o limiar (suavizado) para o bloco atual.
[086] Subsequentemente, a Figura 5 é abordada em mais detalhes de modo a ilustrar diferentes maneiras para calcular a variabilidade da característica dentro de um grupo de blocos.
[087] Mais uma vez, na etapa 500, uma característica ou razão entre uma característica de bloco atual e uma característica de bloco média é calculada.
[088] Na etapa 502, uma média ou, de modo geral, uma expectativa sobre as características/razões para o grupo de blocos é calculada.
[089] No bloco 504, as diferenças entre características/razões e o valor médio/valor esperado são calculadas e, conforme ilustrado no bloco 506, a adição das diferenças ou determinados valores derivados das diferenças é realizada preferencialmente com uma normalização. Quando as diferenças quadradas são adicionadas, então, a sequência de etapas 502, 504, 506 reflete o cálculo de uma variação como foi delineado com relação à equação 6. No entanto, por exemplo, quando magnitudes de diferenças ou outras potências de diferenças diferentes das duas são adicionadas juntas, então, um valor estatístico derivado das diferenças entre as características e o valor médio/esperado é usado como a variabilidade.
[090] Alternativamente, no entanto, conforme ilustrado na etapa 508, diferenças entre características/razões que seguem o tempo para blocos adjacentes são calculadas e usadas como a medida de variabilidade. Assim, o bloco 508 determina uma variabilidade que não depende de um valor médio, porém, depende de uma
Petição 870190045735, de 15/05/2019, pág. 160/200
27/41 alteração de um bloco para outro, em que, conforme ilustrado na Figura 6, as diferenças entre as características para blocos adjacentes podem ser adicionadas juntas sejam quadradas, as magnitudes das mesmas ou potências das mesmas para obter, finalmente, outro valor a partir da variabilidade diferente da variação. Está claro para aqueles versados na técnica que outras medidas de variabilidade diferentes daquelas que foram abordadas com relação à Figura 5 também podem ser usadas. [091] Subsequentemente, exemplos de modalidades são definidos, os quais podem ser usados separadamente dos exemplos abaixo ou em combinação com qualquer um dos exemplos abaixo:
1. Aparelho para decompor um sinal de áudio (100) em um sinal de componente de segundo plano (140) e um sinal de componente de primeiro plano (150), sendo que o aparelho compreende:
um gerador de bloco (110) para gerar uma sequência temporal de blocos de valores de sinal de áudio;
um analisador de sinal de áudio (120) para determinar uma característica de bloco de um bloco atual do sinal de áudio e para determinar uma característica média para um grupo de blocos, sendo que o grupo de blocos compreende pelo menos dois blocos; e um separador (130) para separar o bloco atual em uma porção de segundo plano e uma porção de primeiro plano em resposta a uma razão da característica de bloco do bloco atual e da característica média do grupo de blocos, em que o sinal de componente de segundo plano (140) compreende a porção de segundo plano do bloco atual e o sinal de componente de primeiro plano (150) compreende a porção de primeiro plano do bloco atual.
[092] 2. Aparelho, de acordo com o exemplo 1, em que o analisador de sinal de áudio é configurado para analisar uma medida relacionada à amplitude como a característica do bloco atual e a característica relacionada à amplitude como a característica média para o grupo de blocos. [093] 3. Aparelho, de acordo com o exemplo 1 ou 2,
Petição 870190045735, de 15/05/2019, pág. 161/200
28/41 em que o analisador de sinal de áudio (120) é configurado para analisar uma medida de potência ou uma medida de energia para o bloco atual e uma medida de potência média ou uma medida de energia média para o grupo de blocos. [094] 4. Aparelho, de acordo com um dos exemplos anteriores, em que o separador (130) é configurado para calcular um ganho de separação a partir da razão, para ponderar os valores de sinal de áudio do bloco atual com o uso do ganho de separação para obter a porção de primeiro plano do quadro atual e para determinar o componente de segundo plano, de modo que o sinal de segundo plano constitua um sinal restante, ou em que o separador é configurado para calcular um ganho de separação a partir da razão, para ponderar os valores de sinal de áudio do bloco atual com o uso do ganho de separação para obter a porção de segundo plano do quadro atual e para determinar o componente de primeiro plano, de modo que o sinal de componente de primeiro plano constitua um sinal restante.
[095] 5. Aparelho, de acordo com um dos exemplos anteriores, em que o separador (130) é configurado para calcular um ganho de separação com o uso da ponderação da razão com o uso de um fator de ponderação predeterminado diferente de zero.
[096] 6. Aparelho, de acordo com o exemplo 5, em que o separador (130) é configurado para calcular o ganho de separação com o uso de um termo 1 - (gN/ip(n))P ou (max(1 - (gN/ip(n))))P, em que gN é o fator predeterminado, ψ(η) é a razão e p é uma potência maior que zero e que é um número inteiro ou um número não inteiro, e em que n é um índice de bloco, e em que max é uma função máxima.
[097] 7. Aparelho, de acordo com um dos exemplos anteriores, em que o separador (130) é configurado para comparar uma razão do bloco atual com um limiar e para separar o bloco atual, quando a razão do bloco atual está em uma relação predeterminada com o limiar e em que o separador (130) é configurado para não separar um bloco adicional, sendo que o bloco adicional tem
Petição 870190045735, de 15/05/2019, pág. 162/200
29/41 uma razão que não tem a relação predeterminada com o limiar, de modo que o bloco adicional pertença completamente ao sinal de componente de segundo plano (140). [098] 8. Aparelho, de acordo com o exemplo 7, em que o separador (130) é configurado para separar um bloco seguinte depois do bloco atual a tempo com o uso da comparação da razão do bloco seguinte com um limiar de liberação adicional, em que o limiar de liberação adicional é definido de modo que uma razão de bloco que não está na relação predeterminada com o limiar esteja na relação predeterminada com o limiar de liberação adicional. [099] 9. Aparelho, de acordo com o exemplo 8, em que a relação predeterminada é “maior que” e em que o limiar de liberação é menor que o limiar de separação ou em que a relação predeterminada é “menor que” e em que o limiar de liberação é maior que o limiar de separação.
[0100] 10. Aparelho, de acordo com um dos exemplos anteriores, em que o gerador de bloco (110) é configurado para determinar blocos temporalmente sobrepostos de valores de sinal de áudio ou em que os blocos temporalmente sobrepostos têm um número de valores de amostragem que é menor ou igual a 600.
[0101] 11. Aparelho, de acordo com um dos exemplos anteriores, em que o gerador de bloco é configurado para realizar uma conversão no sentido de bloco do sinal de áudio de domínio de tempo em um domínio de frequência para obter uma representação espectral para cada bloco, em que o analisador de sinal de áudio é configurado para calcular a característica com o uso da representação espectral do bloco atual e em que o separador (130) é configurado para separar a representação espectral na porção de segundo plano e na porção de primeiro plano, de modo que, para compartimentos espectrais da porção de segundo plano e da porção de primeiro plano que correspondem à mesma frequência, cada uma tenha um valor espectral
Petição 870190045735, de 15/05/2019, pág. 163/200
30/41 diferente de zero, em que uma relação do valor espectral da porção de primeiro plano e do valor espectral da porção de segundo plano dentro do mesmo compartimento de frequência depende da razão.
[0102] 12. Aparelho, de acordo com um dos exemplos anteriores, em que o gerador de bloco (110) é configurado para realizar uma conversão no sentido de bloco do domínio de tempo no domínio de frequência para obter uma representação espectral para cada bloco, em que blocos adjacentes de tempo se sobrepõem em uma faixa de sobreposição (302), em que o aparelho compreende, adicionalmente, um compositor de sinal (160a, 161a, 160b, 161b) para compor o sinal de componente de segundo plano e para compor o sinal de componente de primeiro plano, em que o compositor de sinal é configurado para realizar uma conversão de tempo e frequência (161a, 160a, 160b) para o sinal de componente de segundo plano e para o sinal de componente de primeiro plano, e para desvanecimento cruzado (161a, 161b) de representações temporais de blocos adjacentes de tempo dentro da faixa de sobreposição para obter um sinal de componente de primeiro plano de domínio de tempo e um sinal de componente de segundo plano de domínio de tempo separado.
[0103] 13. Aparelho, de acordo com um dos exemplos anteriores, em que o analisador de sinal de áudio (120) é configurado para determinar a característica média para o grupo de blocos com o uso de uma adição ponderada de características individuais de blocos no grupo de blocos.
[0104] 14. Aparelho, de acordo com um dos exemplos anteriores, em que o analisador de sinal de áudio (120) é configurado para realizar uma adição ponderada de características individuais de blocos no grupo de blocos, em que um valor de ponderação para uma característica de um bloco próximo em tempo ao bloco atual é maior que um valor de ponderação para uma característica de um bloco adicional menos próximo em tempo ao bloco atual.
[0105] 15. Aparelho, de acordo com o exemplo 13 ou 14,
Petição 870190045735, de 15/05/2019, pág. 164/200
31/41 em que o analisador de sinal de áudio (120) é configurado para determinar o grupo de blocos, de modo que o grupo de blocos compreenda pelo menos vinte blocos antes do bloco correspondente ou pelo menos vinte blocos subsequentes ao bloco atual.
[0106] 16. Aparelho, de acordo com um dos exemplos anteriores, em que o analisador de sinal de áudio é configurado para usar um valor de normalização dependendo de um número de blocos no grupo de blocos ou dependendo dos valores de ponderação para os blocos no grupo de blocos. [0107] 17. Aparelho, de acordo com um dos exemplos anteriores, que compreende, adicionalmente, um medidor de característica de sinal (702, 704) para medir uma característica de sinal de pelo menos um dentre os sinais de componente de segundo plano ou os sinais de componente de primeiro plano. [0108] 18. Aparelho, de acordo com o exemplo 17, em que o medidor de característica de sinal é configurado para determinar uma densidade de primeiro plano (702) com o uso do sinal de componente de primeiro plano ou para determinar uma proeminência de primeiro plano (704) com o uso do sinal de componente de primeiro plano e do sinal de entrada de áudio.
[0109] 19. Aparelho, de acordo com um dos exemplos anteriores, em que o sinal de componente de primeiro plano compreende sinais de palmas, em que o aparelho compreende, adicionalmente, um modificador de característica de sinal para modificar o sinal de componente de primeiro plano aumentando-se um número de palmas ou diminuindo-se um número de palmas ou aplicando-se um peso ao sinal de componente de primeiro plano ou ao sinal de componente de segundo plano para modificar uma relação de energia entre o sinal de palma de primeiro plano e o sinal de componente de segundo plano que é um sinal semelhante a ruído.
[0110] 20. Aparelho, de acordo com um dos exemplos anteriores, que compreende, adicionalmente, um mixador de aumento cego para mixagem de aumento do sinal de áudio em uma representação que tem um número
Petição 870190045735, de 15/05/2019, pág. 165/200
32/41 de canais de saída que é maior que um número de canais do sinal de áudio, em que o mixador de aumento é configurado para distribuir espacialmente o sinal de componente de primeiro plano nos canais de saída, sendo que o sinal de componente de primeiro plano no número de canais de saída está correlacionado, e para distribuir espectralmente o sinal de componente de segundo plano nos canais de saída, sendo que os sinais de componente de segundo plano nos canais de saída estão menos correlacionados que os sinais de componente de primeiro plano ou não estão correlacionados.
[0111] 21. Aparelho, de acordo com um dos exemplos anteriores, que compreende, adicionalmente, um estágio de codificador (801, 802) para codificar separadamente o sinal de componente de primeiro plano e o sinal de componente de segundo plano de modo a obter uma representação codificada (804) do sinal de componente de primeiro plano e uma representação codificada separada do sinal de componente de segundo plano (806) para transmissão ou armazenamento ou decodificação.
[0112] 22. Método para decompor um sinal de áudio (100) em um sinal de componente de segundo plano (140) e um sinal de componente de primeiro plano (150), sendo que o método compreende:
gerar (110) uma sequência temporal de blocos de valores de sinal de áudio; determinar (120) uma característica de bloco de um bloco atual do sinal de áudio e determinar uma característica média para um grupo de blocos, sendo que o grupo de blocos compreende pelo menos dois blocos; e separar (130) o bloco atual em uma porção de segundo plano e uma porção de primeiro plano em resposta a uma razão da característica de bloco do bloco atual e da característica média do grupo de blocos, em que o sinal de componente de segundo plano (140) compreende a porção de segundo plano do bloco atual e o sinal de componente de primeiro plano (150) compreende a porção de primeiro plano do bloco atual.
Subsequentemente, exemplos adicionais são descritos, os quais podem
Petição 870190045735, de 15/05/2019, pág. 166/200
33/41 ser usados separadamente dos exemplos acima ou em combinação com qualquer um dos exemplos acima.
[0113] 1. Aparelho para decompor um sinal de áudio em um sinal de componente de segundo plano e um sinal de componente de primeiro plano, sendo que o aparelho compreende:
um gerador de bloco (110) para gerar uma sequência temporal de blocos de valores de sinal de áudio;
um analisador de sinal de áudio (120) para determinar uma característica de um bloco atual do sinal de áudio e para determinar uma variabilidade da característica dentro de um grupo de blocos que compreende pelo menos dois blocos da sequência de blocos; e um separador (130) para separar o bloco atual em uma porção de segundo plano (140) e uma porção de primeiro plano (150), em que o separador (130) é configurado para determinar (182) um limiar de separação com base na variabilidade e para separar o bloco atual no sinal de componente de segundo plano (140) e no sinal de componente de primeiro plano (150), quando a característica do bloco atual está em uma relação predeterminada com o limiar de separação, ou para determinar o bloco atual inteiro como um sinal de componente de primeiro plano, quando a característica do bloco atual está na relação predeterminada com o limiar de separação, ou para determinar o bloco atual inteiro como um sinal de componente de segundo plano, quando a característica do bloco atual não está na relação predeterminada com o limiar de separação.
[0114] 2. Aparelho, de acordo com o exemplo 1, em que o separador (130) é configurado para determinar um primeiro limiar de separação (401) para uma primeira variabilidade (501) e um segundo limiar de separação (402) para uma segunda variabilidade (502), em que o primeiro limiar de separação (401) é menor que o segundo limiar de separação (402), e a primeira variabilidade (501) é menor que a segunda variabilidade (502) e em que a relação predeterminada é maior que, ou
Petição 870190045735, de 15/05/2019, pág. 167/200
34/41 em que o primeiro limiar de separação é maior que o segundo limiar de separação, em que a primeira variabilidade é menor que a segunda variabilidade, e em que a relação predeterminada é menor que.
[0115] 3. Aparelho, de acordo com o exemplo 1 ou 2, em que o separador (130) é configurado para determinar o limiar de separação com o uso de um acesso à Tabela ou com o uso de uma função de interpelação monotônica que interpela entre um primeiro limiar de separação (401) e um segundo limiar de separação (402), de modo que, para uma terceira variabilidade (503), um terceiro limiar de separação (403) seja obtido, e para uma quarta variabilidade (504), um quarto limiar de separação (404) seja obtido, em que o primeiro limiar de separação (401) é associado a uma primeira variabilidade (501), e o segundo limiar de separação (402) é associado a uma segunda variabilidade (502), em que a terceira variabilidade (503) e a quarta variabilidade estão localizadas, com relação a seus valores, entre a primeira variabilidade (501) e a segunda variabilidade (502), e em que o terceiro limiar de separação (403) e o quarto limiar de separação (404) estão localizados, com relação a seus valores, entre o primeiro limiar de separação (401) e o segundo limiar de separação (402).
[0116] 4. Aparelho, de acordo com o exemplo 3, em que a função de interpelação monotônica é uma função linear ou uma função quadrática ou uma função cúbica ou uma função de potência com uma ordem maior que 3.
[0117] 5. Aparelho, de acordo com um dos exemplos 1 a 4, em que o separador (130) é configurado para determinar, com base na variabilidade da característica com relação ao bloco atual, um limiar de separação bruto (405) e com base na variabilidade de pelo menos um bloco anterior ou seguinte, pelo menos um limiar de separação bruto adicional (405), e para determinar (407) o limiar de separação para o bloco atual suavizando-se uma sequência de limiares de separação brutos, sendo que a sequência compreende o limiar de separação bruto e o pelo menos um limiar de separação bruto adicional, ou
Petição 870190045735, de 15/05/2019, pág. 168/200
35/41 em que um separador (130) é configurado para determinar uma variabilidade bruta (402) da característica para o bloco atual e, adicionalmente, para calcular (404) uma variabilidade bruta para um bloco anterior ou um bloco seguinte, e em que o separador (130) é configurado para suavizar uma sequência de variabilidades brutas que compreende a variabilidade bruta para o bloco atual e a pelo menos uma variabilidade bruta adicional para o bloco anterior ou o bloco seguinte para obter uma sequência suavizada de variabilidades, e para determinar limiares de separação com base em variabilidade suavizada do bloco atual.
[0118] 6. Aparelho, de acordo com um dos exemplos anteriores, em que o analisador de sinal de áudio (120) é configurado para determinar a variabilidade calculando-se uma característica de cada bloco no grupo de blocos para obter um grupo de características e calculando-se uma variação do grupo de características, em que a variabilidade corresponde à variação ou depende da variação do grupo de características.
[0119] 7. Aparelho, de acordo com um dos exemplos anteriores, em que o analisador de sinal de áudio (120) é configurado para calcular a variabilidade com o uso de uma característica média ou esperada (502) e diferenças (504) entre as características no grupo de características e a característica média ou esperada, ou calculando-se a variabilidade com o uso de diferenças (508) entre características do grupo de características que seguem a tempo.
[0120] 8. Aparelho, de acordo com um dos exemplos anteriores, em que o analisador de sinal de áudio (120) é configurado para calcular a variabilidade da característica dentro do grupo de características que compreende pelo menos dois blocos antes do bloco atual ou pelo menos dois blocos depois do bloco atual.
[0121] 9. Aparelho, de acordo com um dos exemplos anteriores, em que o analisador de sinal de áudio (120) é configurado para calcular a variabilidade da característica dentro do grupo de blocos que consiste em pelo menos
Petição 870190045735, de 15/05/2019, pág. 169/200
36/41 trinta blocos.
[0122] 10. Aparelho, de acordo com um dos exemplos anteriores, em que o analisador de sinal de áudio (120) é configurado para calcular a característica como uma razão de uma característica de bloco do bloco atual e uma característica média para um grupo de blocos que compreende pelo menos dois blocos, e em que o separador (130) é configurado para comparar a razão com o limiar de separação determinado com base na variabilidade da razão associada ao bloco atual dentro do grupo de blocos.
[0123] 11. Aparelho, de acordo com o exemplo 10, em que o analisador de sinal de áudio (120) é configurado para usar, para o cálculo da característica média, e para o cálculo da variabilidade, o mesmo grupo de blocos.
[0124] 12. Aparelho, de acordo com um dos exemplos anteriores, em que o analisador de sinal de áudio é configurado para analisar uma medida relacionada à amplitude como a característica do bloco atual e a característica relacionada à amplitude como a característica média para o grupo de blocos.
[0125] 13. Aparelho, de acordo com um dos exemplos anteriores, em que o separador (130) é configurado para calcular o ganho de separação a partir da característica, para ponderar os valores de sinal de áudio do bloco atual com o uso do ganho de separação para obter a porção de primeiro plano do quadro atual e para determinar o componente de segundo plano, de modo que o sinal de segundo plano constitua um sinal restante, ou em que o separador é configurado para calcular um ganho de separação a partir da característica, para ponderar os valores de sinal de áudio do bloco atual com o uso do ganho de separação para obter a porção de segundo plano do quadro atual e para determinar o componente de primeiro plano, de modo que o sinal de componente de primeiro plano constitua um sinal restante.
[0126] 14. Aparelho, de acordo com um dos exemplos anteriores,
Petição 870190045735, de 15/05/2019, pág. 170/200
37/41 em que o separador (130) é configurado para separar um bloco seguinte depois do bloco atual a tempo com o uso da comparação da característica do bloco seguinte com um limiar de liberação adicional, em que o limiar de liberação adicional é definido de modo que uma característica que não está na relação predeterminada com o limiar esteja na relação predeterminada com o limiar de liberação adicional.
[0127] 15. Aparelho, de acordo com o exemplo 14, em que o separador (130) é configurado para determinar o limiar de liberação com base na variabilidade e para separar o bloco seguinte, quando a característica do bloco atual está em uma relação predeterminada adicional com o limiar de liberação.
[0128] 16. Aparelho, de acordo com o exemplo 14 ou 15, em que a relação predeterminada é “maior que” e em que o limiar de liberação é menor que o limiar de separação ou em que a relação predeterminada é “menor que” e em que o limiar de liberação é maior que o limiar de separação.
[0129] 17. Aparelho, de acordo com um dos exemplos anteriores, em que o gerador de bloco (110) é configurado para determinar blocos temporalmente sobrepostos de valores de sinal de áudio ou em que os blocos temporalmente sobrepostos têm um número de valores de amostragem que é menor ou igual a 600.
[0130] 18. Aparelho, de acordo com um dos exemplos anteriores, em que o gerador de bloco é configurado para realizar uma conversão no sentido de bloco do sinal de áudio de domínio de tempo em um domínio de frequência para obter uma representação espectral para cada bloco, em que o analisador de sinal de áudio é configurado para calcular a característica com o uso da representação espectral do bloco atual e em que o separador (130) é configurado para separar a representação espectral na porção de segundo plano e na porção de primeiro plano, de modo que,
Petição 870190045735, de 15/05/2019, pág. 171/200
38/41 para compartimentos espectrais da porção de segundo plano e da porção de primeiro plano que correspondem à mesma frequência, cada uma tenha um valor espectral diferente de zero, em que uma relação do valor espectral da porção de primeiro plano e do valor espectral da porção de segundo plano dentro do mesmo compartimento de frequência depende da característica.
[0131] 19. Aparelho, de acordo com um dos exemplos anteriores, em que o analisador de sinal de áudio (120) é configurado para calcular a característica com o uso da representação espectral do bloco atual para calcular a variabilidade para o bloco atual com o uso da representação espectral do grupo de blocos.
[0132] 20. Método para decompor um sinal de áudio em um sinal de componente de segundo plano e um sinal de componente de primeiro plano, sendo que o método compreende:
gerar (110) uma sequência temporal de blocos de valores de sinal de áudio; determinar uma característica de um bloco atual do sinal de áudio e determinar uma variabilidade da característica dentro de um grupo de blocos que compreende pelo menos dois blocos da sequência de blocos; e separar (130) o bloco atual em uma porção de segundo plano (140) e uma porção de primeiro plano (150), em que um limiar de separação é determinado com base na variabilidade e em que o bloco atual é separado no sinal de componente de segundo plano (140) e o sinal de componente de primeiro plano (150), quando a característica do bloco atual está em uma relação predeterminada com o limiar de separação, ou em que o bloco atual inteiro é determinado como um sinal de componente de primeiro plano, quando a característica do bloco atual está na relação predeterminada com o limiar de separação, ou em que a determinação do bloco atual inteiro é determinada como uma sinal de componente de segundo plano, quando a característica do bloco atual não está na relação predeterminada com o limiar de separação.
[0133] Um sinal de áudio inventivamente codificado pode ser armazenado em uma
Petição 870190045735, de 15/05/2019, pág. 172/200
39/41 mídia de armazenamento digital ou uma mídia de armazenamento não transitória ou pode ser transmitido em uma mídia de transmissão, tal como uma mídia de transmissão sem fio ou uma mídia de transmissão com fio, tal como a Internet.
[0134] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou um dispositivo corresponde a uma etapa do método ou um recurso de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente.
[0135] Dependendo das determinadas necessidades de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software. A implantação pode ser desempenhada com a utilização de uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória Flash, que tem sinais de controle eletronicamente legíveis armazenados no mesmo, que cooperam (ou têm a capacidade de cooperar) com um sistema de computador programável de tal modo que o respectivo método seja realizado.
[0136] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados que tem sinais de controle eletronicamente legíveis, os quais têm capacidade para cooperar com um sistema de computador programável, de modo que um dos métodos descritos no presente documento seja executado.
[0137] Em geral, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, em que o código de programa é operacional para realizar um dos métodos quando o produto de programa de computador opera em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.
[0138] Outras modalidades compreendem o programa de computador para realizar um dos métodos descritos no presente documento armazenado em uma portadora legível por máquina ou uma mídia de armazenamento não transitória.
Petição 870190045735, de 15/05/2019, pág. 173/200
40/41 [0139] Em outras palavras, uma modalidade do método da invenção é, portanto, um programa de computador que tem um código de programa para realizar um dentre os métodos descritos no presente documento, quando o programa de computador opera em um computador.
[0140] Uma modalidade adicional dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) que compreende, registrado no mesmo, o programa de computador para realizar um dentre os métodos descritos no presente documento.
[0141] Uma modalidade adicional do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode ser configurado, por exemplo, para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da internet.
[0142] Uma modalidade adicional compreende meios de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurados ou adaptados para realizar um dos métodos descritos no presente documento.
[0143] Uma modalidade adicional compreende um computador que tem instalado no mesmo o programa de computador para realizar um dos métodos descritos no presente documento.
[0144] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, uma matriz de portas programável em campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, uma matriz de portas programável em campo pode cooperar com um microprocessador a fim de realizar um dentre os métodos descritos no presente documento. De modo geral, os métodos são realizados, de preferência, por meio de qualquer aparelho de hardware.
[0145] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e as variações das disposições e dos detalhes descritos no presente documento serão evidentes para
Petição 870190045735, de 15/05/2019, pág. 174/200
41/41 outras pessoas versadas na técnica. Portanto, pretende-se que as mesmas sejam limitadas apenas pelo escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento.

Claims (23)

1. Aparelho para decompor um sinal de áudio (100) em um sinal de componente de segundo plano (140) e um sinal de componente de primeiro plano (150), sendo que o aparelho é caracterizado por compreender:
um gerador de bloco (110) para gerar uma sequência temporal de blocos de valores de sinal de áudio;
um analisador de sinal de áudio (120) para determinar uma característica de bloco de um bloco atual do sinal de áudio e para determinar uma característica média para um grupo de blocos, sendo que o grupo de blocos compreende pelo menos dois blocos; e um separador (130) para separar o bloco atual em uma porção de segundo plano e uma porção de primeiro plano em resposta a uma razão da característica de bloco do bloco atual e da característica média do grupo de blocos, em que o sinal de componente de segundo plano (140) compreende a porção de segundo plano do bloco atual e o sinal de componente de primeiro plano (150) compreende a porção de primeiro plano do bloco atual.
2. Aparelho, de acordo com a reivindicação 1, caracterizado por o analisador de sinal de áudio ser configurado para analisar uma medida relacionada à amplitude como a característica do bloco atual e a característica relacionada à amplitude como a característica média para o grupo de blocos.
3. Aparelho, de acordo com a reivindicação 1 ou 2, caracterizado por o analisador de sinal de áudio (120) ser configurado para analisar uma medida de potência ou uma medida de energia para o bloco atual e uma medida de potência média ou uma medida de energia média para o grupo de blocos.
4. Aparelho, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por o separador (130) ser configurado para calcular um ganho de separação a partir da razão, para ponderar os valores de sinal de
Petição 870190045735, de 15/05/2019, pág. 176/200
2/7 áudio do bloco atual com o uso do ganho de separação para obter a porção de primeiro plano do quadro atual e para determinar o componente de segundo plano, de modo que o sinal de segundo plano constitua um sinal restante, ou em que o separador é configurado para calcular um ganho de separação a partir da razão, para ponderar os valores de sinal de áudio do bloco atual com o uso do ganho de separação para obter a porção de segundo plano do quadro atual e para determinar o componente de primeiro plano, de modo que o sinal de componente de primeiro plano constitua um sinal restante.
5. Aparelho, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado por o separador (130) ser configurado para calcular um ganho de separação com o uso da ponderação da razão com o uso de um fator de ponderação predeterminado diferente de zero.
6. Aparelho, de acordo com a reivindicação 5, caracterizado por o separador (130) ser configurado para calcular o ganho de separação com o uso de um termo 1 - (gN/qj(n))p ou (max(1 (gN/ip(n))))P, em que gN é o fator predeterminado, ψ(η) é a razão e p é uma potência maior que zero e que é um número inteiro ou um número não inteiro, e em que n é um índice de bloco, e em que max é uma função máxima.
7. Aparelho, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por o separador (130) ser configurado para comparar uma razão do bloco atual com um limiar e para separar o bloco atual, quando a razão do bloco atual está em uma relação predeterminada com o limiar e em que o separador (130) é configurado para não separar um bloco adicional, sendo que o bloco adicional tem uma razão que não tem a relação predeterminada com o limiar, de modo que o bloco adicional pertença completamente ao sinal de componente de segundo plano (140).
8. Aparelho, de acordo com a reivindicação 7, caracterizado por o separador (130) ser configurado para separar um bloco seguinte depois do bloco atual a tempo com o uso da comparação da razão do bloco seguinte com um limiar de liberação adicional,
Petição 870190045735, de 15/05/2019, pág. 177/200
3/7 em que o limiar de liberação adicional é definido de modo que uma razão de bloco que não está na relação predeterminada com o limiar esteja na relação predeterminada com o limiar de liberação adicional.
9. Aparelho, de acordo com a reivindicação 8, caracterizado por a relação predeterminada ser “maior que” e em que o limiar de liberação é menor que o limiar de separação ou em que a relação predeterminada é “menor que” e em que o limiar de liberação é maior que o limiar de separação.
10. Aparelho, de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por o gerador de bloco (110) ser configurado para determinar blocos temporalmente sobrepostos de valores de sinal de áudio ou em que os blocos temporalmente sobrepostos têm um número de valores de amostragem que é menor ou igual a 600.
11. Aparelho, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado por o gerador de bloco ser configurado para realizar uma conversão no sentido de bloco do sinal de áudio de domínio de tempo em um domínio de frequência para obter uma representação espectral para cada bloco, em que o analisador de sinal de áudio é configurado para calcular a característica com o uso da representação espectral do bloco atual e em que o separador (130) é configurado para separar a representação espectral na porção de segundo plano e na porção de primeiro plano, de modo que, para compartimentos espectrais da porção de segundo plano e da porção de primeiro plano que correspondem à mesma frequência, cada uma tenha um valor espectral diferente de zero, em que uma relação do valor espectral da porção de primeiro plano e do valor espectral da porção de segundo plano dentro do mesmo compartimento de frequência depende da razão.
12. Aparelho, de acordo com qualquer uma das reivindicações 1 a 11, caracterizado por o gerador de bloco (110) ser configurado para realizar uma conversão no sentido de bloco do domínio de tempo no domínio de
Petição 870190045735, de 15/05/2019, pág. 178/200
4/7 frequência para obter uma representação espectral para cada bloco, em que blocos adjacentes de tempo se sobrepõem em uma faixa de sobreposição (302), em que o aparelho compreende, adicionalmente, um compositor de sinal (160a, 161a, 160b, 161 b) para compor o sinal de componente de segundo plano e para compor o sinal de componente de primeiro plano, em que o compositor de sinal é configurado para realizar uma conversão de tempo e frequência (161a, 160a, 160b) para o sinal de componente de segundo plano e para o sinal de componente de primeiro plano, e para desvanecimento cruzado (161a, 161b) de representações temporais de blocos adjacentes de tempo dentro da faixa de sobreposição para obter um sinal de componente de primeiro plano de domínio de tempo e um sinal de componente de segundo plano de domínio de tempo separado.
13. Aparelho, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado por o analisador de sinal de áudio (120) ser configurado para determinar a característica média para o grupo de blocos com o uso de uma adição ponderada de características individuais de blocos no grupo de blocos.
14. Aparelho, de acordo com qualquer uma das reivindicações 1 a 13, caracterizado por o analisador de sinal de áudio (120) ser configurado para realizar uma adição ponderada de características individuais de blocos no grupo de blocos, em que um valor de ponderação para uma característica de um bloco próximo em tempo ao bloco atual é maior que um valor de ponderação para uma característica de um bloco adicional menos próximo em tempo ao bloco atual.
15. Aparelho, de acordo com qualquer uma das reivindicações 13 ou 14, caracterizado por o analisador de sinal de áudio (120) ser configurado para determinar o grupo de blocos, de modo que o grupo de blocos compreenda pelo menos vinte blocos antes do bloco correspondente ou pelo
Petição 870190045735, de 15/05/2019, pág. 179/200
5/7 menos vinte blocos subsequentes ao bloco atual.
16. Aparelho, de acordo com qualquer uma das reivindicações 1 a 15, caracterizado por o analisador de sinal de áudio ser configurado para usar um valor de normalização dependendo de um número de blocos no grupo de blocos ou dependendo dos valores de ponderação para os blocos no grupo de blocos.
17. Aparelho, de acordo com qualquer uma das reivindicações 1 a 16, caracterizado por compreender, adicionalmente, um medidor de característica de sinal (702, 704) para medir uma característica de sinal de pelo menos um dentre os sinais de componente de segundo plano ou os sinais de componente de primeiro plano.
18. Aparelho, de acordo com a reivindicação 17, caracterizado por o medidor de característica de sinal ser configurado para determinar uma densidade de primeiro plano (702) com o uso do sinal de componente de primeiro plano ou para determinar uma proeminência de primeiro plano (704) com o uso do sinal de componente de primeiro plano e do sinal de entrada de áudio.
19. Aparelho, de acordo com qualquer uma das reivindicações 1 a 18, caracterizado por o sinal de componente de primeiro plano compreender sinais de palmas, em que o aparelho compreende, adicionalmente, um modificador de característica de sinal para modificar o sinal de componente de primeiro plano aumentando-se um número de palmas ou diminuindo-se um número de palmas ou aplicando-se um peso ao sinal de componente de primeiro plano ou ao sinal de componente de segundo plano para modificar uma relação de energia entre o sinal de palma de primeiro plano e o sinal de componente de segundo plano que é um sinal semelhante a ruído.
20. Aparelho, de acordo com qualquer uma das reivindicações 1 a 19, caracterizado por compreender, adicionalmente, um mixador de aumento cego para mixagem de aumento do sinal de áudio em uma representação que tem um número de canais de saída que é maior que um
Petição 870190045735, de 15/05/2019, pág. 180/200
6/7 número de canais do sinal de áudio, em que o mixador de aumento é configurado para distribuir espacialmente o sinal de componente de primeiro plano nos canais de saída, sendo que o sinal de componente de primeiro plano no número de canais de saída está correlacionado, e para distribuir espacialmente o sinal de componente de segundo plano nos canais de saída, sendo que os sinais de componente de segundo plano nos canais de saída estão menos correlacionados que os sinais de componente de primeiro plano ou não estão correlacionados.
21. Aparelho, de acordo com qualquer uma das reivindicações 1 a 20, caracterizado por compreender, adicionalmente, um estágio de codificador (801,802) para codificar separadamente o sinal de componente de primeiro plano e o sinal de componente de segundo plano de modo a obter uma representação codificada (804) do sinal de componente de primeiro plano e uma representação codificada separada do sinal de componente de segundo plano (806) para transmissão ou armazenamento ou decodificação.
22. Método para decompor um sinal de áudio (100) em um sinal de componente de segundo plano (140) e um sinal de componente de primeiro plano (150), sendo que o método é caracterizado por compreender:
gerar (110) uma sequência temporal de blocos de valores de sinal de áudio;
determinar (120) uma característica de bloco de um bloco atual do sinal de áudio e determinar uma característica média para um grupo de blocos, sendo que o grupo de blocos compreende pelo menos dois blocos; e separar (130) o bloco atual em uma porção de segundo plano e uma porção de primeiro plano em resposta a uma razão da característica de bloco do bloco atual e da característica média do grupo de blocos, em que o sinal de componente de segundo plano (140) compreende a porção de segundo plano do bloco atual e o sinal de componente de primeiro plano (150) compreende a porção de primeiro plano do bloco atual.
23. Programa de computador caracterizado por realizar, quando
Petição 870190045735, de 15/05/2019, pág. 181/200
7/7 executado em um computador ou processador, o método, como definido na reivindicação 22.
BR112019009944A 2016-11-17 2017-11-16 aparelho e método para decompor um sinal de áudio e programa de computador BR112019009944A2 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16199402.5A EP3324407A1 (en) 2016-11-17 2016-11-17 Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
PCT/EP2017/079516 WO2018091614A1 (en) 2016-11-17 2017-11-16 Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic

Publications (1)

Publication Number Publication Date
BR112019009944A2 true BR112019009944A2 (pt) 2019-08-20

Family

ID=57348523

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112019009944A BR112019009944A2 (pt) 2016-11-17 2017-11-16 aparelho e método para decompor um sinal de áudio e programa de computador

Country Status (11)

Country Link
US (1) US11183199B2 (pt)
EP (2) EP3324407A1 (pt)
JP (1) JP7161215B2 (pt)
KR (1) KR102427414B1 (pt)
CN (1) CN110114828B (pt)
BR (1) BR112019009944A2 (pt)
CA (1) CA3043964C (pt)
ES (1) ES2930268T3 (pt)
MX (1) MX2019005739A (pt)
RU (1) RU2729050C1 (pt)
WO (1) WO2018091614A1 (pt)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
US11023722B2 (en) * 2018-07-11 2021-06-01 International Business Machines Corporation Data classification bandwidth reduction
CN114097031A (zh) * 2020-06-23 2022-02-25 谷歌有限责任公司 智能背景噪声估计器

Family Cites Families (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US7006881B1 (en) 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
JP2000250568A (ja) 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
US6424960B1 (en) 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
WO2002056297A1 (en) * 2001-01-11 2002-07-18 Sasken Communication Technologies Limited Adaptive-block-length audio coder
US7058889B2 (en) 2001-03-23 2006-06-06 Koninklijke Philips Electronics N.V. Synchronizing text/visual information with audio playback
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7386217B2 (en) 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
US7492908B2 (en) 2002-05-03 2009-02-17 Harman International Industries, Incorporated Sound localization system based on analysis of the sound field
US7567845B1 (en) 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
KR100908117B1 (ko) * 2002-12-16 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
WO2004084182A1 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Decomposition of voiced speech for celp speech coding
KR100486736B1 (ko) 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
WO2005117366A1 (ja) 2004-05-26 2005-12-08 Nippon Telegraph And Telephone Corporation 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
DE102005014477A1 (de) * 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US8050915B2 (en) * 2005-07-11 2011-11-01 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signals using hierarchical block switching and linear prediction coding
KR101237413B1 (ko) * 2005-12-07 2013-02-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
US8898056B2 (en) 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8204237B2 (en) 2006-05-17 2012-06-19 Creative Technology Ltd Adaptive primary-ambient decomposition of audio signals
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
JP2008015481A (ja) 2006-06-08 2008-01-24 Audio Technica Corp 音声会議装置
WO2008030104A1 (en) 2006-09-07 2008-03-13 Lumex As Relative threshold and use of edges in optical character recognition process
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
US8239052B2 (en) 2007-04-13 2012-08-07 National Institute Of Advanced Industrial Science And Technology Sound source separation system, sound source separation method, and computer program for sound source separation
EP2028651A1 (en) 2007-08-24 2009-02-25 Sound Intelligence B.V. Method and apparatus for detection of specific input signal contributions
MX2010004138A (es) 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.
US8892432B2 (en) * 2007-10-19 2014-11-18 Nec Corporation Signal processing system, apparatus and method used on the system, and program thereof
US9374453B2 (en) * 2007-12-31 2016-06-21 At&T Intellectual Property I, L.P. Audio processing for multi-participant communication systems
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US8630848B2 (en) * 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
US8359205B2 (en) * 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
JP5277887B2 (ja) 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
US20100138010A1 (en) 2008-11-28 2010-06-03 Audionamix Automatic gathering strategy for unsupervised source separation algorithms
US20100174389A1 (en) 2009-01-06 2010-07-08 Audionamix Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2446539B1 (en) * 2009-06-23 2018-04-11 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
ES2524428T3 (es) 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
US8498863B2 (en) 2009-09-04 2013-07-30 Massachusetts Institute Of Technology Method and apparatus for audio source separation
JP5493655B2 (ja) 2009-09-29 2014-05-14 沖電気工業株式会社 音声帯域拡張装置および音声帯域拡張プログラム
CN102044246B (zh) 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CA2778343A1 (en) 2009-10-19 2011-04-28 Martin Sehlstedt Method and voice activity detector for a speech encoder
US20110099010A1 (en) * 2009-10-22 2011-04-28 Broadcom Corporation Multi-channel noise suppression system
EP2546831B1 (en) * 2010-03-09 2020-01-15 Mitsubishi Electric Corporation Noise suppression device
US8447595B2 (en) * 2010-06-03 2013-05-21 Apple Inc. Echo-related decisions on automatic gain control of uplink speech signal in a communications device
JP5706782B2 (ja) 2010-08-17 2015-04-22 本田技研工業株式会社 音源分離装置及び音源分離方法
US8812322B2 (en) * 2011-05-27 2014-08-19 Adobe Systems Incorporated Semi-supervised source separation using non-negative techniques
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
US9633654B2 (en) * 2011-12-06 2017-04-25 Intel Corporation Low power voice detection
WO2013149123A1 (en) * 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
JP6064566B2 (ja) * 2012-12-07 2017-01-25 ヤマハ株式会社 音響処理装置
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
US9076459B2 (en) 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
US9384741B2 (en) 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
CN104217729A (zh) * 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
US20150127354A1 (en) 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
FR3013885B1 (fr) * 2013-11-28 2017-03-24 Audionamix Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange
CN104143326B (zh) 2013-12-03 2016-11-02 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US20170178664A1 (en) 2014-04-11 2017-06-22 Analog Devices, Inc. Apparatus, systems and methods for providing cloud based blind source separation services
JP6660313B2 (ja) 2014-06-30 2020-03-11 ベンタナ メディカル システムズ, インコーポレイテッド 画像解析を用いた核のエッジの検出
EP2980789A1 (en) 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
RU2589298C1 (ru) * 2014-12-29 2016-07-10 Александр Юрьевич Бредихин Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
FR3031225B1 (fr) * 2014-12-31 2018-02-02 Audionamix Procede de separation ameliore et produit programme d'ordinateur
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
TWI573133B (zh) * 2015-04-15 2017-03-01 國立中央大學 音訊處理系統及方法
US9747923B2 (en) * 2015-04-17 2017-08-29 Zvox Audio, LLC Voice audio rendering augmentation
MX2018003529A (es) * 2015-09-25 2018-08-01 Fraunhofer Ges Forschung Codificador y metodo para codificar una se?al de audio con ruido de fondo reducido que utiliza codificacion predictiva lineal.
US9812132B2 (en) * 2015-12-31 2017-11-07 General Electric Company Acoustic map command contextualization and device control
EP3411876B1 (en) * 2016-02-05 2021-12-15 Cerence Operating Company Babble noise suppression
US9881619B2 (en) 2016-03-25 2018-01-30 Qualcomm Incorporated Audio processing for an acoustical environment
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US10504539B2 (en) * 2017-12-05 2019-12-10 Synaptics Incorporated Voice activity detection systems and methods

Also Published As

Publication number Publication date
RU2729050C1 (ru) 2020-08-04
JP2019537750A (ja) 2019-12-26
CN110114828B (zh) 2023-10-27
ES2930268T3 (es) 2022-12-09
EP3542362A1 (en) 2019-09-25
EP3324407A1 (en) 2018-05-23
KR20190085062A (ko) 2019-07-17
WO2018091614A1 (en) 2018-05-24
CA3043964C (en) 2022-06-28
CN110114828A (zh) 2019-08-09
MX2019005739A (es) 2019-09-11
EP3542362B1 (en) 2022-09-21
CA3043964A1 (en) 2018-05-24
KR102427414B1 (ko) 2022-08-01
US20190272835A1 (en) 2019-09-05
JP7161215B2 (ja) 2022-10-26
US11183199B2 (en) 2021-11-23

Similar Documents

Publication Publication Date Title
BR112019009952A2 (pt) aparelho e método para decompor um sinal de áudio e programa de computador
JP6641018B2 (ja) チャネル間時間差を推定する装置及び方法
JP5122681B2 (ja) パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ
ES2399058T3 (es) Aparato y procedimiento para generar una señal de control de sintetizador de múltiples canales y aparato y procedimiento para sintetizar múltipes canales
BR112019009944A2 (pt) aparelho e método para decompor um sinal de áudio e programa de computador
CA2887228C (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
BRPI0817982B1 (pt) aparelho e método para codificar um sinal de áudio multicanal
BR112016004299B1 (pt) Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
JP2019074755A (ja) 独立したノイズ充填を用いた強化された信号を生成するための装置および方法

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]
B06W Patent application suspended after preliminary examination (for patents with searches from other patent authorities) chapter 6.23 patent gazette]