BR112019020523A2 - aparelho e método para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio e mídia de armazenamento não transitória - Google Patents

aparelho e método para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio e mídia de armazenamento não transitória Download PDF

Info

Publication number
BR112019020523A2
BR112019020523A2 BR112019020523A BR112019020523A BR112019020523A2 BR 112019020523 A2 BR112019020523 A2 BR 112019020523A2 BR 112019020523 A BR112019020523 A BR 112019020523A BR 112019020523 A BR112019020523 A BR 112019020523A BR 112019020523 A2 BR112019020523 A2 BR 112019020523A2
Authority
BR
Brazil
Prior art keywords
frequency
audio signal
signal
spectrum
similarity
Prior art date
Application number
BR112019020523A
Other languages
English (en)
Inventor
Karampourniotis Antonios
Uhle Christian
havenstein Julia
Herre Jürgen
Hellmuth Oliver
Gampp Patrick
Prokein Peter
Disch Sascha
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of BR112019020523A2 publication Critical patent/BR112019020523A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereophonic System (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

trata-se de um aparelho para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio que compreende um derivador configurado para obter um espectro do sinal de áudio e para derivar um sinal máximo local a partir do espectro. o aparelho compreende um determinador configurado para determinar uma similaridade entre segmentos do sinal máximo local e compreende um processador para fornecer informações que indicam que o sinal de áudio compreende a característica predeterminada dependendo de uma avaliação da similaridade.

Description

Relatório Descritivo da Patente de Invenção para: “APARELHO E MÉTODO PARA DETERMINAR UMA CARACTERÍSTICA PREDETERMINADA RELACIONADA A UM PROCESSAMENTO DE APRIMORAMENTO ESPECTRAL DE UM SINAL DE ÁUDIO E MÍDIA DE ARMAZENAMENTO NÃO TRANSITÓRIA”
DESCRIÇÃO [001] E m aplicações multimídia, os sinais de áudio são frequentemente codificados com o uso de métodos de codificação perceptiva dedicados, como MPEG1/2 Camada 3 (“mp3”), MPEG2/4 Codificação de áudio avançada (AAC), etc. Ao decodificar o sinal de áudio codificado, diversos métodos de processamento podem ser aplicados de modo a reconstruir o sinal de áudio que foi codificado originalmente. No entanto, devido a operações de codificação com perdas, tais como quantização perceptivamente adaptada ou técnicas de codificação paramétrica tais como Replicação de Largura de Banda Espectral (SBR), é possível obter artefatos no sinal de áudio decodificado que podem ser perturbadores.
[002] Por um longo tempo, os codificadores de áudio perceptivos têm sido desenvolvidos para, acima de tudo, preservar a qualidade perceptiva dos sinais originais. Se o sinal codificado e não codificado for perceptivamente indistinguível, essa propriedade será chamada de transparência perceptiva.
[003] No entanto, a transparência pode ser alcançada apenas se a taxa de bits disponível (ou seja, a quantidade de dados utilizados) for alta o suficiente. Nos últimos anos, percebeu-se que, com taxas de bits baixas, o prazer perceptivo se torna mais importante do que a proximidade ao original em um sentido de transparência. Portanto, esquemas de codificação perceptivos bem estabelecidos, tais como MP3 ou AAC, podem parecer subótimos até o momento, comparados às abordagens de codificação modernas que visam o prazer perceptivo.
[004] A seguir, alguns artefatos de codificação são descritos brevemente.
ARTEFATO DE BIRDIES [005] Na codificação de transformada de baixa taxa de bits, frequentemente os quantizadores para a codificação das linhas espectrais têm que ser definidos com uma
Petição 870190124366, de 27/11/2019, pág. 5/117
2/82 precisão muito grossa, de modo que sua faixa dinâmica seja poliadaptada ao sinal. Como resultado, muitas linhas espectrais são quantizadas para 0 pela zona morta do quantizador ou para o valor 1, que corresponde à primeira etapa do quantizador. Ao longo do tempo, as linhas espectrais ou grupos de linhas podem alternar entre 0 e 1 introduzindo, desse modo, modulação temporal indesejada. Esse artefato é chamado de Birdies, que é reminiscente do gorjear de um pássaro. Portanto, essa presença fortemente variável com o tempo de orifícios espectrais e ilhas espectrais é um comportamento indesejável do codec que leva a artefatos perceptivos questionáveis, consultar [2] e [3].
LIMITAÇÃO DE LARGURA DE BANDA [006] Outro artefato de codificação bem conhecido é limitação de largura de banda. Se, em condições de codificação de baixa taxa de bits, a previsão de bits disponível for insuficiente para acomodar a precisão necessária para a transparência, os codecs legados frequentemente introduzem uma passa-baixa estática para limitar a largura de banda de áudio. Isso pode levar a uma impressão sonora sem brilho e abafada, consultar [2] e [3].
ARTEFATO DE PICO TONAL [007] Esse artefato aparece em conexão com métodos de extensão de largura de banda artificial, tais como replicação de banda espectral (SBR), consultar [4], quando a razão de tonalidade/ruído tiver sido superestimada. Nesse caso os componentes tonais são recriados com muita energia, o que leva a um som metálico, consultar [3].
ARTEFATO PULSANTE [008] Assim como o artefato de pico tonal, o artefato pulsante aparece em conjunto com a extensão de largura de banda artificial. A pulsação cria a percepção de aspereza e emerge de dois componentes tonais com distância de frequência próxima, o que pode ser provocado pela cópia, conforme usado em SBR, consultar [3]· [009] Portanto, é um objetivo detectar, se o sinal de áudio foi submetido a um
Petição 870190124366, de 27/11/2019, pág. 6/117
3/82 processamento que seja capaz de introduzir artefatos e/ou reduzir tais artefatos.
[0010] Um exemplo de um método de processamento que pode ser uma origem de artefatos é a Replicação de Banda Espectral (SBR), que é um método semiparamétrico para estender a largura de banda de um sinal de áudio no lado do decodificador. Em uma primeira etapa, partes do espectro de sinal de passa-baixa transmitido são replicadas copiando os coeficientes espectrais da região de frequência inferior para a superior. Em uma segunda etapa, o invólucro espectral é ajustado. O ajuste do invólucro espectral é realizado de modo que o formato grosso do espectro corresponda a um alvo determinado, enquanto que a estrutura fina permanece inalterada.
[0011] A detecção de SBR é desejada devido ao fato de que, a partir das informações obtidas, pode-se concluir que
1. Os sinais foram compactados por meio de codificação de áudio perceptiva (ou seja, com perda). Daí decorre que uma aplicação de métodos de aprimoramento que endereça os tipos de artefato mencionados acima é apropriada.
[0012] 2. A qualidade de som do sinal pode potencialmente ser aprimorada por métodos dedicados para reduzir a audibilidade de artefatos que tenham sido introduzidos pelo SBR. Tais métodos se beneficiam do conhecimento sobre a frequência de início na qual a SBR está em vigor.
[0013] A frequência de início na qual a SBR está em vigor é de interesse para pósprocessamentos que melhoram a qualidade de som mitigando-se artefatos introduzidos pelo SBR. Portanto, existe uma necessidade de detectar SBR e estimar a frequência de início do SBR. Em particular, é um desejo determinar se tal aprimoramento é desejado ou não. Por exemplo, o mesmo não é apropriado para sinais de alta qualidade de som, devido ao aprimoramento poder degradar a qualidade de som quando o sinal de áudio é de alta qualidade sonora.
[0014] Um método para a detecção de SBR é descrito no documento US 9.117.440 B2. O método descrito opera em sinais de sub-banda que são computados com o uso de um banco de filtros ou transformada de frequência-tempo. O mesmo,
Petição 870190124366, de 27/11/2019, pág. 7/117
4/82 em seguida, quantifica a relação entre múltiplas sub-bandas por meio de correlação cruzada, ou seja, ao multiplicar as amostras correspondentes e acumular esses produtos ao longo do tempo.
[0015] Outro exemplo de uma origem de artefatos é a redução de largura de banda (BR), que também é denominada limitação de largura de banda (BL). Quando a largura de banda é severamente limitada, é percebida uma degradação da qualidade de som e um aprimoramento de qualidade é desejado. Tal aprimoramento de qualidade pode compreender uma extensão de largura de banda (BWE), que deve ser aplicada apenas se necessário, ou seja, quando a largura de banda natural dos sinais tiver sido severamente reduzida de modo artificial. Um método para BWE que usa uma estimativa da largura de banda é descrito em [1], A largura de banda é estimada detectando-se a frequência mais alta presente no sinal a qualquer momento. Esse método é propenso a erros de detecção de falsos positivos, devido ao fato de que um sinal de áudio pode ter uma largura de banda limitada por natureza, uma vez que o mecanismo que gerou o sinal gerou apenas energia em frequências mais baixas.
[0016] Resumindo, os codificadores de áudio perceptivos são amplamente utilizados quando o espaço de armazenamento ou a largura de banda de transmissão contínua para o conteúdo de áudio é limitado. Se a taxa de compactação aplicada for muito alta (e a taxa de dados usada após a compactação for muito baixa), são introduzidos vários artefatos de codificação que degradam a qualidade de áudio percebida.
[0017] Portanto, é um objetivo da invenção fornecer uma identificação aprimorada de sinais de áudio, que compreende uma característica ser obtida pelo processamento de áudio propenso a artefatos e/ou fornecer um conceito para reduzir tais artefatos através da aplicação de pós-processamentos dedicados nesse material de áudio.
[0018] Esse objetivo é alcançado pela matéria de acordo com as reivindicações independentes.
[0019] De acordo com um primeiro aspecto, os inventores constataram que, com o uso de um sinal máximo local que é derivado dos sinais de áudio e determinando
Petição 870190124366, de 27/11/2019, pág. 8/117
5/82 se uma similaridade entre segmentos do sinal máximo local, uma identificação segura e eficiente de uma característica relacionada a um processamento de aprimoramento espectral pode ser obtido de modo que um pós-processamento respectivo possa ser implantado para o respectivo sinal de áudio, de modo a reduzir, por exemplo, o artefato de pico tonal e/ou o artefato pulsante. Com base na avaliação do sinal, uma informação secundária que indica o processamento de áudio implantado pode não ser necessária, de modo que seja possível uma operação às cegas do módulo.
[0020] De acordo com uma modalidade do primeiro aspecto, um aparelho para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio compreende um derivador configurado para obter um espectro do sinal de áudio e para derivar informações relacionadas a uma estrutura fina do espectro. O aparelho compreende um determinador configurado para determinar uma similaridade na estrutura fina do espectro. O aparelho compreende adicionalmente um processador para fornecer informações que indicam que o sinal de áudio compreende a característica predeterminada dependente de uma avaliação da similaridade. Para comparar uma similaridade entre os segmentos das informações relacionadas à estrutura fina, pode ser exigida uma quantidade baixa de esforço computacional. Ademais, pode ser obtida uma determinação precisa e segura de segmentos similares, que indica que um processamento de aprimoramento espectral pode ter sido realizado.
[0021] De acordo com uma modalidade adicional do primeiro aspecto, um método para determinar uma característica predeterminada relacionada com um processamento de melhoria do espectro de um sinal de áudio compreende obter um espectro do sinal de áudio e derivar informações relacionadas a uma estrutura fina do espectro. O método compreende determinar uma similaridade na estrutura fina, tal como entre segmentos das informações relacionadas à estrutura fina, e compreende fornecer informações que indicam que o sinal de áudio compreende a característica predeterminada dependente de uma avaliação da similaridade.
[0022] De acordo com uma modalidade adicional do primeiro aspecto, uma mídia
Petição 870190124366, de 27/11/2019, pág. 9/117
6/82 de armazenamento não transitória tem armazenado na mesma um programa de computador que tem um código de programa para realizar esse método quando executado em um computador.
[0023] De acordo com um segundo aspecto, os inventores constataram que, ao avaliar um espectro de um sinal de áudio em relação a uma inclinação do espectro, uma caracterização segura e eficiente do sinal de áudio, de modo a compreender uma característica relacionada a um processamento de limitação de largura de banda artificial, pode ser obtida de modo a permitir um pós-processamento respectivo, por exemplo, para reduzir ou eliminar um artefato de birdies e/ou um artefato de limitação de largura de banda. Com base na avaliação do sinal, uma informação secundária que indica o processamento de áudio implantado pode não ser exigida, de modo que seja possível uma operação às cegas do módulo.
[0024] De acordo com uma modalidade do segundo aspecto, um aparelho para determinar uma característica predeterminada relacionada a um processamento de limitação de largura de banda artificial de um sinal de áudio compreende um avaliador de inclinação configurado para avaliar uma inclinação de um espectro do sinal de áudio para obter um resultado de avaliação de inclinação. O aparelho compreende adicionalmente um processador para fornecer informações que indicam que o sinal de áudio compreende a característica predeterminada dependente de uma avaliação do resultado de avaliação de inclinação. Ao basear a avaliação se o sinal de áudio compreender uma característica relacionada a um processamento de limitação de largura de banda artificial na inclinação do espectro, por exemplo, uma borda descendente do espectro, uma detecção precisa do processamento de limitação de largura de banda artificial pode ser obtida com o uso de um baixo esforço computacional.
[0025] De acordo com outra modalidade do segundo aspecto, um método para determinar uma característica predeterminada relacionada a um processamento de limitação de largura de banda artificial de um sinal de áudio compreende avaliar uma inclinação de um espectro do sinal de áudio para obter um resultado de avaliação de
Petição 870190124366, de 27/11/2019, pág. 10/117
7/82 inclinação. O método compreende fornecer informações que indicam que o sinal de áudio compreende a característica predeterminada dependente de uma avaliação do resultado de avaliação de inclinação.
[0026] De acordo com uma modalidade do segundo aspecto, uma mídia de armazenamento não transitória tem armazenado na mesma um programa de computador com um código de programa para realizar esse método quando executado em um computador.
[0027] Tanto o primeiro quanto o segundo aspecto permitem discriminar entre sinais de áudio ou quadros dos mesmos que são submetidos a um processamento respectivo e sinais de áudio ou quadros dos mesmos que não tenham sido submetidos de modo a evitar pós-processamento de quadros não submetidos.
[0028] De acordo com um terceiro aspecto, os inventores constataram que, ao realizar uma extensão de largura de banda para diferentes porções que têm características de sinal diferentes de um sinal de áudio de maneira diferente, o aprimoramento das diferentes porções e/ou características pode ser realizado independentemente um do outro, de modo a obter um sinal combinado com uma qualidade alta que compreende primeiras porções aprimoradas e aprimora segundas porções. O processamento de características de sinal diferentes de maneira diferente pode permitir a adaptação do processamento com base nas respectivas características.
[0029] De acordo com uma modalidade do terceiro aspecto, um aparelho para processar um sinal de áudio compreende um separador para separar uma primeira porção de um espectro do sinal de áudio de uma segunda porção do espectro do sinal de áudio. A primeira porção tem uma primeira característica de sinal e a segunda porção tem uma segunda característica de sinal. O aparelho compreende um primeiro extensor de largura de banda para estender uma largura de banda da primeira porção com o uso de primeiros parâmetros associados à primeira característica de sinal, para obter uma primeira porção estendida. O aparelho compreende um segundo extensor de largura de banda para estender uma largura de banda da segunda porção com o
Petição 870190124366, de 27/11/2019, pág. 11/117
8/82 uso de segundos parâmetros associados à segunda característica de sinal, para obter uma segunda porção estendida. O aparelho compreende adicionalmente um combinador configurado para usar a primeira porção estendida e a segunda porção estendida para obter um sinal de áudio combinado estendido. Isso pode permitir o aprimoramento das porções diferentes com características de sinal diferentes, independentes umas das outras, de modo a obter um sinal de áudio combinado com uma qualidade alta.
[0030] De acordo com outra modalidade do terceiro aspecto, um método para processar um sinal de áudio compreende separar uma primeira porção de um espectro do sinal de áudio de uma segunda porção do espectro do sinal de áudio, sendo que a primeira porção tem uma primeira característica de sinal e a segunda porção tem uma segunda característica de sinal. O método compreende estender uma largura de banda da primeira porção com o uso dos primeiros parâmetros associados à primeira característica de sinal, para obter uma primeira porção estendida. O método compreende estender uma largura de banda da segunda porção com o uso de um segundo parâmetro associado à segunda característica de sinal, para obter uma segunda porção estendida. O método compreende adicionalmente o uso da primeira porção estendida e da segunda porção estendida para obter um sinal de áudio combinado estendido.
[0031] De acordo com outra modalidade do terceiro aspecto, uma mídia de armazenamento não transitória tem armazenado na mesma um programa de computador que possui um código de programa para realizar esse método, quando executado em um computador.
[0032] De acordo com um quarto aspecto, os inventores constataram que ao deslocar de fase uma porção de um sinal de áudio em relação a uma porção diferente do sinal de áudio, uma aspereza percebida pode ser reduzida. Em particular, uma porção que pode ser gerada ou copiada para estender a largura de banda pode ser deslocada de fase quando comparada a um espectro não estendido.
[0033] De acordo com uma modalidade do quarto aspecto, um aparelho para
Petição 870190124366, de 27/11/2019, pág. 12/117
9/82 processar um sinal de áudio compreende um filtro antiaspereza para deslocar de fase pelo menos uma porção do sinal de áudio, de modo a obter um sinal de fase deslocada. O aparelho compreende um filtro passa-alta configurado para filtrar os sinais de fase deslocada, de modo a obter um primeiro sinal filtrado. O aparelho compreende um filtro passa-baixa configurado para filtrar o sinal de áudio de modo a obter um segundo sinal filtrado. O aparelho compreende um combinador configurado para combinar o primeiro sinal filtrado e o segundo sinal filtrado, de modo a obter um sinal de áudio aprimorado. O aparelho permite porções de deslocamento de fase deixadas pelo filtro passa-alta quando comparadas às porções deixadas pelo filtro passa-baixa, de modo que o primeiro sinal filtrado possa compreender porções com deslocamento de fase quando comparado ao sinal de áudio, o segundo sinal filtrado, respectivamente. Isso pode permitir a obtenção de uma baixa aspereza no sinal combinado.
[0034] De acordo com outra modalidade do quarto aspecto, um método para processar um sinal de áudio compreende deslocar de fase pelo menos uma porção do sinal de áudio, de modo a obter um sinal de fase deslocada. O método compreende filtrar os sinais de fase deslocada com o uso de um filtro passa-alta, de modo a obter um primeiro sinal filtrado. O método compreende adicionalmente filtrar o sinal de áudio com o uso de um filtro passa-baixa, de modo a obter um segundo sinal filtrado. O método compreende adicionalmente combinar o primeiro sinal filtrado e o segundo sinal filtrado, de modo a obter um sinal de áudio aprimorado.
[0035] De acordo com outra modalidade do quarto aspecto, uma mídia de armazenamento não transitória tem armazenado na mesma um programa de computador que possui um código de programa para realizar esse método, quando executado em um computador.
[0036] Modalidades adicionais da presente invenção são definidas nas reivindicações dependentes.
[0037] Para um entendimento mais completo da presente revelação e das vantagens da mesma, agora é feita referência às descrições a seguir em conjunto com
Petição 870190124366, de 27/11/2019, pág. 13/117
10/82 os desenhos anexos, em que:
A Figura 1 mostra um diagrama de blocos esquemático de um aparelho para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio, de acordo com uma modalidade do primeiro aspecto;
A Figura 2a mostra um gráfico esquemático que ilustra um espectro exemplificative de acordo com uma modalidade do primeiro aspecto, que pode ser derivado de um sinal de áudio a partir do qual o espectro da Figura 1 pode ser obtido;
A Figura 2b mostra um diagrama exemplificativo esquemático do sinal máximo local sobre a mesma abscissa de frequência que a Figura 2a, de acordo com uma modalidade do primeiro aspecto;
A Figura 3 mostra um gráfico esquemático de acordo com uma modalidade do primeiro aspecto para determinar a similaridade com o uso de uma regra de determinação;
A Figura 4 mostra um exemplo de uma função de similaridade pós-processada, de acordo com uma modalidade do primeiro aspecto, ilustrada como valor filtrado da mesma;
A Figura 5 mostra um diagrama de blocos esquemático de um aparelho, de acordo com uma modalidade do primeiro aspecto, que compreende um estimador de frequência;
A Figura 6a mostra uma representação gráfica esquemática de uma matriz de similaridade local exemplificativa de acordo com uma modalidade do primeiro aspecto; A Figura 6b mostra um diagrama esquemático de uma linha da matriz ilustrada na Figura 6a de acordo com uma modalidade do primeiro aspecto;
A Figura 7 mostra um diagrama de blocos esquemático de um aparelho, de acordo com uma modalidade do primeiro aspecto, que compreende um calculador de espectro;
A Figura 8 mostra um fluxograma esquemático de um método para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio de acordo com uma modalidade do primeiro aspecto;
Petição 870190124366, de 27/11/2019, pág. 14/117
11/82
A Figura 9 mostra um diagrama de blocos esquemático de um aparelho, de acordo com uma modalidade do segundo aspecto;
A Figura 10 mostra um diagrama esquemático que ilustra um espectro exemplificative em conexão com uma modalidade do segundo aspecto;
A Figura 11 mostra um diagrama esquemático de um resultado exemplificativo de uma função de diferença espectral, de acordo com uma modalidade do segundo aspecto;
A Figura 12a mostra um diagrama de blocos esquemático de um aparelho, de acordo com uma modalidade do segundo aspecto, que compreende um estimador de energia; A Figura 12b mostra um espectro exemplificativo que compreende uma borda descendente a uma frequência de corte, de acordo com uma modalidade do segundo aspecto;
A Figura 12c mostra um diagrama de blocos esquemático de um aparelho configurado para processar um sinal de áudio que pode ser recebido de um decodificador, de acordo com uma modalidade do segundo aspecto;
A Figura 12d mostra um diagrama de blocos esquemático de uma funcionalidade de um processador para determinar pesos espectrais, de acordo com uma modalidade do segundo aspecto;
A Figura 12e mostra um diagrama de blocos esquemático de um aprimorador de sinal, de acordo com uma modalidade do segundo aspecto, configurado para reduzir o artefato de Birdies;
A Figura 12f mostra um fluxograma esquemático de um método para processar um sinal de áudio, de acordo com uma modalidade do segundo aspecto;
A Figura 13a mostra um fluxograma esquemático de um método para determinar uma característica predeterminada relacionada a um processamento de limitação de largura de banda artificial de um sinal de áudio, de acordo com uma modalidade do segundo aspecto;
A Figura 13b mostra um fluxograma esquemático de um método adicional para determinar uma característica predeterminada relacionada a um processamento de limitação de largura de banda artificial de um sinal de áudio, de acordo com uma
Petição 870190124366, de 27/11/2019, pág. 15/117
12/82 modalidade do segundo aspecto, o método também avalia uma frequência de corte;
A Figura 14 mostra um diagrama de blocos esquemático de um aparelho, de acordo com uma modalidade do terceiro aspecto;
A Figura 15 mostra um diagrama esquemático que ilustra um espectro exemplar que compreende componentes diferentes, de acordo com uma modalidade do terceiro aspecto;
A Figura 16 mostra um diagrama de blocos esquemático de um aparelho, de acordo com uma modalidade do terceiro aspecto;
A Figura 17a mostra um espectro exemplificativo de uma primeira porção do sinal de áudio, de acordo com uma modalidade do terceiro aspecto;
A Figura 17b mostra um diagrama esquemático da primeira porção que é estendida por um número de duas partes duplicadas, de acordo com uma modalidade do terceiro aspecto;
A Figura 17c mostra um espectro de magnitude exemplificativo que pode ser obtido a partir de um modelador de invólucros que é configurado para modelar pelo menos as porções estendidas da Figura 17b, de acordo com uma modalidade do terceiro aspecto;
A Figura 18 mostra um diagrama de blocos esquemático de um clareador espectral que é configurado para clarear o sinal de áudio, de acordo com uma modalidade do terceiro aspecto;
Afigura 19 mostra uma funcionalidade de blocos opcionais, que são um analisador de sinal e uma tabela de pesquisa do aparelho da figura 16, de acordo com uma modalidade do terceiro aspecto;
A Figura 20 mostra um fluxograma esquemático de um método, de acordo com uma modalidade do terceiro aspecto;
A Figura 21 mostra um diagrama esquemático de um aparelho, de acordo com uma modalidade do quarto aspecto;
A Figura 22 mostra um diagrama de blocos esquemático de um aparelho que compreende um separador, de acordo com uma modalidade do quarto aspecto; e
Petição 870190124366, de 27/11/2019, pág. 16/117
13/82
A Figura 23 mostra um fluxograma esquemático de um método para processar um sinal de áudio, de acordo com uma modalidade do terceiro aspecto.
[0038] Elementos iguais ou equivalentes ou elementos com funcionalidade igual ou equivalente são denotados na descrição a seguir por numerais de referência iguais ou equivalentes, mesmo que ocorram em figuras diferentes.
[0039] Também deve ser observado que as modalidades descritas no presente documento se referem a processamento de sinal digital. Portanto, todos os sinais são de banda limitada a frequências abaixo da metade da frequência de amostragem devido à amostragem. A limitação de largura de banda (artificial) discutida aqui se refere à limitação de largura de banda adicional, de modo que a largura de banda do sinal seja menor do que a representação digital permitiría.
[0040] O primeiro aspecto e o segundo aspecto se referem a identificar características de sinal dentro de um sinal de áudio que indica que o respectivo sinal de áudio foi submetido a um processamento específico. Ao identificar a respectiva característica e parâmetros relacionados à mesma, ações e processamento apropriados podem ser realizados ou executados de modo a reduzir ou eliminar artefatos que possam ocorrer em resposta ao processamento. Portanto, a redução de artefatos que, possivelmente, são inseridos no sinal de áudio processado pode ser entendido como relacionado ao primeiro aspecto e ao segundo aspecto, respectivamente.
[0041] O terceiro e quarto aspectos se referem ao pós-processamento de sinais de áudio. Para pós-processar sinais de áudio, a fim de aprimorar uma qualidade de áudio, podem ser usadas informações em conexão com o processamento realizado anteriormente do sinal de áudio, por exemplo, informações conforme derivadas de acordo com o primeiro e o segundo aspecto e/ou podem ser usadas em conexão com sinais de áudio diferentes.
[0042] Portanto, a seguir, será feita referência em primeiro lugar ao primeiro e segundo aspectos antes de se referir ao terceiro e quarto aspecto. O escopo do primeiro aspecto é a melhoria da qualidade de som dos sinais de áudio, em particular
Petição 870190124366, de 27/11/2019, pág. 17/117
14/82 de sinais de áudio tenham sido codificados com o uso de uma compressão com perda ou outro processamento de sinal. Replicação de Banda Espectral (SBR) é um método para codificação de áudio paramétrica para sintetizar conteúdo de alta frequência de partes replicantes do espectro de sinal de áudio a partir de frequências mais baixas, tipicamente guiado por informações secundárias que são transmitidas no fluxo de bits. O conhecimento sobre a presença de SBR e a frequência de início na qual SBR está em vigor (ou sinônimo da frequência de corte na qual o sinal teve a banda limitada antes do SBR) é usado ou exigido para aprimorar ou melhorar a qualidade de som de sinais de áudio. Modalidades de acordo com o primeiro aspecto fornecem um conceito de análise para recuperar essas informações de um sinal de áudio depois de o mesmo ter sido decodificado sem o uso das informações no fluxo de bits. O conceito descrito é capaz de detectar SBR e outros processamentos que copiam partes do espectro na sub-banda inferior e colam os mesmos em frequências superiores. Outro exemplo, exceto a SBR para esse método é com base na configuração específica de Preenchimento de Lacuna Inteligente (IGF).
[0043] Quando comparadas ao método divulgado no documento US 9.117.440 B2, as modalidades de acordo com o primeiro aspecto melhoram a robustez da análise em relação às modificações do invólucro espectral ao analisar e provavelmente analisar exclusivamente a estrutura fina do espectro. Além disso, o mesmo possui menos carga computacional, uma vez que o relacionamento é computado com o uso da soma de números binários em vez de multiplicação.
[0044] A Figura 1 mostra um diagrama de blocos esquemático de um aparelho 10 para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio 12, por exemplo, uma SBR e/ou IGF. O aparelho 10 compreende um derivador 14 configurado para obter um espectro do sinal de áudio 12 e derivar informações relacionadas a uma estrutura fina do espectro. A estrutura fina pode se relacionar ao curso das linhas espectrais dentro do espectro. Tais informações podem ser representadas, por exemplo, com o uso de um sinal máximo local que indica os locais extremos, por exemplo, máximos e/ou mínimos
Petição 870190124366, de 27/11/2019, pág. 18/117
15/82 dentro do espectro. Por exemplo, o sinal máximo local pode ter um valor predefinido, tal como um valor máximo ou um valor mínimo em uma localização do máximo local e um valor diferente em outras localizações. Por exemplo, nas outras localizações, o sinal máximo local pode compreender um valor mínimo. Alternativamente, o sinal máximo local pode compreender um valor mínimo no máximo local e um valor máximo em caso contrário. Alternativa ou adicionalmente, o sinal máximo local pode representar tanto os máximos locais quanto os mínimos locais. Desse modo, a estrutura fina do espectro pode ser mantida enquanto se atenua ou exclui outras informações. Apenas a título de exemplo não limitante, as modalidades descritas no presente documento podem se referir a um sinal máximo local derivado pelo derivador 14.
[0045] Para derivar o sinal máximo local do espectro, o derivador 14 pode derivar ou computar ou determinar o espectro do sinal de áudio 12. Alternativamente, o derivador 14 pode receber um sinal contendo informações que indicam o espectro ou o próprio espectro. Assim, o sinal ilustrado 12 pode ser um sinal no domínio de tempo ou no domínio de frequência. O espectro que é derivado pelo derivador 14 ou recebido pelo derivador 14 pode ser, por exemplo, um espectro de magnitude ou um espectro de potência. Para derivar ou computar esse espectro, uma transformada de Fourier de curto prazo (STFT) ou outras transformadas adequadas podem ser usadas. Utilizando-se a STFT, o sinal de áudio 12 pode ser dividido ou separado em vários blocos adequados e cada bloco pode ser submetido ao STFT. Isso pode permitir a obtenção de uma pluralidade de espectros do sinal de áudio, por exemplo, um espectro para cada bloco.
[0046] Por exemplo, os sinais de sub-banda podem ser computados com o uso de um banco de filtros. SBR é um processamento em que partes do espectro são replicadas. O mesmo vale para o transporte harmônico. No IGF, algumas partes do espectro, por exemplo, que compreendem uma faixa de alta frequência, são atenuadas ou ajustadas para 0 e depois recarregadas. Quando se refere à SBR, o invólucro espectral pode ser modificado, enquanto que a estrutura fina do espectro
Petição 870190124366, de 27/11/2019, pág. 19/117
16/82 pode ser mantida. Portanto, modalidades de acordo com o primeiro aspecto propõem um conceito que é robusto para modificações do invólucro espectral. Para esse fim, o derivador 14 é configurado para derivar um sinal máximo local do espectro. O sinal máximo local pode ser definido como um vetor de um comprimento específico, por exemplo, de acordo com os compartimentos de frequência no espectro, cujos elementos são definidos para 1 nos índices em que o espectro tem um máximo local e definidos como 0 em caso contrário. É importante mencionar que outras regras podem ser aplicadas. Por exemplo, além dos máximos locais, os mínimos locais podem ser definidos para um valor específico, por exemplo, 1. Alternativa ou adicionalmente, um valor diferente, por exemplo, 0 ou um valor diferente de 1, pode ser usado para indicar os máximos e/ou mínimos locais. Esse processamento pode ser similar a uma operação de clareamento ou nivelamento que mantém a estrutura fina e remove todas as outras informações. O sinal máximo local pode permitir melhorar a identificação de similaridades à medida que a comparação pode ser implantada, de modo a focar na estrutura dos segmentos comparados.
[0047] A Figura 2a mostra um gráfico esquemático que ilustra um espectro exemplificativo 16 que pode ser derivado do sinal 12 ou pode ser o sinal 12. A abscissa ilustra o índice de frequência k, em que a ordenada ilustra um valor de magnitude X (k) do espectro 16.
[0048] A Figura 2b mostra um diagrama exemplificativo esquemático do sinal máximo local Z na mesma abscissa de frequência k. Nos compartimentos de frequência ki a k?, nos quais o espectro 16 compreende os máximos locais 181 a 187, a função de máximo local Z(k) é definida para um valor máximo normalizado, tal como 1, e definida para um valor mínimo normalizado, tal como 0 em outros locais também. O formato triangular na Figura 2b pode resultar de uma interpolação entre compartimentos de frequência diferentes para uma melhor compreensão das figuras. O sinal máximo local Zpode compreender um mesmo comprimento que 0 espectro X (k). O derivador 14 pode ser configurado para fornecer um sinal 22 contendo informações que indicam 0 sinal máximo local Z(k) que é derivado do espectro 16.
Petição 870190124366, de 27/11/2019, pág. 20/117
17/82 [0049] O aparelho 10 pode compreender um determinador 24 configurado para determinar uma similaridade C (r) entre segmentos do sinal máximo local. Para a detecção do processamento de aprimoramento espectral, a similaridade entre um primeiro segmento do vetor Z(k), k = ko .... k \ e um segundo segmento do vetor Z (k + t) pode ser determinada ou computada pelo derivador 24 como uma função do atraso ou deslocamento t. Por exemplo, a similaridade C (r) pode ser computada como a soma dos valores absolutos da diferença dos dois vetores, isto é, os segmentos do sinal máximo local.
[0050] Os segmentos a serem comparados podem ter o mesmo comprimento. O comprimento depende da resolução de frequência em que o espectro e o sinal máximo local foram computados. A resolução de frequência depende do número de coeficientes espectrais que são computados. O número de coeficientes para o espectro e o sinal máximo local é de no mínimo 16 ou no máximo 16.384, mas geralmente são escolhidos valores entre 256 e 4.096. O valor exato pode ser selecionado dependendo da taxa de amostragem do sinal. O primeiro segmento pode compreender elementos do vetor de sinal máximo local que correspondem, por exemplo, a frequências na faixa entre 2.000 e 15.000 Hz.
[0051] O parâmetro τ pode variar de 1 a um valor possível máximo no sinal, por exemplo, que representa a frequência máxima ou uma frequência de pesquisa máxima, por exemplo, relacionada a uma frequência de corte no sinal de áudio 12. Isso pode ser representado como uma regra de determinação (1) [0052] A Figura 3 mostra um gráfico esquemático de acordo com um exemplo que pode ser obtido, em que a determinação da similaridade é feita com o uso da regra de determinação apresentada acima. Uma abscissa do gráfico mostra o atraso ou deslocamento r, em que a ordenada mostra um valor da função de similaridade C (r). [0053] Ao determinar o valor de similaridade C (r) para uma pluralidade de valores
Petição 870190124366, de 27/11/2019, pág. 21/117
18/82 do parâmetro τ, ο gráfico ilustrado na Figura 3 pode ser obtido. Nas regiões 26i a 263, podem ser obtidas variações no sinal que são associadas respectivamente aos valores η, T2, T3 do parâmetro τ. Essas variações podem compreender um máximo local e/ou um mínimo local dentro da função de similaridade C (r). Ou seja, ao deslocar ou aplicar um atraso η, Γ2, Γ3, a função de similaridade pode mostrar um máximo ou mínimo local e, portanto, indicar que ao deslocar um segmento respectivo pelo atraso η, Γ2, Γ3, é obtido um sinal similar que pode ser um indicador para um processamento de aprimoramento espectral. No exemplo apresentado acima, 0 atraso máximo τ é 20.000 Hz.
[0054] O determinador pode ser configurado para selecionar pelo menos um máximo local e/ou mínimo local dos valores de similaridade e/ou pode selecionar os valores dele derivados para determinar a similaridade. Em particular, as variações nas regiões 26i, 262 e 263 indicam uma similaridade alta entre os segmentos usados no deslocamento indicado pelo parâmetro η, Γ2, Γ3, respectivamente.
[0055] Com referência novamente à Figura 1, 0 determinador 24 pode ser configurado para fornecer informações ou sinal 28 que indicam um resultado da similaridade, por exemplo, os valores η, T2 e/ou Γ3 do parâmetro rou valores que são derivados do mesmo. O aparelho 10 pode compreender um processador 32 para fornecer informações 34 que indicam que 0 sinal de áudio 12 compreende a característica predeterminada dependente de uma avaliação da similaridade, por exemplo, avaliando 0 sinal 28. Opcionalmente, a função de análise obtida, ou seja, a função de similaridade, pode ser processada adicionalmente, por exemplo, pelo determinador 24 e/ou pelo processador 32. Por exemplo, uma filtragem de passagem de banda pode ser executada para atenuar componentes de deslocamento na função de similaridade e aumentar 0 contraste dos máximos locais de interesse dentro da função de similaridade C (r). O aparelho 10, por exemplo, 0 determinador 24 pode compreender um filtro configurado para filtrar os valores de similaridade, de modo a obter valores de similaridade filtrados ilustrados na Figura 4. O processador 32 pode ser configurado para fornecer as informações 34 de modo a compreender informações
Petição 870190124366, de 27/11/2019, pág. 22/117
19/82 que indicam pelo menos uma dentre que o sinal de áudio foi submetido ao processamento de aprimoramento espectral, uma frequência de início e/ou uma frequência de fim do processamento de aprimoramento espectral.
[0056] A Figura 4 mostra um exemplo de uma função de similaridade pósprocessada, ilustrada como valor filtrado da mesma, ou seja, H (C (r)) na ordenada sobre a abscissa que mostra o parâmetro t. Por exemplo, um filtro é implantado como um filtro de Resposta ao Impulso Finita (FIR) que tem coeficientes de filtro h = [-1 2 1]. Isso significa que o k-ésimo elemento de saída do vetor filtrado é computado por uma combinação linear dos elementos em índices k-1, k e k+1 ponderados com h(1) = -1, h(2) = 2 e h(3) = -1. Isso pode ser representado com base na regra de determinação:
y(k) = h(1) x_{k-1} + h(2) x_{k} + h(3) x_{k+1} [0057] Os três maiores máximos locais nos valores de parâmetro n, T2 e r3 são provocados pelo processamento de aprimoramento espectral, por exemplo, a replicação da banda espectral. Por exemplo, o processamento de SBR pode ser detectado quando um pequeno número de máximos locais com magnitude grande aparece na função. Um número pequeno pode se referir a um número de no máximo 15, no máximo 10 ou no máximo 5 máximos. De acordo com uma modalidade, no máximo 13 máximos locais devem ser investigados para detectar SBR de acordo com configurações comuns do estado da técnica de SBR.
[0058] A grande magnitude pode se referir a um valor que é de pelo menos 3 dB quando comparado ao sinal regular, de pelo menos 5 dB ou pelo menos 6 dB. Quando novamente em referência à Figura 3, os máximos locais nas regiões 26i, 262 e 263 podem se referir ao sinal além da respectiva região como sendo ruído. Esse ruído pode ser atenuado pelo pós-processamento, a fim de aprimorar a determinação de máximo conforme descrito em relação à Figura 4. Uma magnitude grande dos máximos locais é definida como sendo maior do que um limiar. O valor exato do limiar pode ser definido, por exemplo, manualmente, para estar na faixa de 0,1 e 10, dependendo do número de valores que foram usados para computar a função de
Petição 870190124366, de 27/11/2019, pág. 23/117
20/82 similaridade. Normalmente, um valor de 5 pode ser usado.
[0059] Ou seja, o processador 32 pode ser configurado para avaliar um número de máximos locais 26 de valores de similaridade ou valores derivados dos mesmos e para avaliar uma amplitude dos máximos locais 26. O processador 32 pode ser configurado para fornecer as informações 34, que indicam que o sinal de áudio 12 compreende a característica predeterminada quando o número de máximos 26 que compreende pelo menos um valor limiar de amplitude 27 está abaixo de um número de valor limiar, isto é, um número de máximos de locais que excedem o valor de limiar de amplitude 27 é suficientemente baixo.
[0060] Em outras palavras, a Figura 4 mostra a função de similaridade do pósprocessamento. Os máximos locais são mostrados como um círculo, o máximo global é destacado por uma cruz. O determinador 24 pode ser configurado para selecionar pelo menos um máximo local a partir dos valores de similaridade filtrados. Os sinais harmônicos consistem em uma ou mais senoides com uma frequência fundamental e seus harmônicos, ou seja, tons parciais cujas frequências são aproximadamente múltiplos inteiros de uma frequência fundamental. Portanto, um ou mais máximos locais podem aparecer na função de similaridade, tais como uma função de autocorrelação (ACF). Para discriminar entre máximos locais que correspondem a tons parciais harmônicos e SBR ou outro processamento de aprimoramento espectral, a faixa de pesquisa pode ser definida como valores apropriados, que são nitidamente maiores, por exemplo, para SBR do que para termos parciais harmônicos. Assim, o processador 32 pode ser configurado para excluir harmônicos do sinal de áudio da avaliação da similaridade. Isso pode ser feito selecionando-se aquelas partes do espectro do sinal de áudio se espera que tenham uma quantidade baixa ou mesmo nenhum harmônico.
[0061] Detectar os máximos locais nos valores de parâmetro η, Γ2 e τ 3 pode ser um indicador suficiente para a presença do processamento de aprimoramento espectral. No entanto, pode ser vantajoso estimar adicionalmente a frequência de início do processamento de aprimoramento espectral, por exemplo, a SBR. O
Petição 870190124366, de 27/11/2019, pág. 24/117
21/82 resultado da função de similaridade ou dos máximos locais pode descrever o deslocamento em que uma porção do espectro foi copiada e colada. Para completar, as informações sobre a frequência de início e parada do espectro da sub-banda de origem ou do espectro da sub-banda de destino podem ser interessantes.
[0062] A Figura 5 mostra um diagrama de blocos esquemático de um aparelho 50, de acordo com uma modalidade. O aparelho 50 pode ser uma versão estendida do aparelho 10 e pode compreender adicionalmente um estimador de frequência 36 configurado para determinar uma frequência de início e/ou uma frequência de parada do processamento de aprimoramento espectral. O estimador de frequência 36 pode ser configurado para fornecer informações ou um sinal 38 que compreende as respectivas informações que indicam a frequência de início e/ou a frequência de parada. O estimador de frequência 36 pode ser configurado para usar o sinal máximo local Z (k), por exemplo, obtendo ou recebendo o sinal 22, para determinar uma similaridade de elemento entre um elemento de um primeiro segmento do sinal máximo local e um elemento correspondente de um segundo segmento do sinal máximo local. O segundo segmento pode ser deslocado em relação ao primeiro segmento por um número de amostras t. Isso pode ser chamado de análise de similaridade local (LSA). A entrada pode ser a representação da estrutura fina do espectro de magnitude, por exemplo, o sinal máximo local Z(k). O estimador de frequência 36, ao executar LSA, pode operar na similaridade entre elementos entre o k- ésimo elemento no primeiro vetor Z(k) e o elemento na posição k+τ, Z (k+τ). Para esse fim, a matriz de similaridade local pode ser computada como valor absoluto da diferença dos dois números binários Z(k) e Z (k+τ) de acordo com a regra de determinação (2) [0063] O valor L(k, f) da matriz de similaridade local pode então ser processado por ponderação recursive ao longo do tempo. Isso pode ser realizado de acordo com a regra de determinação.
Petição 870190124366, de 27/11/2019, pág. 25/117
22/82 = b.L(À·, τ) + .(1 — 6)ΖΙ(έ\ τ), (3) [0064] em que Β (k, τ) denota um armazenamento temporário que armazena a saída da ponderação recursive da etapa de tempo anterior (quadro) do sinal de áudio e 0 < b <1 é uma constante de tempo que controla a ponderação temporal. Assim, o estimador de frequência 36 pode ser configurado para submeter a similaridade de elementos de uma pluralidade de elementos para o primeiro e o segundo segmentos a uma ponderação recursive ao longo do tempo, a fim de obter uma similaridade de elemento ponderada e para determinar a frequência de início e/ou a frequência de fim com o uso da similaridade de elemento ponderada. A ponderação temporal pode opcionalmente ser aplicada apenas quando o quadro atual não é silencioso, ou seja, sua energia é maior do que um limiar 27, que caracteriza um quadro silencioso de um quadro não silencioso.
[0065] Um quadro pode ser determinado como sendo silencioso se sua energia for menor do que um limiar, em que o valor exato do limiar pode ser definido dependendo do comprimento do quadro e da faixa em que os valores da amostra são representados. Em geral, esse limiar pode ser selecionado de modo que seja igual à energia de um sinal de ruído rosa que é dimensionado para ser audível quando reproduzido com um equipamento de reprodução de som típico (um telefone celular ou uma TV) em uma configuração de volume médio a alto.
[0066] Ou seja, o estimador de frequência pode ser configurado para submeter a similaridade de elemento de uma pluralidade de elementos do primeiro e segundo segmentos a uma ponderação recursive ao longo do tempo, de modo a obter uma similaridade de elemento ponderada e a determinar a frequência de início e/ou a frequência de fim com o uso da similaridade ponderada. Cada amostra do espectro pode ser associada a um quadro. O estimador de frequência pode ser configurado para excluir quadros da ponderação recursive ao longo do tempo que tenham uma energia espectral abaixo de um nível limiar de energia 27, sendo que o nível limiar de energia 27 está relacionado a uma consideração sobre se o quadro ou espectro é
Petição 870190124366, de 27/11/2019, pág. 26/117
23/82 silencioso ou não. Desse modo, resultados inconsistentes podem ser evitados excluindo-se quadros que são considerados silenciosos, uma vez que esses quadros também podem ser considerados não submetidos ao processamento de áudio.
[0067] Como descrito em conexão com a Figura 4, o resultado da ponderação recursive L(k,T) pode ser processado pela filtragem passa-banda para atenuar o componente de deslocamento e aumentar o contraste dos máximos locais de interesse, por exemplo, convolvendo-se cada linha da matriz com um núcleo tal como h = [-1 2 -1], [0068] A Figura 6a mostra uma representação gráfica esquemática de um exemplo de matriz de similaridade local L(k, τ'), em que uma abscissa ilustra os compartimentos de frequência (posições) k e a ordenada representa o atraso τ. Para uma melhor visibilidade, os valores absolutos da matriz L são mostrados. A unidade para a posição k e atraso τ são compartimentos de frequência. A título de amostra não limitante, um compartimento de frequência pode ter um valor de 46,9 Hz, em que qualquer outro valor menor ou maior pode ser obtido. Assim, a Figura 4 mostra um exemplo para uma matriz de similaridade pós-processada L(fc, τ) contendo as seguintes informações: [0069] A similaridade global descrita em conexão com a Figura 4 pode ser obtida de L(/c,t) somando-se ao longo do eixo geométrico χ (parâmetro k) e tomando-se o valor absoluto do resultado. Três linhas horizontais 38i, 382 e 38a no exemplo apresentado correspondem aos máximos locais da Figura 4. As linhas 38i, 382 e 38a podem corresponder a linhas ao longo das quais o respectivo valor da função L(/c,t), ou seja, a soma dos valores, excede um certo valor limiar, por exemplo, 0,1, 0,2 ou 0,3 da faixa de valores que varia de 0 a 1. A posição de início e a posição de fim das linhas horizontais correspondem à frequência de início ksl, ks2, ks3 respectivamente e frequência de fim kel, ke2, ke3 respectivamente de partes repetidas do espectro.
[0070] A Figura 6b mostra um diagrama esquemático de uma linha da matriz ilustrada na Figura 6a no parâmetro τ2. Na Figura 6b, um gráfico 42a mostra, por exemplo, valores não filtrados, em que um gráfico 42b pode mostrar valores ponderados ou filtrados. Por exemplo, o gráfico 42b é comparado a um valor limiar 27
Petição 870190124366, de 27/11/2019, pág. 27/117
24/82 que é, por exemplo, 0,2. Uma faixa na qual a matriz de similaridade local L(fc,r), seu valor ponderado respectivamente, excede o valor limiar 27, corresponde à linha horizontal 382 no índice τ2. Alternativa ou adicionalmente, uma inclinação abrupta (AL(fc,T)/fc) da matriz de similaridade local pode ser avaliada. Uma borda ascendente íngreme que sobe com um certo valor, por exemplo, pelo menos 0,5, pelo menos 1 ou pelo menos 1,5 pode ser identificada como uma borda que identifica a frequência de início ks2. Consequentemente, uma borda descendente íngreme e alta respectiva pode identificar a frequência de fim ke2. Alternativa ou adicionalmente, uma ponderação temporal pode ser executada no espectro de entrada, na entrada espectral respectivamente, e no resultado ou resultados finais. Isso pode impedir a detecção de falsos positivos com o uso da ponderação temporal. Uma ponderação temporal da entrada espectral pode ser denominada como um pré-processamento, em que uma ponderação temporal do resultado final pode ser denominada como um pós-processamento. Uma razão para impedir a detecção de falsos positivos é que os máximos locais são tipicamente variáveis no tempo devido a tons parciais. Ou seja, devido ao fato de que tons musicais diferentes são tocados em uma melodia ou devido a mudanças harmônicas na música, os máximos locais podem variar ao longo do tempo. Por outro lado, alguns parâmetros do processamento de aprimoramento espectral, tais como SBR, podem ser um processo técnico que é, tipicamente, invariável no tempo, por exemplo, uma frequência de borda da qual o espectro é ampliado, por exemplo, uma frequência de corte de uma filtragem realizada anteriormente, ou as frequências de início e fim da faixa de frequências replicada.
[0071] De acordo com um exemplo, para estimar a frequência de início, a matriz LSA L é analisada para identificar a posição de início e a posição de fim de cada linha horizontal. A posição de início ks pode corresponder ao início do espectro que foi replicado. A posição de fim ke pode corresponder ao fim do espectro que foi replicado. A maior posição de fim do espectro original que foi usada para replicação é o valor estimado para a frequência de início na qual a SBR é eficaz. Essa pode ser, por exemplo, ke3 na Figura 6a.
Petição 870190124366, de 27/11/2019, pág. 28/117
25/82 [0072] Primeiro, a similaridade global pode ser computada como v2
C(t) = fc=v1 (4) [0073] em que e v2 são parâmetros que determinam uma faixa de valores L(/c,t) e podem ser selecionados, por exemplo, de modo a definir a faixa de L(fc, τ) que tem um valor dentro de uma faixa de no mínimo 500 Hz e no máximo de 15 kHz. [0074] Então, máximos locais mf, ou seja, 26 em C(t) são detectados maiores do que um limite, consultar, por exemplo, a Figura 4. Para cada máximo local, as linhas correspondentes em L(k,T) são analisadas. Por exemplo, o segundo máximo local m2 indexa a linha R2 = L(/c,t2) e é mostrado na Figura 6b. Para esse máximo local, um valor de τ = 133 pode ser válido e pode iniciar a partir de k = 74 de acordo com a Figura 5.
[0075] O índice de início ks e o índice de fim ke podem ser computados suavizando-se em primeiro lugar as respectivas linhas /?f de modo a obter, por exemplo, o gráfico 42b, por exemplo, calculando-se uma média temporal ou móvel de alguns valores adjacentes, por exemplo, pelo menos 3, pelo menos 5 ou pelo menos 10. Em seguida, são detectadas as posições em que a linha suavizada tem as inclinações crescentes e decrescentes mais íngremes. Alternativa ou adicionalmente, a inclinação que excede um valor limiar tal como, por exemplo, 0,2, pode ser um critério para avaliar a respectiva linha. Ou seja, o estimador de frequência 36 pode ser configurado para submeter a similaridade de elemento de uma pluralidade de elementos do primeiro e segundo segmentos a uma ponderação recursive ao longo do tempo, de modo a obter uma similaridade de elemento ponderada 42b e para determinar a frequência de início e/ou a frequência de fim com o uso da similaridade de elemento ponderada 42b. Alternativa ou adicionalmente, o aparelho pode ser configurado para executar uma ponderação temporal do espectro, do sinal máximo local ou de um sinal derivado do mesmo, em que o processador pode ser configurado para fornecer as informações que indicam que o sinal de áudio compreende a
Petição 870190124366, de 27/11/2019, pág. 29/117
26/82 característica predeterminada com base em uma informação temporal ponderada do espectro, no sinal máximo local ou em um sinal derivado do mesmo.
[0076] Em referência novamente à Figura 6a, há três linhas horizontais proeminentes 38i, 382 e 38a para os exemplos apresentados nos índices τ1; τ2 e τ3. A linha no índice τ2 pode corresponder à primeira parte do espectro que foi replicada como mostrando o início mais precoce, ou seja, os parâmetros mais baixos ks. A linha horizontal inicia no índice ksl e pode corresponder ao atraso τ2. Portanto, a primeira parte replicada do espectro inicia ks2 e foi copiada para o índice ks2 + τ2. A título de um exemplo não limitante, τ± pode ser 104, τ2 pode ser 133 e τ3 pode ser 236. ks2 k_s2 pode compreender, por exemplo, um valor de 74. Portanto, a primeira parte replicada do espectro começa no índice 74 e pode ter sido copiada para o índice 74 + 133. Portanto, esse índice corresponde à frequência em que o processamento de aprimoramento espectral (SBR) está em vigor.
[0077] O estimador de frequência 36 descrito em conexão com a Figura 5 pode ser configurado para computar a matriz de similaridade local ou uma descrição de similaridade local diferente. Apenas a título de exemplo não limitante, um vetor ou outra linha de valores com uma estrutura predeterminada, tal como cada linha anexada a uma linha anterior, pode permitir as mesmas informações. O estimador de frequência 36 pode determinar uma descrição de similaridade local (matriz de similaridade local L) e pode ser configurado para determinar porções na mesma, por exemplo, linhas, que indicam o processamento de extensão de largura de banda. Para determinar as porções que indicam o processamento de extensão de largura de banda, uma inclinação abrupta do sinal dentro da descrição de similaridade local e/ou que atinge ou excede o valor limiar 27 pode ser avaliada pelo estimador de frequência 36.
[0078] Embora tenha sido descrita como linhas de avaliação, é claro que a matriz de similaridade local L pode compreender uma estrutura diferente, por exemplo, ter linhas comutadas para colunas e vice-versa ou similares. O estimador de frequência pode, portanto, ser configurado para determinar a matriz de similaridade local L como
Petição 870190124366, de 27/11/2019, pág. 30/117
27/82 a descrição da similaridade local e para determinar a frequência de início k s e/ou a frequência de firn k e do processamento de aprimoramento espectral com o uso de uma inclinação abrupta entre os valores (por exemplo, valores adjacentes dentro de uma linha ou coluna) em linhas ou colunas e/ou com o uso de uma avaliação de valores nas linhas ou colunas que pelo menos atingem ou até mesmo excedem o valor limiar 27.
[0079] A Figura 7 mostra um diagrama de blocos esquemático de um aparelho 70 que estende o aparelho 10. Embora seja explicada como estendendo o aparelho 10, a explicação apresentada em conexão com a Figura 7 também pode ser usada para estender o aparelho 50. O aparelho 70 pode compreender um calculador de espectro 44 configurado para receber o sinal de áudio 12 como um sinal no domínio de tempo e configurado para calcular o espectro a partir do sinal de áudio 12 e fornecer um sinal 12’ que compreende o espectro. Com base nisso, o derivador 14 pode ser configurado para receber o espectro 12'. Alternativamente, o derivador 14 pode ser configurado para derivar o espectro 12’ por si próprio.
[0080] O determinador 14 pode compreender um filtro 46 configurado para filtrar os valores de similaridade, de modo a obter valores de similaridade filtrados, conforme descrito em conexão com as Figuras 3 e 4. O determinador 14 pode ser configurado para selecionar pelo menos um máximo local a partir dos valores de similaridade filtrados para consideração adicional, por exemplo, como índice de linha na matriz de similaridade L(fc, τ). Ou seja, a seleção de um máximo local a partir dos valores de similaridade ou de valores derivados pode se referir a um uso adicional dos mesmos para determinar uma frequência de início e/ou uma frequência de fim do processamento espectral.
[0081] O aparelho 70 pode compreender um aprimorador de sinal 48 configurado para receber o sinal de áudio 12 e receber as informações de que o processamento de aprimoramento espectral foi realizado, por exemplo, ao receber as informações 34. O aprimorador de sinal é configurado para reduzir artefatos provocados pelo processamento de aprimoramento espectral do sinal de áudio com o uso das
Petição 870190124366, de 27/11/2019, pág. 31/117
28/82 informações 34, isto é, depende das informações que indicam que o sinal de áudio compreende a característica predeterminada e opcionalmente compreende detalhes adicionais, tais como a frequência de início e/ou a frequência de parada de um processo de replicação.
[0082] A Figura 8 mostra um fluxograma esquemático de um método 1000 para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio. O método 1000 compreende uma etapa 1100 na qual um espectro do sinal de áudio é obtido e informações relacionadas a uma estrutura fina do espectro são derivadas, por exemplo, o sinal máximo local. Uma etapa 1200 compreende determinar uma similaridade na estrutura fina entre segmentos do sinal máximo local. Uma etapa 1300 compreende fornecer informações que indicam que o sinal de áudio compreende a característica predeterminada dependente de uma avaliação da similaridade.
[0083] A seguir, será feita referência ao segundo aspecto. De acordo com o segundo aspecto, está no escopo melhorar a qualidade de som dos sinais de áudio, em particular dos sinais de áudio que tenham sido codificados com o uso de compressão com perdas. O conceito descrito está relacionado à largura de banda do sinal de áudio que está em aplicações de processamento de sinal digital limitadas. O conceito propõe um conceito de análise de sinal que detecta as presenças de redução (artificial) de largura de banda (BR) e para estimar a frequência de corte em que a BL está em operação. Os resultados obtidos são usados para controlar processamento subsequente para restaurar a largura de banda por meio da extensão de largura de banda (BWE) e também para controlar a melhoria da qualidade de som por outros meios, tais como filtragem.
[0084] Para o aprimoramento da qualidade de som, é de crucial importância discriminar entre um sinal que tem originalmente uma largura de banda baixa (por exemplo, uma nota baixa tocada na bacia) e um sinal que tenha sido limitado em banda por meio de um processamento de sinal, por exemplo, devido à codificação com perdas ou amostragem reduzida. Tal discriminação não é possível analisando-se
Petição 870190124366, de 27/11/2019, pág. 32/117
29/82 o sinal “para encontrar a frequência mais alta presente no sinal”, isto é, determinandose a frequência acima da qual apenas energia desprezível está presente, conforme descrito em [1], Por outro lado, o segundo aspecto propõe avaliar informações adicionais, conforme descrito a seguir.
[0085] O objetivo da análise de limitação de largura de banda artificial proposta (ABLA) é duplo:
[0086] 1). Detectar a presença de redução de largura de banda (BR) no sinal de entrada que provavelmente é provocado por compressão com perda ou outro processamento de sinal e, portanto, considerado como um artefato. A saída pode ser, por exemplo, uma variável binária, aqui denominada como D em que D = 1 se BL tiver sido detectado e 0 de outra forma.
[0087] 2). Estimar a frequência de corte da limitação de largura de banda. A quantidade estimada é denominada fc.
[0088] A Figura 9 mostra um diagrama de blocos esquemático de um aparelho, de acordo com uma modalidade do segundo aspecto. O aparelho pode ser usado para determinar uma característica predeterminada relacionada a um processamento de limitação de largura de banda artificial de um sinal de áudio. O aparelho 90 compreende um avaliador de inclinação 52 configurado para avaliar uma inclinação de um espectro do sinal de áudio 12, por exemplo, o espectro 12'. O avaliador de inclinação 52 pode ser configurado para fornecer um resultado de avaliação de inclinação 56. O resultado de avaliação de inclinação 56 pode compreender informações sobre um valor máximo, mínimo ou médio da inclinação (curva de invólucro) de pelo menos uma parte do espectro, sobre bordas ascendentes ou descendentes dentro do espectro ou a inclinação do mesmo ou outras informações relacionadas à inclinação 54.
[0089] O aparelho 90 pode, opcionalmente, compreender adicionalmente um avaliador de frequência 58 configurado para avaliar uma frequência de corte fc do espectro 12' do sinal de áudio para obter um resultado de avaliação de frequência 62 que compreende informações que indicam a frequência de corte fc.
Petição 870190124366, de 27/11/2019, pág. 33/117
30/82 [0090] O aparelho 90 compreende um processador 64 para fornecer informações que indicam que o sinal de áudio compreende a característica predeterminada relacionada ao processamento de limitação de largura de banda artificial. O processador é configurado para usar o resultado de avaliação de inclinação para fornecer as informações que indicam que o sinal de áudio compreende a característica predeterminada, ou seja, o processador pode fornecer as informações dependentes do resultado de avaliação de inclinação. Por exemplo, isso pode permitir uma decisão sobre se o sinal de áudio exige pós-processamento, por exemplo, em termos de uma informação de sim/não ou uma decisão binária. Isso pode permitir excluir tais quadros que são avaliados como não que compreende a respectiva característica do pósprocessamento. Esses quadros podem ser identificados como não submetidos à limitação de largura de banda artificial e, portanto, o pós-processamento deve ser evitado. Como opção, o aparelho pode compreender o avaliador de frequência 58 para determinar a frequência de corte. Isso pode permitir a identificação de informações adicionais que são usadas ou exigidas para pós-processamento, por exemplo, de quadros submetidos. Assim, opcionalmente, o processador pode ser configurado para fornecer as informações que indicam que o sinal de áudio compreende a característica predeterminada dependente de uma avaliação do resultado de avaliação de inclinação 56 e do resultado de avaliação da frequência 62. Ao avaliar o resultado de avaliação de inclinação 56 e o resultado de avaliação de frequência 62 para o espectro 12’ e/ou para outros quadros do sinal de áudio, que resultam em espectros 12’ adicionais, o processador 64 pode derivar informações se o sinal de áudio do qual o espectro 12’ derivado foi submetido à limitação de largura de banda artificial. Por exemplo, o avaliador de inclinação 52 pode ser configurado para avaliar a inclinação para uma atenuação dentro do espectro. O espectro pode ser quantificado ou avaliado em relação a uma inclinação abrupta da inclinação, isto é, como indicado por um fator de desempate.
[0091] A título de exemplo, o avaliador de inclinação 52 pode ser configurado para avaliar uma atenuação dentro do espectro 12’ e para fornecer o resultado de avaliação
Petição 870190124366, de 27/11/2019, pág. 34/117
31/82 de inclinação 56 de modo a indicar uma medida para a atenuação. O processador 64 pode ser configurado fornecendo as informações 66 que indica que o sinal de áudio compreende a característica predeterminada se a medida para a atenuação for pelo menos um valor limiar de inclinação abrupta. Opcionalmente, o aparelho pode compreender um avaliador de reamostragem que, por exemplo, faça parte do processador 64 ou que seja implantado separadamente. O avaliador de reamostragem pode ser configurado para avaliar o sinal de áudio para uma característica predeterminada relacionada a uma amostragem ascendente. A amostragem ascendente pode ser implantada com o uso de uma frequência de amostragem, por exemplo, uma taxa de amostragem comum pode ser de 11.025 Hz, 22.050 Hz e/ou 32.000 Hz. O aparelho 90 e/ou 120 pode ser configurado para adaptar as faixas de frequência do avaliador de inclinação 52 e/ou do avaliador de frequência 58 com base na frequência de amostragem, no caso em que a reamostragem é detectada. Ao usar reamostragem, a faixa de frequência do espectro pode ser adaptada ou aumentada, em que uma taxa de amostragem baixa pode corresponder a uma faixa de baixa frequência e uma taxa de amostragem alta pode permitir que o espectro contenha faixas de alta frequência de acordo com o critério Nyquist. O avaliador de reamostragem pode ser configurado para observar ou avaliar um conjunto específico de taxas de amostragem esperadas e pode avaliar, se nessa frequência há uma diminuição significativa no espectro e se não há mais energia significativa acima. Nesse caso, em que uma borda íngreme na inclinação como descrito anteriormente e uma ausência de energia significativa acima de um valor limiar de energia estão presentes, o avaliador de energia pode considerar o sinal de áudio como sendo reamostrado com o uso da respectiva frequência de reamostragem ou taxa de amostragem. O avaliador de reamostragem pode ser configurado para obter um resultado dw avaliação negativo quando na frequência determinada ou avaliada que correspondente à taxa de amostragem, a regra de determinação x(k) > limiar se aplica, o que significa que um valor do espectro na frequência k é maior do que um
Petição 870190124366, de 27/11/2019, pág. 35/117
32/82 limiar, o que indica que no ponto k há energia significativa dentro do espectro. Ademais, a regra de determinação
X(k) < X(k+1)-parâmetro de deslocamento pode se aplicar, o que indica que com o aumento da frequência k + 1 o espectro, a energia do mesmo respectivamente, aumenta. Essa consideração pode ser normalizada subtraindo-se o parâmetro de deslocamento, por exemplo, 0,1, 0,2, 0,3, 0,5 ou 1 dB ou um valor diferente, ou seja, o espectro tem que aumentar mais do que o parâmetro de deslocamento para atender à regra de determinação. Isso permite excluir efeitos provocados por ruídos ou similares. Assim, a magnitude aumenta em direção a frequências superiores no ponto de frequência k acima de uma limitação de largura de banda mais do que 0,5 dB. O limiar pode ser, por exemplo, -30 dB, -40 dB, - 50 dB ou -60 dB, conforme explicado acima. Isso significa que para uma decisão negativa não há atenuação acentuada ou além do respectivo valor de frequência há uma magnitude aumentada.
[0092] Um resultado de avaliação positivo que indica que o sinal de áudio foi submetido a uma amostragem ascendente que limita a largura de banda no índice de frequência k pode ser determinado, por exemplo, quando a função de diferença espectral s(/c) ou uma função adequada diferente, como descrito acima, entrega um valor que excede ou é pelo menos um valor limiar. Assim, a regra de determinação pode aplicar que
S(k) > limiar a função de diferença espectral pode indicar uma atenuação acentuada e forte e, portanto, pode indicar uma reamostragem. Portanto, quando o máximo de 72 na Figura 11 é disposto em uma taxa de reamostragem/frequência de reamostragem esperada, ou próximo a mesma, a presença de uma reamostragem pode ser determinada.
[0093] Além disso, a atenuação pode ser avaliada em relação a uma quantidade, isto é, uma metade da borda descendente dentro do espectro. Por exemplo, o avaliador de inclinação 52 pode avaliar a inclinação 54 em relação a uma diminuição
Petição 870190124366, de 27/11/2019, pág. 36/117
33/82 dentro de uma faixa de frequência específica de, por exemplo, 100 Hz, 1 kHz ou 2 kHz e/ou para uma quantidade total da diminuição dentro da borda descendente.
[0094] O processador 64 pode ser configurado para decidir se o espectro 12’ foi submetido à limitação da largura de banda artificial e pode adicionalmente ser configurado para decidir em qual frequência de corte fc a referida limitação foi aplicada. Assim, as informações 66 podem compreender a variável D ou informações similares e pode compreender adicionalmente informações que indicam a frequência de corte, pelo menos, quando o processador 64 determina o espectro 12’ como sendo aplicado ao processamento de limitação de largura de banda artificial.
[0095] A Figura 10 mostra um diagrama esquemático que ilustra um espectro exemplificativo 12’ que tem a inclinação 54. O avaliador de inclinação 52 pode ser configurado para avaliar a inclinação 54 em relação a uma inclinação abrupta do espectro 12', de uma borda descendente 68, respectivamente. O avaliador de inclinação 52 pode ser configurado para fornecer o resultado de avaliação de inclinação 56, de modo a compreender informações que indiquem uma medida para a inclinação abrupta. A medida da inclinação abrupta pode ser obtida, por exemplo, ligando-se uma diminuição ΔΧι da magnitude %(/) e uma faixa de frequência 4/, por exemplo, como a diminuição ΔΧι por faixa de frequência Af ou em termos de uma faixa de frequência Af usada para obter a diminuição ΔΧι.
[0096] O processador 64 pode ser configurado para fornecer as informações que indicam que o sinal de áudio compreende a característica predeterminada se a medida para a inclinação abrupta for pelo menos um valor limiar de inclinação abrupta. A medida da inclinação abrupta pode aumentar para valores crescentes do termo 4X1/4/ e/ou pode aumentar por valores decrescentes do termo 4//4Xx. Por exemplo, o valor limiar de inclinação abrupta pode compreender um valor igual ou proporcional a pelo menos 25 dB/1 kHz, 30 dB/1 kHz, 40 dB/1 kHz ou 50 dB/1 kHz ou superior.
[0097] O avaliador de inclinação 52 pode ser configurado para determinar uma função de diferença espectral do espectro 12', por exemplo, com o uso de uma função de janela que seleciona apenas uma parte do espectro 12' para uma avaliação. A
Petição 870190124366, de 27/11/2019, pág. 37/117
34/82 função de janela pode combinar uma pluralidade de valores de frequência do espectro 12', a inclinação 54 respectivamente e pode permitir que o avaliador de inclinação 52 determine a medida para a atenuação com o uso de resultados da função de janela. Isso também pode ser chamado de filtragem de janela. Combinando-se, por exemplo, subtraindo-se valores de janelas diferentes, uma medida para a inclinação abrupta pode ser obtida. Alternativamente, qualquer outro processo adequado pode ser usado para avaliar a inclinação abrupta da inclinação 54. Alternativa ou adicionalmente, o avaliador de frequência pode ser configurado para avaliar uma atenuação entre um primeiro nível de energia de uma primeira banda de frequência do espectro 12’ e o segundo nível de energia de uma segunda banda de energia do espectro.
[0098] A primeira e a segunda banda de energia podem ser, por exemplo, uma chamada banda de baixa frequência e uma chamada banda de alta frequência. A banda de frequência manual pode ser a banda de frequência que se espera que esteja silenciosa após ser filtrada em passa-baixa, por exemplo, frequências acima de 3 KHz. A região de baixa frequência pode se referir a uma região de frequência com frequências abaixo dessa faixa de frequência. Assim, a primeira banda de energia pode compreender uma primeira faixa de frequência que é baixa quando comparada a uma segunda faixa de frequência f2 da segunda banda de frequência. O avaliador de inclinação 52 pode ser configurado para fornecer o resultado de avaliação de inclinação 56, de modo a indicar uma medida para a atenuação 4X2. O processador 64 pode ser configurado para fornecer as informações 66 se a medida para a atenuação for pelo menos um valor limiar de atenuação. O valor limiar de atenuação pode ser, por exemplo, pelo menos 30 dB, pelo menos 40 dB, pelo menos 50 dB ou pelo menos 60 dB ou até mesmo mais alto.
[0099] Em outras palavras, a atenuação pode ser considerada como sendo alta de modo que apenas energia desprezível permaneça após a filtragem na banda de alta frequência. Por exemplo, a magnitude na região de frequência superior f2 está abaixo de -60 dB (valor limiar de atenuação) menor do que a magnitude média na banda passante, ou seja, a região da frequência f±. Uma combinação da avaliação de
Petição 870190124366, de 27/11/2019, pág. 38/117
35/82 inclinação abrupta do espectro e a avaliação da quantidade da atenuação pode permitir determinar que o quadro atual do espectro 12’ foi submetido à limitação de largura de banda artificial. Assim, se pelo menos uma ou, preferencialmente, ambas as avaliações fornecerem uma sugestão para esse processamento, a variável D pode ser definida como 1. Se pelo menos um ou, preferencialmente, ambos os critérios de avaliação forem avaliados negativamente, a variável D pode ser definida como 0, ou seja, pode ser determinado que nenhuma limitação de largura de banda artificial foi aplicada.
[00100] Em outras palavras, a inclinação abrupta da atenuação pode ser quantificada comparando-se as magnitudes espectrais em uma sub-banda inferior /j e as magnitudes espectrais em uma sub-banda superior f2 em torno de um índice de frequência k e repetindo-se isso para todos os índices de frequência na faixa de interesse. Um exemplo é a função de diferença espectral S(fc) que pode ser formada de acordo com:
S(fc) = maxAÇ — maxX2 [00101] A função de diferença espectral S(fc) pode quantificar a atenuação como a diferença da magnitude máxima da magnitude inferior e máxima da sub-banda superior. O parâmetro k pode se referir a um índice de frequência. XÇk') pode denotar um espectro de magnitude. A operação max pode retornar o valor máximo de um vetor, em que X± = (xk-a, ...,xk-b) pode denotar um segmento do espectro abaixo do índice de frequência k e x2 = (xk+b, ...,xk+a) pode se referir a um segmento do espectro acima do índice de frequência k, em que a > b. Um comprimento do vetor, isto é, um número de amostras a serem usadas nos vetores X± e/ou X2 pode ser, por exemplo, 3, 5, 8 ou 10 ou até mais. Em uma modalidade não limitante, um primeiro segmento de comprimento 7 e um segundo segmento de comprimento 7 são usados em conexão com uma lacuna de 5 valores entre ambos os segmentos. Consequentemente, o máximo dos elementos 1, 2, 3, 4, 5, 6, 7 é determinado e comparado ao máximo dos elementos 13, 14, 15, 16, 17, 18, 19.
[00102] Alternativamente, outras funções podem ser usadas, por exemplo, S2(fc) =
Petição 870190124366, de 27/11/2019, pág. 39/117
36/82 min Xi - maxX2 ou uma diferença determinada a partir dos valores médios de X1eX2[00103] O avaliador de frequência 58 pode ser configurado para determinar uma medida para energia em uma banda de frequência do sinal de áudio e para determinar a frequência de corte fc com base na energia. Por exemplo, o avaliador de frequência pode avaliar energia em faixas de frequência com valores de frequência decrescentes, isto é, dentro de faixas de frequência decrescentes. Ao se referir à Figura 10 na frequência mais alta ilustrada, o avaliador de frequência pode, por exemplo, determinar uma quantidade baixa de energia na faixa de frequência f2. Ao avaliar faixas de frequência comparativamente pequenas de vários compartimentos ou mesmo que compreendem apenas um compartimento de frequência, o avaliador de frequência 58 pode determinar com frequência decrescente f e aumento na energia, como indicado, a inclinação 54. Na frequência de corte fc o avaliador de frequência 58 pode determinar um aumento forte na energia, por exemplo, pelo menos 30 dB, 40 dB, 50 dB ou mesmo 60 dB quando comparado ao nível baixo de energia na faixa de frequência f2. Com base nisso, ou seja, com base no aumento de energia na faixa de frequência, o avaliador de frequência 58 pode determinar a frequência de corte fc. Isso também pode ser denominado como determinação da frequência de corte fc conforme a frequência na qual a energia de sub-banda aumenta.
[00104] A Figura 11 mostra um diagrama esquemático de um resultado exemplificativo da função de diferença espectral S(fc). O original mostra um resultado da função de diferença espectral S(fc), em que a abscissa mostra o mesmo eixo geométrico de frequência, como ilustrado na Figura 10. A função de diferença espectral pode permitir obter uma medida para a inclinação abrupta da inclinação 54. Um máximo local ou mesmo global 72 da função de diferença espectral S(/c) pode indicar uma frequência na qual a inclinação 54 compreende uma variação mais acentuada, isto é, onde a atenuação é muito acentuada. Portanto, essa medida pode ser usada alternativa ou adicionalmente pelo avaliador de frequência como uma medida para a frequência de corte fc.
[00105] A diminuição da inclinação 54 e, portanto, a atenuação podem variar ao
Petição 870190124366, de 27/11/2019, pág. 40/117
37/82 longo do grande número de amostras, de modo que a diferença com o uso de um valor máximo do respectivo vetor possa proporcionar uma precisão suficiente. Alternativamente, a função de diferença espectral pode ser determinada para valores de frequência única, ou seja, os vetores X± e X2 pode ter um comprimento de 1.
[00106] Para aprimoramento da qualidade de som, é de importância crucial discriminar entre um sinal que tenha originalmente uma largura de banda baixa (por exemplo, uma nota baixa tocada na bacia) e um sinal que tenha sido limitado em banda por meio de um processamento de sinal, por exemplo, devido à codificação com perdas ou amostragem reduzida. Isso é importante para evitar qualquer pósprocessamento de um sinal que tenha alta qualidade de som e para aplicar um processamento de aprimoramento somente quando necessário, ou seja, para aplicar a extensão de largura de banda (BWE) subsequente apenas para restaurar energia de alta frequência que foi removida artificialmente do sinal e não processar sinais que têm largura de banda baixa por natureza. Para tal finalidade, o sinal pode ser analisado em relação a três características dadas pela inclinação abrupta da atenuação, a quantidade de atenuação e a frequência de corte. Isso pode ser realizado pelas etapas de processamento seguintes executadas, por exemplo, por um aparelho de acordo com o segundo aspecto.
[00107] A Figura 12a mostra um diagrama de blocos esquemático de um aparelho 120 de acordo com uma modalidade do segundo aspecto. Quando comparado ao aparelho 90, o aparelho 120 é configurado para determinar a característica predeterminada para uma pluralidade de espectros 12ía 123' que podem ser derivados de diversos blocos do sinal de áudio. Ou seja, o sinal de áudio pode ser dividido em blocos e de cada bloco um espectro 12’ pode ser derivado. O avaliador de inclinação 52 é configurado para avaliar a inclinação 54 de cada um dos espectros 12ía 123'. De acordo com este documento, o avaliador de frequência 58 é configurado para avaliar cada um dos espectros 12ía 123'.
[00108] O processador 64 pode ser configurado para fornecer as informações 66, que indicam que o sinal de áudio compreende a característica predeterminada para
Petição 870190124366, de 27/11/2019, pág. 41/117
38/82 cada um dos espectros 12i'a 123'. Um número de blocos nos quais 0 sinal de áudio é dividido pode ser arbitrário. Por exemplo, a duração de cada bloco no tempo pode ser constante, de modo que 0 número de blocos possa depender da duração do sinal de áudio.
[00109] O aparelho 120 pode compreender um filtro 74 conectado ao avaliador de frequência 58 e configurado para receber 0 resultado de avaliação de frequência 62. O filtro 74 pode ser configurado para fornecer um resultado de avaliação de frequência filtrada 62'. O processador pode ser configurado para fornecer as informações 66, que indicam que 0 sinal de áudio compreende a característica predeterminada com base em uma pluralidade de resultados de avaliação de inclinação 56 para cada um dos espectros 12i'a 123' e/ou uma versão filtrada dos mesmos e 0 resultado de avaliação de frequência filtrado 62 'associado a uma pluralidade de espectros 12T a 123' do sinal de áudio. A frequência de corte usada para codificar um sinal de áudio pode ser essencialmente invariável no tempo, invariante no tempo ou pode ser um parâmetro que varia raramente ou com pouca frequência ao longo do tempo, de modo que uma filtragem passa-baixa, um máximo móvel, uma média móvel ou uma filtragem mediana móvel implantada pelo filtro 74 possa permitir a obtenção dos valores filtrados 62’ que permanecem inalterados ou constantes ou, pelo menos, alteração a taxas baixas para processamento adicional, por exemplo, quando 0 avaliador de frequência 58 determina frequências de corte ligeiramente diferentes fc entre os espectros diferentes 12i'a 123'. Ou seja, um pós-processamento dos valores obtidos fc pode ser realizado por filtragem passa-baixa ou, alternativamente, por uma filtragem diferente.
[00110] De maneira semelhante, a limitação de largura de banda artificial é executada usualmente para um sinal de áudio completo ou pelo menos uma grande parte dele, de modo que seja improvável que uma alteração da característica relacionada ao processamento da limitação da largura de banda artificial esteja presente em um quadro e não presente ou ausente em um quadro subsequente. Portanto, 0 processador 64 pode executar um pós-processamento da variável D ou um resultado ou valor correspondente, por exemplo, com 0 uso de uma filtragem
Petição 870190124366, de 27/11/2019, pág. 42/117
39/82 mediana ou semelhante para uma pluralidade de quadros, isto é, para uma pluralidade de espectros 12ía 123'. O processador pode ser configurado para fornecer as informações 66 que indicam que 0 sinal de áudio compreende a característica predeterminada, fornecendo-se informações respectivas para cada um da pluralidade de quadros do sinal de áudio e para fornecer um resultado combinado ou filtrado 66’ combinando-se os resultados dos quadros de modo que 0 resultado combinado 66’ seja válido para a pluralidade de quadros que são submetidos ao filtro e influenciam uma saída do filtro. Por exemplo, ao usar uma filtragem mediana, um número de quadros e/ou espectros 12ía 123' é considerado dentro do respectivo filtro, por exemplo, um filtro 76 conectado ao processador 64 ou que faz parte do processador 64 ou que é implantado pelo processador 64. A saída 66 'do filtro 76 pode ser um valor médio filtrado combinado derivado dos quadros considerados. Embora seja ilustrado como um bloco separado, 0 filtro 76 pode ser implantado ou pode fazer parte de outro bloco de computação.
[00111] Alternativa ou adicionalmente, 0 aparelho 120 pode compreender um determinador 78 configurado para determinar uma energia E de uma banda de frequência dos espectros 12ía 123' e para fornecer um sinal 82 que indica uma presença e/ou uma quantidade de energia E dentro da respectiva banda de frequência. O sinal 82 ou um sinal derivado do mesmo pode ser fornecido para 0 processador 64 de modo que 0 processador 64 possa ter conhecimento sobre a energia determinada. Pode ser de interesse se em uma chamada região de alta frequência fh energia está presente ou não. Por exemplo, uma região de alta frequência fh pode ser uma região de frequência que tem valores de frequência que são iguais ou superiores a 1 kHz, 2 kHz, 3 kHz, 4 kHz ou um valor diferente, isto é, frequências limitadoras de largura de banda diferentes. Por exemplo, codificadores podem reduzir ou descartar frequências acima de um determinado valor de frequência. O valor da frequência pode ser de acordo com uma aplicação específica, como 3 kHz ou 4 kHz, para aplicações relacionadas à fala.
[00112] O determinador 78 pode determinar, se os espectros 12ía 123'
Petição 870190124366, de 27/11/2019, pág. 43/117
40/82 compreendem energia ou compreendem energia acima de um certo limiar na região de alta frequência fh. No caso em que o determinador 78 determina que o respectivo espectro 12í a 12a' não compreende energia E ou uma quantidade baixa da mesma na região de alta frequência fh, uma determinação confiável da frequência de corte e/ou da atenuação pode ser difícil ou até impossível, por exemplo, devido ao fato de que o respectivo quadro não proporciona uma inclinação adequada. Ao considerar, apenas a título de exemplo não limitante, um espectro silencioso que não possui energia no espectro completo, nem uma frequência de corte tampouco uma atenuação da inclinação 54 podem ser determinadas. Essas informações podem ser fornecidas pelo sinal 82. O processador pode pular a avaliação do quadro ou espectro real 12í a 123’ e pode ser configurado para fornecer as informações 66 com base em um espectro anterior observadas ou avaliadas anteriormente, se a energia E estiver abaixo de um nível limiar de energia considerado discriminatório entre a energia relevante presente ou ausente. Em termos diferentes, o processador pode basear sua decisão em um quadro anterior, em um caso em que o espectro real é incapaz de fornecer informações suficientes.
• Em uma etapa opcional, um particionamento do sinal de áudio/sinal de entrada em blocos curtos pode ser executado, ou seja, um número de blocos pode ser obtido. Um comprimento de um bloco pode ser, por exemplo, pelo menos 0,5 ms, pelo menos 1 ms ou pelo menos 5 ms e no máximo 1 segundo, 500 ms ou 100 ms. Um exemplo de intervalo compreende valores de pelo menos 2 ms e no máximo 80 ms.
• Opcionalmente, computar um espectro de magnitude para cada bloco, por exemplo, por meio de uma transformada ou um banco de filtros. Assim, o aparelho 19 pode compreender, por exemplo, um derivador de frequência para derivar um espectro tal como um espectro de magnitude, de modo a fornecer o espectro 12'. Para cada bloco pode ser derivado um espectro de acordo ao espectro ilustrado na Figura 10, ou semelhante ao mesmo.
• Opcionalmente, uma filtragem passa-baixa de coeficientes espectrais pode
Petição 870190124366, de 27/11/2019, pág. 44/117
41/82 ser realizada com relação ao tempo e à frequência. Por exemplo, uma ponderação móvel ou uma ponderação recursive pode ser realizada, por exemplo, pelo avaliador de inclinação 52 e/ou pelo avaliador de frequência 58 e/ou por um processador que implanta tanto o avaliador de inclinação 52 quanto o avaliador de frequência 58. Isso pode permitir a redução de cargas computacionais, pois a atenuação e a inclinação abrupta da atenuação, bem como a frequência de corte, estão dispostas dentro de uma faixa de frequência específica estendida além dos valores de frequência única, de modo que uma avaliação das faixas de frequência permita uma precisão suficiente.
• Opcionalmente, quando o sinal de entrada está mudo ou não contém energia na região de alta frequência, pode ser difícil obter uma estimativa confiável ou ser impossível obter uma estimativa confiável. Portanto, o resultado de detecção do quadro anterior pode ser usado se a energia máxima da sub-banda acima de 3 kHz estiver abaixo de um limite, devido ao fato de que esse quadro não contém as informações desejadas.
• Opcionalmente, detectar se o sinal foi amostrado de modo ascendente a partir de uma frequência de amostragem inferior, por exemplo, com o uso dos determinadores 78. Um sinal codificado em taxas de bits baixas é tipicamente codificado com uma frequência de amostragem baixa que pode ser menor do que a frequência de amostragem em que a estrutura de processamento atual opera. Ao realizar amostragem ascendente ou reamostragem após decodificação ter sido detectada, a faixa de pesquisa da análise de limitação de largura de banda artificial (ABLA) de acordo com o segundo aspecto pode ser modificada de modo que a frequência mais alta a ser detectada seja igual à frequência de amostragem do codificador. Para detectar uma reamostragem, a detecção de reamostragem pode ser realizada para um conjunto de taxas de amostragem comuns, tais como 11.025 Hz, 22.050 Hz, 32.000 Hz e/ou 44.100 Hz. Quando a magnitude máxima dos coeficientes espectrais em uma faixa acima da metade da frequência de amostragem estiver abaixo de um limiar, a reamostragem pode ser detectada. Isso é baseado no critério de Nyquist que permite obter frequências com metade do valor da frequência quando
Petição 870190124366, de 27/11/2019, pág. 45/117
42/82 comparadas à taxa de amostragem. Portanto, quando a energia está abaixo do limite na metade superior, isso pode ser provocado pela taxa de amostragem usada. O processamento ABLA seguinte é modificado de modo que a faixa de pesquisa seja modificada para que a frequência mais alta a ser detectada seja igual à frequência de amostragem de codificador detectada e, portanto, permita pesquisar apenas uma parte do respectivo espectro. A outra porção, por exemplo, a metade superior, pode ser negligenciada como se espera que seja provocado pela amostragem ascendente. A atenuação devido à reamostragem pode ser maior do que a atenuação da codificação. A detecção de reamostragem pode garantir que a reamostragem não seja detectada por engano como limitação de largura de banda a uma frequência de corte inferior fc.
• Computar uma função de detecção, por exemplo, a função de diferença espectral, que quantifica uma inclinação abrupta da atenuação sobre a frequência. A função de diferença espectral ou uma versão alternativa quando comparada à Figura 11 pode ser usada. A função de detecção pode fornecer informações de uma diferença de nível entre bandas de frequência adjacentes.
• Detectar limitação de largura de banda artificial (ABL) com o uso de um conjunto de regras que avalia a função de diferença espectral e a energia da subbanda e um parâmetro limiar. Começando no índice de frequência k da extremidade superior da faixa de pesquisa, a magnitude X dos coeficientes espectrais e da função de diferença espectral S(fc) ou uma função ou quantidade semelhante pode ser testada com relação a um conjunto de condições até que uma condição seja válida ou até que a extremidade inferior da faixa de pesquisa seja atingida. Todos os limites são parâmetros que podem ser ajustados para alterar o compromisso entre detecções de falso positivo e falso negativo. As condições:
1) . x(k) > limiar; e
2) . X(k) < X(k+1)-parâmetro de deslocamento E x(k) limiar maior, ou seja, a magnitude aumenta em direção a frequências superiores acima de um BL mais do que o parâmetro de deslocamento, por exemplo, 0,5 dB, quando as
Petição 870190124366, de 27/11/2019, pág. 46/117
43/82 magnitudes são maiores que o limiar, por exemplo, -60dB, podem levar a uma detecção negativa. Condições de acordo com:
1) . S(k) > limiar; e
2) . Reamostragem ter sido detectada podem levar a uma detecção positiva.
• Determinar a frequência de corte fc como a frequência em que a energia da sub-banda aumenta, por exemplo, com o uso do avaliador de frequência 58.
• Opcionalmente, pós-processamento fc por filtragem passa-baixa, por exemplo, com o uso do filtro 74.
• Opcionalmente, pós-processamento D por filtragem mediana, por exemplo, com o uso do filtro 76.
[00113] O aparelho 90 e/ou o aparelho 120 podem compreender adicionalmente um aprimorador de sinal, por exemplo, o aprimorador de sinal 48 que é descrito em conexão com o primeiro aspecto. O aprimorador de sinal 48 pode ser configurado para reduzir artefatos provocados pelo processamento de limitação de largura de banda artificial do sinal de áudio dependente das informações 66, que indica que o sinal de áudio compreende a característica predeterminada. Ou seja, o aprimorador de sinal pode ser adaptado aos artefatos provocados pela limitação de largura de banda artificial.
[00114] A seguir, será feita referência a um aparelho configurado para suprimir ou pelo menos reduzir o artefato de codificação Birdies e para melhorar a qualidade de som percebida, de acordo com o segundo aspecto. O aparelho ou método respectivo pode ser usado em um caso em que as informações tenham sido derivadas de que o sinal de áudio compreende uma característica relacionada a uma limitação de largura de banda artificial e/ou a um processamento de aprimoramento espectral, tal como uma replicação de banda espectral. Por exemplo, o aparelho pode ser usado em um caso em que pelo menos uma dentre limitação de largura de banda artificial ou replicação de banda espectral tenha sido detectada.
Petição 870190124366, de 27/11/2019, pág. 47/117
44/82 [00115] Assim, quando pelo menos um dentre a limitação de largura de banda artificial e o processamento de aprimoramento espectral é detectado, o conceito de acordo com o qual a limitação de largura de banda artificial é detectada pode ser reutilizado ou pode ser usado de modo a detectar regiões íngremes e altamente atenuadas no espectro, as quais podem ser denominadas como lacunas espectrais. Uma lacuna espectral pode compreender uma primeira e uma segunda bordas. Consequentemente, uma ilha espectral também pode compreender uma primeira e uma segunda bordas, em que entre as respectivas bordas a lacuna ou a ilha pode ser disposta.
[00116] Quando em referência agora à Figura 12b, é mostrado um espectro exemplificativo que compreende a borda descendente 68 na frequência de corte fc. Ademais, em faixas de frequência abaixo daquela frequência de corte fc, uma lacuna espectral exemplificativa 202 e uma ilha espectral exemplificativa 204 estão dispostas. Ao iniciar a partir de frequências baixas, primeiro uma borda descendente 206i e depois uma borda ascendente 2062 são dispostas, em que nas faixas de frequência entre as mesmas, a lacuna espectral 202 pode ser disposta. Consequentemente, a ilha espectral 204 pode ser disposta entre as bordas 2063 e 2064. As bordas podem ser localizadas, quantificadas e qualificadas com o uso dos ensinamentos revelados no presente documento para encontrar a borda 68, em particular, uma avaliação de frequência/energia pode ser realizada. [00117] Ao contrário da frequência de corte fc, um local, uma presença e uma magnitude da lacuna 202 e da ilha 204, bem como um número das mesmas pode variar entre quadros do sinal de áudio. Simplificado, o preenchimento da lacuna 202 e/ou a atenuação da ilha 204 podem ser realizados após o uso de um conceito para encontrar as bordas 206i a 2064, conforme descrito em conexão com a frequência de corte fc com a exceção de que as respectivas frequências são variáveis. Ou seja, um aparelho ou aprimorador de sinal pode ser configurado para preencher uma lacuna espectral e/ou para atenuar uma ilha espectral. Portanto, pesos espectrais podem ser usados, os quais podem ser determinados a partir do
Petição 870190124366, de 27/11/2019, pág. 48/117
45/82 próprio sinal de áudio, ou seja, uma informação secundária pode permanecer não necessária. Ao suprimir o artefato de codificação Birdies, a qualidade de som percebida pode ser aprimorada. O conceito introduzido pode ser usado como um conceito de pós-processamento que está localizado após o decodificador. O mesmo pode funcionar às cegas sem ter acesso ao sinal de áudio não compactado e a outras informações secundárias.
[00118] O conceito que é descrito a seguir de modo a reduzir o artefato de Birdies pode usar um princípio básico chamado ponderação espectral ou atenuação espectral de curto prazo. Portanto, um sinal no domínio de tempo X[ n] pode ser transformado em sua representação no domínio de frequência X[k, m], em que k e m denotam a frequência no índice de período de tempo, respectivamente. Nas modalidades descritas, a transformada de Fourier de curto prazo (STFT) pode ser aplicada, mas outras transformadas também podem ser usadas. O sinal de saída Vda ponderação espectral pode ser dado na seguinte equação:
Y[k,m]= G[k,m]-X[k,m].
[00119] A representação no domínio de tempo Y[n] do sinal no domínio de frequência Y[n] pode ser computada por meio de uma transformada inversa, em modalidades a STFT inversa. A seguir, os sinais no domínio de tempo serão denotados com letras minúsculas e sinais no domínio de frequência com letras maiúsculas. Os índices ke m ou os sinais no domínio de frequência serão omitidos para melhor legibilidade.
[00120] A Figura 12c mostra um diagrama de blocos esquemático de um aparelho 125 configurado para processar um sinal de áudio 91 que pode ser recebido de um decodificador e que pode ter sido submetido à limitação de largura de banda artificial e/ou aprimoramento espectral, tal como replicação de banda espectral. O aparelho 125 compreende o avaliador de inclinação 52 e o avaliador de frequência 58. O avaliador de inclinação 52 é configurado para avaliar uma inclinação de um espectro do sinal de áudio 91 para obter um resultado de
Petição 870190124366, de 27/11/2019, pág. 49/117
46/82 inclinação como descrito em conexão com a Figura 9 e/ou a Figura 12a. O avaliador de frequência pode ser configurado para avaliar pelo menos uma primeira e uma segunda frequência, por exemplo, nas bordas 206i e 2062 e/ou nas bordas 2063 e/ou 2064 que circundam, limitam ou cercam o respectivo artefato, ou seja, o espaço 202 e/ou a ilha espectral 204.
[00121] O aparelho 125 compreende um processador 208 configurado para determinar um peso espectral G e/ou l/l/e para processar o sinal de áudio 91 pelo menos em uma região espectral entre as respectivas bordas 206i e 2062, 2063 e 2064 respectivamente, com o uso dos pesos espectrais G e/ou W. O aparelho 125 pode ser configurado para determinar os pesos espectrais G e/ou W para cada uma das regiões de frequência, compartimentos de frequência e/ou quadros do sinal de áudio 91. Os pesos espectrais G podem ser usados para formar ou modelar um sinal de enchimento S a ser combinado com o sinal de áudio, de modo a preencher lacunas espectrais. Os pesos espectrais W podem ser usados para atenuar ilhas espectrais. Ou seja, para reduzir um artefato dentro da lacuna espectral 202, um sinal de preenchimento Fpode ser usado. Para reduzir artefatos provocados pela ilha espectral 204, pesos espectrais Wpodem ser utilizados para atenuar uma altura da ilha. Para uma pluralidade de valores de frequência dentro da respectiva lacuna espectral 202 e da respectiva ilha espectral 204, uma pluralidade de pesos espectrais pode ser determinada.
[00122] A Figura 12d mostra um diagrama de blocos esquemático de uma funcionalidade que pode ser implantada pelo processador 208 para determinar os pesos espectrais G. Lacunas espectrais podem ser definidas como uma diminuição abrupta, isto é, pelo menos 30dB, pelo menos 40dB ou pelo menos 50 dB de áreas de magnitude espectral no domínio de frequência e de tempo/direção. A avaliação adicional ao longo do tempo mostra que áreas espectrais entre harmônicos de um sinal tonal não são detectadas incorretamente como lacunas espectrais. Em [5] o método de detecção procura por zeros perfeitos no domínio espectral. Isso só é possível devido ao fato de que o método está localizado no
Petição 870190124366, de 27/11/2019, pág. 50/117
47/82 decodificador e tem acesso ao mesmo banco de filtros e bloqueio que o codificador. As modalidades descritas se referem a um pós-processamento do decodificador que avalia mudanças espectrais relativas abruptas com o uso da diferença de espectro de magnitude Xe sua cópia suavizada. O fluxo de sinal para detectar tanto lacunas espectrais quanto as ilhas espectrais é ilustrado na Figura 12d. STFT ou um calculador de espectro diferente 44 pode ser usado para obter uma representação espectral do sinal de áudio 91. Um valor absoluto anterior 212 pode ser configurado para emitir o espectro de magnitude X. Um logaritmo 214 é configurado para transformar o espectro de magnitude X no domínio logarítmico, para usar uma transformação logarítmica, tal como
X- 20logio(X).
[00123] O espectro de magnitude logarítmica obtido X'pode ser suavizado por dois filtros passa-baixa em paralelo, em que um primeiro filtro passa-baixa 216a pode ser configurado para suavizar o espectro do sinal de áudio, isto é, o sinal de áudio, no domínio de frequência, de modo a obter um sinal Yque é suavizado no domínio de frequência. Um segundo filtro passa-baixa 216b pode ser configurado para suavizar o espectro de magnitude X'no domínio de tempo, de modo a obter um sinal suave Z. Embora seja descrito como sendo suavizado no domínio logarítmico, a suavização também pode ser realizada no domínio linear ou em um domínio diferente. Ou seja, o logaritmo 214 também pode estar ausente ou pode ser disposto após os filtros passa-baixa. Ou seja, o espectro de magnitude logarítmica X'pode ser suavizado por dois filtros passa-baixa, tanto na frequência quanto no tempo, o que pode levar aos sinais Y' e Z', respectivamente. Para o cálculo dos pesos especiais G, os valores lineares podem ser calculados por
Yl
Y = 10zõ.
[00124] Esses valores lineares podem ser comparados com o espectro de magnitude X, de modo a obter um valor de diferença de frequência e/ou um valor de diferença de tempo. As diferenças relativas At e At que comparam as magnitudes espectrais X às suas versões suavizadas ao longo do tempo Z e
Petição 870190124366, de 27/11/2019, pág. 51/117
48/82 frequência Y podem ser calculadas no domínio logarítmico, por exemplo, para cada coeficiente espectral e para cada quadro por
Xf=Y-2Olog10(X) e
Δζ=Ζ' -201og10(X) em que Áf se refere ao valor de diferença de frequência e Át se refere ao valor de diferença de tempo.
[00125] O calculador de peso espectral 218 pode ser configurado para calcular o peso espectral G de acordo com _ Jr sf (Ay > áf] A(Δ.4 > éf) tí otherwise ou seja, o peso espectral G é definido como um valor diferente de zero, se o valor de diferença de frequência Áf for maior ou igual a um limiar de diferença de frequência Áf e se o valor de diferença de tempo Át for maior ou igual a uma valor limiar de diferença de tempo Át. Embora sendo descritos como exigindo que os valores de diferença de tempo Át e Át sejam maiores do que seus respectivos valores limiares Áf, Át, respectivamente, com base em outros valores limiares ou valores limiares que são escolhidos de maneira diferente, o parâmetro de ganho também pode ser Γ quando é igual aos valores limiares. A seguinte regra de determinação pode se aplicar:
Figure BR112019020523A2_D0001
em que Áf e Át denotam parâmetros limiares, α, β e γ são parâmetros que influenciam as características do cálculo de peso espectral. Todos os parâmetros são parâmetros ajustáveis, κ é um termo que é usado para aumentar o impacto da ponderação e pode ser calculado de acordo com a regra de determinação ou com base na mesma:
20Íog(X)+Sf K = 10 20 [00126] Os ganhos espectrais calculados são suavizados ao longo do tempo e
Petição 870190124366, de 27/11/2019, pág. 52/117
49/82 frequência, por exemplo, com o uso de um filtro passa-baixa 222a, 222b, respectivamente. Os ganhos espectrais são posteriormente usados para uma ponderação espectral de um sinal de fonte de preenchimento S como é descrito em conexão com a Figura 12e.
[00127] A Figura 12e mostra um diagrama de blocos esquemático de um aprimorador de sinal 200 configurado para reduzir o artefato de Birdies. O processamento pode ser feito, por exemplo, com o uso do processador 208. O aparelho 200 pode compreender um combinador 224 para combinar um sinal de fonte de preenchimento S com os fatores de ponderação espectral G, por exemplo, por multiplicação, de modo a obter o sinal de preenchimento F. O sinal de preenchimento Fpode compreender uma estrutura de acordo com a qual o mesmo compreende apenas valores diferentes de zero em locais em que lacunas espectrais tenham sido estimadas. Um combinador adicional 226 pode ser configurado para combinar o sinal de preenchimento F com o espectro de magnitude X, por exemplo, por uma soma. Ou seja, o sinal de preenchimento Fé adicionado ao sinal de entrada X. O sinal de fonte de preenchimento S pode ser obtido ou gerado filtrando-se o sinal de áudio 91 no domínio de tempo, o que prolonga as informações dos quadros anteriores. Alternativamente, o sinal da fonte de preenchimento pode ser obtido copiando-se os coeficientes espectrais de outras posições dentro de um quadro espectral, copiando-se coeficientes espectrais de outro canal de áudio que não exibe uma lacuna espectral no local de resposta e/ou copiando-se coeficientes espectrais de um quadro espectral anterior que não exibe uma lacuna espectral.
[00128] Em conceitos conhecidos, por exemplo, é usada substituição de ruído da ferramenta Substituição de Ruído Perceptivo (PNS) da Advanced Audio Coding (AAC). Porções do espectro semelhantes a ruídos são substituídas no decodificador por uma sequência pseudoaleatória de valores dimensionados para corresponderem a uma dada energia alvo. O processo é controlado por informações secundárias. Além disso, é conhecida uma técnica denominada
Petição 870190124366, de 27/11/2019, pág. 53/117
50/82 preenchimento de ruído. O preenchimento de ruído é usado no codec de Codificação de Fala e Áudio Unificada (USAC) para preencher os buracos espectrais provocados pela zona morta do quantizador ao operar sob restrições de uma provisão de bits pequena. Uma sequência pseudoaleatória de valores é usada para preencher esses zeros espectrais. Ademais, uma técnica chamada Preenchimento de Lacuna Inteligente é conhecida do MPEG-H e 3GPP EVS. Aqui, as lacunas espectrais são preenchidas com ruído ou com o uso de blocos espectrais originários de um local espectral remoto. O processo é controlado por informações secundárias. As modalidades descritas no presente documento diferem do preenchimento de ruído, de modo que é usada uma distribuição de informações de tempo frequência dos quadros de tempo anteriores para preencher buracos espectrais. Ao contrário do PNS, o sinal de saída filtrado é preenchido apenas em lacunas espectrais, em vez de bandas PNS inteiras. Por outro lado com PNS e IGF (Preenchimento de Lacuna Inteligente), as modalidades podem ser usadas como processamento não guiado, isto é, sem o uso de informações secundárias.
[00129] O aparelho 200 pode compreender um calculador de peso de ilha espectral 228 que também pode ser implantado pelo processador 208. Ilhas espectrais contidas no sinal Z que é recebido do combinador 226 e é obtido adicionando-se espectro de entrada Xe preenchem o sinal Fde acordo com
Z = X+ F podem ser suprimidas por meio de ponderação espectral de acordo com
Y = W-Z [00130] Como G, W são pesos espectrais que são recalculados para cada quadro m e coeficiente espectral k. A fim de preservar o máximo de largura de banda possível, a supressão de ilhas espectrais é feita após lacunas espectrais terem sido preenchidas. Apenas ilhas espectrais isoladas que não puderam ser conectadas à parte principal do espectro são finalmente suprimidas. Para obter um aprimoramento parcial, a supressão de ilha espectral pode ser realizada sem
Petição 870190124366, de 27/11/2019, pág. 54/117
51/82 o preenchimento da lacuna espectral. Alternativamente, o preenchimento de lacuna espectral pode ser realizado sem o cálculo do peso espectral.
[00131] Para suprimir o cálculo do peso espectral e para calcular o peso espectral l/IZ, o seguinte ensinamento pode ser implantado. Ilhas espectrais podem ser definidas como aumento abrupto de áreas de magnitude espectral na direção de frequência e tempo cercadas por valores de magnitude espectral muito baixos. Um aumento de magnitudes pode ser, por exemplo, pelo menos 30dB, pelo menos 40dB ou pelo menos 50dB. Ilhas espectrais podem ser suprimidas atenuando-se os coeficientes espectrais correspondentes por meio de ponderação espectral. Para derivar os pesos espectrais l/IZ, um processamento semelhante ao descrito em conexão com a Figura 12d pode ser realizado. Tal como descrito para os pesos espectrais G, o valor de diferença de tempo e o valor de diferença de frequência At e Át podem ser determinados. O peso espectral W pode ser derivado com base na regra de determinação:
Figure BR112019020523A2_D0002
em que ' I V J
ΔΡ é um limiar que reflete a suposição de que ilhas espectrais são cercadas por coeficientes espectrais de baixa energia. Át e Át são parâmetros limiares. Como descrito acima, α, β e γ são parâmetros ajustáveis. Em consideração à regra de determinação acima, em faixas da ilha espectral, o peso espectral Ω é determinado permitindo atenuar o sinal Z, Y, respectivamente, ou seja, Ω é um valor menor do que 1. Em uma faixa fora da ilha espectral, Wé um valor de 1, ou seja, nenhuma atenuação é realizada. O aparelho 200 pode compreender um combinador 232, de modo a combinar os pesos espectrais W com o sinal Z, por exemplo, com o uso de uma multiplicação. Um transformador de sinal 234 pode ser usado para executar ISTFT, ou seja, para obter um sinal no domínio de tempo.
Petição 870190124366, de 27/11/2019, pág. 55/117
52/82 [00132] Em outras palavras, o conceito de supressão de Birdies pode ser dividido em preenchimento de lacuna espectral e supressão de ilha espectral. O sinal de preenchimento Fpode ser calculado por filtragem de um sinal fonte de preenchimento de banda larga S com pesos espectrais G. F contém apenas valores diferentes de zero, em que lacunas espectrais foram identificadas em X que é determinado de acordo com
F= G · S [00133] A Figura 12f mostra um fluxograma esquemático de um método 1500 para processar um sinal de áudio. O método 1500 compreende uma etapa 1600 na qual uma inclinação de um espectro do sinal de áudio é avaliada para obter um resultado de relação de inclinação. Uma etapa 1700 compreende avaliar pelo menos uma primeira e uma segunda borda de frequência em que o espectro compreende uma borda de modo a obter um resultado de avaliação de frequência. Uma etapa 1800 compreende determinar um peso espectral e processar o sinal de áudio em uma região espectral entre a primeira e a segunda borda de frequência, com o uso do peso espectral.
[00134] A Figura 13a mostra um fluxograma esquemático de um método 2000 para determinar uma característica predeterminada relacionada a um processamento de limitação de largura de banda artificial de um sinal de áudio. O método 2000 compreende uma etapa 2100 que compreende avaliar uma inclinação de um espectro do sinal de áudio para obter um resultado de avaliação de inclinação. Uma etapa 2200 compreende fornecer informações que indicam que o sinal de áudio compreende a característica predeterminada dependente de uma avaliação do resultado de avaliação de inclinação. As informações 66 fornecidas pelo processador 64 podem conter uma variável denominada doravante como D que pode ser usada para ativar o processamento de extensão de largura de banda que é aplicado para melhorar a qualidade de som de um canto de áudio, por exemplo, com o uso do aprimorador de sinal. Opcionalmente, a frequência de corte fc pode ser determinada, isto é, uma etapa opcional pode compreender a avaliação de uma frequência de corte do espectro do
Petição 870190124366, de 27/11/2019, pág. 56/117
53/82 sinal de áudio para obter um resultado de avaliação de frequência de modo que as informações que indicam que o sinal de áudio compreende a característica predeterminada possam ser fornecidas dependentes do resultado de avaliação de inclinação e dependentes do resultado de avaliação de frequência. A frequência de corte fc pode ser usada para controlar a extensão de largura de banda (BWE), determinando-se a faixa de frequência na qual a BWE opera, de modo que a mesma recupere apenas a região de frequência que está faltando. Isso é ilustrado na Figura 13b, que mostra um fluxograma esquemático de um método 2500 de acordo com outra modalidade, sendo que o método compreende a etapa 2150 que compreende avaliar uma frequência de corte do espectro do sinal de áudio para obter um resultado de avaliação de frequência [00135] A segunda aplicação em que ABLA, ou seja, detecção da respectiva característica, pode ser usada ou exigida, é a classificação de um sinal de áudio como um sinal de baixa qualidade de som devido à compressão com perdas. Essa classificação pode ser com base apenas na análise descrita ou combinando-a com outras informações que podem ser extraídas do sinal de áudio. Exemplos de informações adicionais que podem ser usadas nesse contexto são a largura do sinal estéreo ou a presença de Replicação de Banda Espectral (SBR), ou seja, um método que é aplicado por codecs com perdas. A ABLA é, então, usada para ativar outro processamento que melhora a qualidade de som dos sinais com uma compressão com perda, que não é restrito ao processamento BWE. Exemplos são filtragem para aprimoramento da largura de estéreo e de componentes de sinal transitório.
[00136] Os resultados da ABLA, ou seja, o parâmetro D e a frequência de corte fc, podem ser utilizados ou podem ser necessários para reparar automaticamente tais artefatos sem a necessidade de um operador humano envolvido. Pode ser de importância crucial aplicar melhoria de qualidade de som apenas a sinais que tenham qualidade de som degradada. Sinais que têm alta qualidade não devem ser processados dessa maneira, devido ao fato de que a qualidade de som pode
Petição 870190124366, de 27/11/2019, pág. 57/117
54/82 ser afetada negativamente. Modalidades de acordo com o segundo aspecto permitem detectar quadros de áudio ou sinais de áudio submetidos à limitação da largura de banda artificial com uma alta precisão. Os sinais de áudio têm uma largura de banda natural determinada pelo processo de geração de som. A largura de banda pode mudar devido a vários processos técnicos, incluindo limitação de largura de banda que é aplicada para captura, armazenamento, processamento e transmissão do sinal. A limitação da largura de banda é uma filtragem passa-baixa que tem as características de uma atenuação muito acentuada, uma atenuação muito alta e uma frequência de corte, conforme descrito acima.
[00137] A seguir, será feita referência ao terceiro e quarto aspectos da presente invenção, que se referem a um conceito para largura de banda que estende um sinal limitado de largura de banda no terceiro aspecto, por exemplo, responsivo a ter determinado limitação de largura de banda artificial, de acordo com o segundo aspecto. Assim, modalidades de acordo com o terceiro aspecto podem ser usadas como aprimorador de sinal em conexão com o segundo aspecto.
[00138] O conceito de acordo com o terceiro aspecto visa suprimir diversos artefatos de codificação para melhorar a qualidade de som percebida. As etapas técnicas podem ser implantadas como pós-processamento e podem ser implantadas parcialmente com o uso de software que pode ser usado pelo decodificador. O conceito pode funcionar às cegas sem ter acesso ao sinal de áudio não compactado e a outras informações secundárias. O processamento de aprimoramento de codificação de taxa de bits baixa de acordo com o terceiro aspecto compreende ou até mesmo consiste essencialmente em um pósprocessador que introduz ou aprimora a agradabilidade perceptiva relacionada a conceitos para pós-processamento não guiado de material de áudio que tenha sido pré-codificado por codificadores perceptivos legados. Assim, o material de áudio pré-codificado pode se beneficiar de conceitos modernos de agradabilidade perceptiva.
[00139] As modalidades que são descritas em conexão com o terceiro e quarto
Petição 870190124366, de 27/11/2019, pág. 58/117
55/82 aspecto podem usar um princípio básico chamado ponderação espectral ou atenuação espectral de curto prazo. Portanto, um sinal no domínio de tempo x[n] é transformado em sua representação no domínio de frequência X[k,m] em que k e m doam o índice de frequência e de período de tempo, respectivamente. De acordo com modalidades, uma transformada de Fourier de curto prazo (STFT) pode ser aplicada, mas outras transformadas também podem ser usadas. O sinal de saída Y da ponderação espectral pode ser dado pela seguinte equação
Y[k,m] = G[k,m] X[k,m], em que a representação no domínio de tempo y[n] do sinal no domínio de frequência Y[k,m] pode ser computada por meio de uma transformada inversa, por exemplo, uma STFT inversa, isto é, ISTFT. Nas seções a seguir, os sinais no domínio de tempo podem ser indicados com letras minúsculas e sinais do domínio de frequência com letras maiúsculas. Os índices ke m ou os sinais no domínio de frequência serão omitidos para melhor legibilidade. A ponderação espectral será explicada em mais detalhes em conexão com um aspecto que é denominado como ponderação espectral, no qual são explicados detalhes para os pesos espectrais G[k,m].
[00140] A Figura 14 mostra um diagrama de blocos esquemático de um aparelho 140, de acordo com uma modalidade do terceiro aspecto. O aparelho 140 é configurado para processar um sinal de áudio e pode receber o espectro 12’ do sinal de áudio para o processamento. O aparelho 140 pode ser configurado para receber a representação no domínio de tempo do sinal de áudio, isto é, o sinal de áudio 12 e pode derivar o espectro 12', por exemplo, o aparelho 140 pode compreender o calculador de espectro 44 para esse propósito.
[00141] O aparelho 140 compreende um separador 92 para separar uma primeira porção 91 'a de um espectro 91 ’ de um sinal de áudio 91 de uma segunda porção 91 'b do espectro 91' do sinal de áudio 91. A primeira porção 91 'a tem uma primeira característica de sinal e a segunda porção 91'b tem uma segunda característica de sinal. O sinal de áudio 91 pode ser recebido pelo aparelho 91 no
Petição 870190124366, de 27/11/2019, pág. 59/117
56/82 domínio de tempo e/ou no domínio de frequência e pode ser, por exemplo, limitado em largura de banda com o uso de uma frequência de corte fc e pode ser submetido a pós-processamento. Um recurso principal do terceiro aspecto em relação à extensão de largura de banda é que o sinal de entrada pode ser dividido em características diferentes, tais como porções de sinal transitória e sustentada, que são tratadas independentemente, aplicando-se configurações de parâmetros diferentes aos módulos em cada parte.
[00142] A primeira e a segunda características de sinal podem diferir entre si por meio de percepções diferentes e/ou por características diferentes na faixa de frequência. Embora as modalidades não sejam limitadas a isso, a primeira e a segunda características do sinal podem ser complementares entre si, isto é, removendo-se, excluindo-se ou subtraindo-se uma característica de sinal do espectro comum 91', a porção restante forma a outra característica. A título de exemplo não limitante, a primeira característica de sinal pode ser uma faixa de frequência média do espectro e a segunda característica de sinal pode ser uma faixa de frequência lateral do espectro. Alternativamente, a primeira característica de sinal pode ser uma característica de sinal direta do sinal de áudio e a segunda característica de sinal pode ser uma característica de sinal ambiente do sinal de áudio. De acordo com outra modalidade, a primeira característica de sinal pode ser uma característica tonal do sinal de áudio e a segunda característica de sinal pode ser uma característica de sinal sustentado do sinal de áudio que pode ser denominada como transitória ou semelhante. Alternativamente, a primeira característica de sinal pode ser uma característica de fala do sinal de áudio e a segunda característica de sinal pode ser uma característica não de fala do sinal de áudio. Outras características de sinal também são possíveis. Além disso, é possível formar combinações das mesmas, isto é, combinar duas ou mais das características identificadas acima. A primeira e a segunda porções 91'a e 91'b podem compreender uma largura de banda comparável ou igual, frequência de início e frequência de parada e podem formar, quando combinadas entre si o
Petição 870190124366, de 27/11/2019, pág. 60/117
57/82 espectro 91 'novamente. Ou seja, a divisão ou separação pode ser feita por meio de decomposição de sinal transitória-sustentada. Alternativa ou adicionalmente, outras regras ou métodos de decomposição são possíveis, tais como decomposição de sinal de meio lado, decomposição de sinal ambiente direto ou decomposição em primeiro plano/fundo e/ou decomposição de fala/não fala, etc. [00143] O aparelho 140 pode compreender um primeiro extensor de largura de banda 94i para estender uma largura de banda da primeira porção 91'a com o uso dos primeiros parâmetros 96i associados à primeira característica de sinal para obter uma primeira porção estendida 98a. O aparelho 140 compreende adicionalmente um segundo extensor de largura de banda 942 para estender uma largura de banda da segunda porção 91 'b com o uso de segundos parâmetros 962 associados à segunda característica de sinal para obter uma segunda porção estendida 98b. A extensão da largura de banda pode compreender formar partes adicionais ou porções de frequência no espectro a serem combinadas com o sinal original. Isso pode incluir uma cópia e/ou uma geração de tais regiões de frequência adicionais por transposição, alongamento espectral ou geração de sobretons através da aplicação de uma não linearidade. Ao usar um primeiro e um segundo extensor de largura de banda, as características de sinal diferentes presentes nas porções diferentes 91'a e 91'b podem ser consideradas de modo diferente pelo respectivo extensor de largura de banda 94i e 942. Por exemplo, uma largura de banda de uma porção copiada, um número de cópias, uma alternância de cópias, uma modelagem espectral de um sinal que é obtido e/ou características de frequência de porções espectrais que são geradas artificialmente podem variar entre características de sinal diferentes que podem ser consideradas com o uso de conjuntos de parâmetros diferentes 96i e 962 em conexão com as diferentes características de sinal. Isso permite uma alta adaptação da extensão de largura de banda à característica de sinal.
[00144] Embora tenha descrito o aparelho 140 como compreendendo um primeiro e um segundo extensores de largura de banda para considerar uma
Petição 870190124366, de 27/11/2019, pág. 61/117
58/82 primeira e uma segunda características de sinal, um aparelho de acordo com outras modalidades pode ser configurado para submeter mais do que dois, por exemplo, três, quatro, cinco ou mesmo um número superior, para extensões de largura de banda diferentes. Um aparelho desse tipo pode compreender números correspondentes de extensores de largura de banda, mas também pode usar um extensor de largura de banda para pelo menos duas extensões de largura de banda, por exemplo, ao processar sequencialmente características de sinal diferentes. Consequentemente, o aparelho 140 pode ser implantado implantandose um extensor de largura de banda 94 e para adaptar o extensor de largura de banda com parâmetros diferentes 96i e 962 sequencialmente enquanto processa as porções diferentes 91'a e 91'b sequencialmente.
[00145] O aparelho 140 compreende um combinador 102 configurado para usar a primeira e a segunda porções estendidas 98a e 98b para obter um sinal de áudio combinado estendido 104. As porções estendidas 98a e 98b podem ser recebidas do combinador 102 como uma representação no domínio de tempo, de modo que o sinal de áudio combinado 104 também possa estar no domínio de tempo. Alternativamente, as porções estendidas 98a e 98b podem ser recebidas pelo combinador no domínio de frequência, de modo que o sinal de áudio combinado 104 também possa estar no domínio de frequência, de modo a ser convertido para o domínio de tempo posteriormente. Alternativamente, o combinador 102 pode ser configurado para transformar cada uma das porções únicas 98a e 98b ou uma versão combinada das mesmas no domínio de tempo e para fornecer o sinal de áudio combinado 104 no domínio de tempo.
[00146] A Figura 15 é um diagrama esquemático que ilustra um espectro exemplificativo que compreende componentes diferentes 106a e 106b. Por exemplo, o componente 106a pode estar relacionado a um sinal transitório do espectro, por exemplo, obtido por um tarol. Tais sinais podem ter uma correlação superior dentro de um quadro espectral e também podem ter uma largura de banda superior a um sinal sustentado, por exemplo, indicado pela porção
Petição 870190124366, de 27/11/2019, pág. 62/117
59/82 espectral 106, que pode se referir a uma voz humana. Na Figura 15, pode ser visto que a porção transitória 106a tem uma largura de banda consideravelmente maior do que a porção 106b, por exemplo, uma voz cantante.
[00147] A Figura 16 mostra um diagrama de blocos esquemático de um aparelho 160, de acordo com uma modalidade do terceiro aspecto. A seguir, será feita referência ao sinal de áudio e aos sinais derivados do mesmo. O sinal de áudio pode estar presente e/ou ser processado no domínio de tempo e/ou no domínio de frequência, em que ambas as variantes podem ser transformadas uma em relação à outra por uma conversão de frequência para tempo ou uma conversão de tempo para frequência. Assim, quando se refere ao sinal de áudio, isso pode se referir à representação no domínio de tempo e à representação no domínio de frequência sinonimamente aceitável que é explicada explicitamente de outra forma.
[00148] O aparelho 160 compreende o separador 92 que é configurado para receber a representação no domínio de frequência 91 ’ do sinal de áudio 91. Para esse fim, o aparelho 160 pode compreender o calculador de espectro 44 para obter a representação no domínio de frequência 91 ’ a partir da representação no domínio de tempo.
[00149] O separador 92 pode compreender um supressor transitório 108 configurado para receber o sinal de áudio, por exemplo, a representação no domínio de frequência e para reduzir porções transitórias no sinal de áudio 91, de modo a obter um primeiro sinal de áudio modificado. O separador 92 pode ser configurado para obter a primeira porção 98a com base no primeiro sinal de áudio modificado. De acordo com uma modalidade, a primeira porção 98a corresponde ao primeiro sinal de áudio modificado. De acordo com outra modalidade, um processamento da primeira porção modificada é realizado, por exemplo, uma filtragem, amplificação, atenuação ou similares.
[00150] O separador 92 pode compreender um subtrator 112 para subtrair o primeiro sinal de áudio modificado, a primeira porção 91'a por exemplo, do sinal
Petição 870190124366, de 27/11/2019, pág. 63/117
60/82 de áudio 91, de modo a obter um segundo sinal modificado. De acordo com uma modalidade, o segundo sinal modificado é a segunda porção 91 'b. Como descrito para a primeira porção 91 'a, a segunda porção 91 'b também pode ser obtida com base no processamento do resultado da subtração obtido. Assim, removendo-se a primeira porção 91'a do sinal de áudio 91, a segunda porção 91 'b pode ser obtida. Obtendo-se o primeiro sinal modificado e subtraindo-o do sinal de áudio de modo a obter o segundo sinal modificado, pode ser realizada a decomposição do sinal de áudio nas duas porções.
[00151 ] O separador 92 pode ser configurado para operar no domínio de frequência ou no domínio de tempo e para processar o sinal de áudio 91 de modo que o supressor transitório 108 reduza ou elimine porções transitórias e/ou tonais para cada sub-banda de um espectro do sinal de áudio 91. Isso pode levar a menos ou até mesmo nenhum processamento para sub-bandas que compreendem porções pouco ou não transitórias ou pouco ou não tonais (ou seja, ruidosas). O supressor transitório 108 pode compreender um estágio de processamento transitório, um estágio de processamento tonal e/ou um estágio de combinação, de modo a processar uma das características a serem separadas, suprimindo-as ou amplificando-as. A representação no domínio de frequência do sinal de áudio 91 pode compreender uma infinidade de sub-bandas (bandas de frequência), em que o estágio de processamento transitório e/ou o estágio de processamento tonal são configurados para processar cada uma das bandas de frequência. Alternativamente, o espectro obtido por conversão de frequência do sinal de áudio 91 pode ser reduzido, isto é, cortado, para excluir certas faixas de frequência ou bandas de frequência de processamento adicional, tais como bandas de frequência que contêm a característica selecionada ou que não têm a característica selecionada. Isso pode permitir um esforço computacional reduzido e, portanto, um processamento mais rápido e/ou mais preciso.
[00152] O estágio de processamento transitório pode ser configurado para determinar para cada uma das bandas de frequência processadas, se a banda de
Petição 870190124366, de 27/11/2019, pág. 64/117
61/82 frequência compreende porções transitórias. O estágio de processamento tonal pode ser configurado para determinar para cada uma das bandas de frequência, se o sinal de áudio 91 compreende porções tonais na banda de frequência. O estágio de processamento transitório pode ser configurado para determinar pelo menos para as bandas de frequência que compreendem fatores de ponderação espectral de porções transitórias, em que os fatores de ponderação espectral são associados à respectiva banda de frequência e podem permitir atenuar/excluir ou amplificar as respectivas porções. Características transitórias e tonais podem ser identificadas por processamento espectral. Um nível de transitoriedade e/ou tonalidade pode ser medido pelo estágio de processamento transitório e/ou pelo estágio de processamento tonal do separador 92 e pode ser convertido para um peso espectral. O separador 92 pode ser configurado para determinar fatores de ponderação espectral pelo menos para bandas de frequência que compreendem as porções tonais. Os fatores de ponderação espectral podem compreender uma infinidade de valores possíveis, sendo que a magnitude dos fatores de ponderação espectral indica uma quantidade de porções transitórias e/ou tonais na banda de frequência.
[00153] Os fatores de ponderação espectral podem compreender um valor absoluto ou relativo. Por exemplo, o valor absoluto pode compreender um valor de energia de som transitório e/ou tonal na banda de frequência. Alternativamente, os fatores de ponderação espectral podem compreender o valor relativo, tal como um valor entre 0 e 1, sendo que o valor 0 indica que a banda de frequência compreende nenhuma ou quase nenhuma porção transitória ou tonal e o valor 1 indica que a banda de frequência compreende uma quantidade alta ou completamente de porções transitórias e/ou tonais. Os fatores de ponderação espectral podem compreender um dentre vários valores, como um número de 3, 5, 10 ou mais valores (etapas), por exemplo, (0, 0,3 e 1), (0,1,0,2,..., 1) ou similares. Um tamanho da escala, um número de etapas entre um valor mínimo e um valor máximo podem ser pelo menos zero, mas, preferencialmente, pelo menos um e mais preferencialmente pelo menos cinco. De preferência, a multiplicidade de valores dos pesos espectrais compreende pelo
Petição 870190124366, de 27/11/2019, pág. 65/117
62/82 menos três valores que compreendem um valor mínimo, um valor máximo e um valor que está entre o valor mínimo e o valor máximo. Um número superior de valores entre o valor mínimo e o valor máximo pode permitir uma ponderação mais contínua de cada uma das bandas de frequência. O valor mínimo e o valor máximo podem ser redimensionados para uma escala entre 0 e 1 ou outros valores. O valor máximo pode indicar um nível mais alto ou mais baixo de transitoriedade e/ou tonalidade.
[00154] Um estágio de combinação do separador 92 pode ser configurado para combinar os pesos espectrais para cada uma das bandas de frequência com o sinal de áudio. O separador 92 pode ser configurado para aplicar os pesos espectrais combinados a cada uma das bandas de frequência. Por exemplo, os pesos espectrais podem ser multiplicados por valores espectrais do sinal de áudio 91 na banda de frequência processada.
[00155] Suprimindo-se ou excluindo-se algumas porções/características do sinal de áudio 91, pode ser obtido um primeiro sinal modificado sem a respectiva característica, mas que compreende a outra característica. Subtraindo-se o sinal do sinal de áudio, um sinal inverso que compreende a característica suprimida e sem a característica do primeiro sinal modificado pode ser obtido por meio do segundo sinal modificado.
[00156] A seguir, será feita referência a um exemplo de configuração dos extensores de largura de banda 94i e 942. Cada um dos extensores de largura de banda 94i e 942 pode compreender um duplicador 114 para duplicar pelo menos uma parte da respectiva porção, pode compreender um modelador de invólucro 116 que molda pelo menos as porções estendidas geradas pelo duplicador, pode compreender um clareador 118 para equalizar pelo menos as porções estendidas e/ou pode compreender um filtro antiaspereza 122 para deslocar de fase pelo menos uma porção da porção estendida. Cada um desses elementos pode ser disposto junto com outros elementos referenciados. Alternativamente, alguns ou todos esses elementos podem estar ausentes e/ou podem ser substituídos por outros elementos. Por exemplo, em vez de uma cópia realizada pelo duplicador,
Petição 870190124366, de 27/11/2019, pág. 66/117
63/82 uma geração artificial de uma largura de banda pode ser implantada pelo extensor de largura de banda, de modo que um gerador de largura de banda possa substituir o duplicador 114. Alternativamente, uma modelagem ou clareamento do espectro pode ser descartada e/ou outro processamento pode ser usado. Ademais, o filtro antiaspereza 122 é opcional. Embora seja ilustrado como filtrando um sinal respectivo no domínio de tempo ao ser suprido com a saída de um bloco de transformada Fourier de curto prazo interno 124, o filtro antiaspereza pode ser configurado para operar no domínio de frequência e, portanto, pode ser disposto antes de um respectivo bloco de transformada de Fourier de curto prazo inversa 124. Assim, além dos blocos dispostos, também uma ordem dos mesmos pode ser variada [00157] Cada um dos extensores de largura de banda 94i e 942 pode compreender um respectivo primeiro e segundo duplicador 114i e 1142. Os duplicadores 114i e 1142 são configurados para duplicar pelo menos uma parte da respectiva primeira ou segunda porção 91 'a e 91 'b e para combinar pelo menos uma versão da parte duplicada da primeira porção, da segunda porção, respectivamente, com a primeira porção, a segunda porção 91'a, 91'b, respectivamente, de modo a obter uma respectiva porção estendida 126a, 126b, respectivamente.
[00158] Quando em referência agora à Figura 17a, é mostrado um espectro exemplificativo da primeira porção 91'a, em que a explicação dada se refere à segunda porção 91 'b sem qualquer limitação. A porção 91 'a pode ter uma energia ou amplitude relevante | X| abaixo da frequência de corte fc e pode compreender uma quantidade baixa de energia ou mesmo nenhuma energia acima da frequência de corte fc. O espectro pode diminuir com um aumento na frequência. Em outras palavras, a Figura 17a mostra o espectro de magnitude | X| de um sinal de banda limitada. A frequência de corte é indicada como fc.
[00159] A Figura 17b mostra um diagrama esquemático da primeira porção 91 'a que é estendida por um número de duas partes duplicadas 128i e 1282. Cada uma
Petição 870190124366, de 27/11/2019, pág. 67/117
64/82 das partes duplicadas 128i e 1282 pode ser uma cópia de uma banda de frequência w da primeira porção 91 'a que é copiada para uma faixa de frequência desocupada pela porção 91'a, ou seja, para faixas de frequência acima do ponto de corte frequência fc, em que preferencialmente as porções duplicadas 128i e 1282 são combinadas de modo a ordenar diretamente no sinal original, ou seja, a primeira porção 91'a. A Figura 17b ilustra, portanto, como a cópia é realizada. Os coeficientes espectrais complexos são deslocados da chamada correção de origem w no intervalo de frequência [/c-w,/c] para as correções de destino nos intervalos [fc,fc+w,fc+2 w], etc., isto é, para [fc(n-1) w, fc+nw] para cada n, em que n é uma variável que varia de 1 ao número de correções ou número de cópias que são inseridas. O número n que é 2 a título de exemplo não limitante na Figura 17b e uma largura DE da porção de duplicação pode ser ajustada pelo aparelho 160 independentemente para cada um dos extensores de largura de banda 94i e 942. Ou seja, a frequência em que a correção de fonte wé alterada pode depender da largura de banda desejada e/ou de um número de correções, em que ambos podem ser um parâmetro ajustável. Como na magnitude decrescente do espectro, podem ocorrer degraus ou descontinuidades em locais em que a correção é conectada.
[00160] A parte copiada da primeira e da segunda porção pode variar de uma primeira frequência intermediária, por exemplo, fcópiai da primeira porção 91'a a uma frequência máxima fc da primeira porção. Consequentemente, a parte copiada da segunda porção pode compreender uma segunda faixa de frequência que varia de uma frequência intermediária igual ou diferente da segunda porção 91'b a uma frequência máxima da segunda porção que também pode ser a frequência de corte fc. Com base em diferentes frequências intermediárias, a largura Dfw pode ser diferente. Para obter a mesma largura de banda resultante, portanto, várias correções também podem variar entre os extensores de largura de banda diferentes.
[00161] Para evitar artefatos indesejados, o primeiro extensor de largura de
Petição 870190124366, de 27/11/2019, pág. 68/117
65/82 banda pode compreender um primeiro modelador de invólucro 1161 e o segundo extensor de largura de banda 942 pode compreender um segundo modelador de invólucro 1162. Os modeladores de invólucro 1161 e 1162 podem ser configurados para modelar pelo menos a porção estendida, isto é, porções de frequência acima da frequência de corte fc. A modelagem do invólucro, isto é, a realização de uma modelagem de invólucro espectral, pode ser usada com frequência, os espectros de magnitude não são planos, os mesmos tendem a cair em magnitude em direção a frequências superiores, como ilustrado na Figura 17a. A Figura 17b visualiza o espectro de magnitude quando a cópia é realizada sem adaptações adicionais. Transições abruptas no espectro de magnitude podem aparecer nas frequências fc, fc+w,..., fc+kw. Isso pode levar a uma percepção sonora agudamente brilhante que deve ser evitada pelos modeladores de invólucro 1161 e 1162.
[00162] Para evitar tais efeitos, a inclinação espectral T, como mostrado na Figura 17b, pode ser estimada calculando-se a inclinação | X| que foi ajustada por meio de regressão linear ao espectro logarítmico da correção de fonte que compreende o intervalo de frequência [fcw, fc]. Cada correção w pode ser atenuada por um valor kT, ou seja, quanto mais alto a correção for copiada na faixa de frequência, maior será a atenuação, kpode ser um número natural e pode ser a chamada ordem de correção, que começa em 1 e é aumentada para cada correção adicional que é deslocada e, portanto, pode corresponder a n mencionado anteriormente.
[00163] Em outras palavras, a Figura 17b mostra uma cópia de coeficientes espectrais sem modelagem de invólucro. A fonte para a cópia é do intervalo [fcw, fc], em que w é a largura da correção. Durante a modelagem analógica, a magnitude das correções de destino copiadas no intervalo [fc fc+2w] é atenuada por um múltiplo de T, que representa a inclinação espectral.
[00164] A Figura 17c mostra um espectro de magnitude exemplificativo 132a que pode ser obtido do modelador de invólucro 1161 que é configurado para
Petição 870190124366, de 27/11/2019, pág. 69/117
66/82 modelar pelo menos as porções estendidas 126i. Com base na interpolação, as magnitudes das porções copiadas 128i e 1282 podem ser modeladas ou atenuadas de modo a obter um espectro homogêneo. A Figura 17c mostra o espectro de magnitude da modelagem de invólucro com a ordem de correção 2, em que a ordem de correção pode compreender qualquer valor de 1 ou superior. Cada um dos extensores de largura de banda 49i e 492 pode compreender um clareador para equalizar pelo menos a primeira porção estendida, e a segunda porção estendida, respectivamente. O clareamento espectral pode ser feito aumentando-se valores espectrais e diminuindo-se picos espectrais.
[00165] Para uma melhor compreensão, a Figura 18 mostra um diagrama de blocos esquemático de um clareador espectral que é configurado para clarear o sinal de áudio 91 independentemente. O clareador pode compreender o calculador de espectro 44, de modo a obter um espectro do sinal de áudio. O clareador 134 pode ser configurado para comparar a magnitude X[k,m] de cada coeficiente espectral e intervalo de tempo a uma versão suavizada Y[k,m], em que k é o índice do coeficiente espectral e m o índice de quadro. Y[k,m] pode ser derivado suavizando-se magnitudes espectrais logarítmicas sobre a frequência. Posteriormente, esses valores logarítmicos podem ser transformados no domínio linear com o uso de uma regra de determinação de acordo com
Y!
Y = 105F [00166] Os pesos espectrais com valor real G[k,m] podem ser computados conforme descrito pela regra de determinação:
Figure BR112019020523A2_D0003
[00167] Novamente, o índice k e m são omitidos para uma melhor legibilidade, ai, 02, pi, p2, yi, Y2 são os parâmetros ajustáveis, que podem ser adaptados a cada um dos clareadores de 1181 e 1182 independentemente. O clareador pode compreender um calculador 126 para calcular valores absolutos do espectro.
Petição 870190124366, de 27/11/2019, pág. 70/117
67/82
Esses valores podem ser denominados como X, em que os valores são aqueles fornecidos a um calculador 138 para calcular quaisquer pesos espectrais G e são aqueles fornecidos para um percurso de suavização 142, de modo a obter a versão suavizada Y. Um conversor de frequência 144 pode ser configurado para transformar o resultado para um domínio de tempo. Quando em referência agora à Figura 16, pode ser visto que o clareador 1181 e 1182 já pode operar no domínio de frequência, de modo que o respectivo clareador possa ser implantado sem o calculador de espectro 44 e/ou o conversor de frequência 144 ou similares.
[00168] Cada um dos extensores de largura de banda 94i e 942 pode compreender um respectivo filtro antiaspereza 122i, 1222, respectivamente, para deslocar de fase pelo menos uma porção da primeira porção estendida, da segunda porção estendida, respectivamente. Isso pode ser executado como deslocamento de fase das porções copiadas 128i e 1282 e/ou das versões modeladas 128Ί, 128'2 e/ou das versões clareadas 146ae 146b, respectivamente. Ou seja, o filtro antiaspereza é configurado para deslocar de fase a respectiva porção estendida ou sinalizar o direito do mesmo de modo a obter um sinal de fase deslocada. O filtro antiaspereza 122i e 1222 pode ser configurado para aplicar deslocamentos de fase diferentes ao respectivo sinal a ser filtrado. Utilizando-se o deslocamento de fase, um deslocamento de fase da porção copiada ou da porção estendida pode ser obtido em relação ao sinal original. Alternativamente, o filtro antiaspereza pode executar um deslocamento de fase para o sinal completo fornecido. Isso pode ser implantado, por exemplo, quando a respectiva porção de núcleo é substituída posteriormente por uma porção sem deslocamento de fase, como será descrito a seguir. O filtro antiaspereza 122i e 1222 pode ser implantado de modo a filtrar um sinal respectivo no domínio de tempo. Portanto, blocos ISTFT 124i, 1242 podem ser dispostos de modo a fornecer um sinal respectivo no domínio de tempo. Alternativamente, 0 filtro antiaspereza 122 1 e 1222 pode ser implantado de modo a filtrar no domínio de frequência. Nesse caso, os blocos ISTFT 1241 e 1242 podem estar ausentes ou
Petição 870190124366, de 27/11/2019, pág. 71/117
68/82 podem ser dispostos após os filtros antiaspereza 122i, 1222, respectivamente. A filtragem antiaspereza pode ser realizada para diminuir a aspereza percebida, que é evocada principalmente pela cópia. Um filtro que não afeta o timbre do sinal, mas muda principalmente a fase do sinal, pode ser adequado aqui. Por exemplo, dois filtros passa-tudo aninhados podem ser organizados em paralelo e podem ser calculados no domínio de tempo. Os filtros passa-tudo aninhados podem ser entendidos como Hi(z) e H2(z) que denotam funções de transferência passa-tudo com ganho de unidade de um filtro respectivo, então Hi(H2(z)) e H2(Hi(z)) são filtros passa-tudo.
[00169] Opcionalmente, cada um dos extensores de largura de banda 94i e 942 pode compreender um amplificador/atenuador 148i, 1482, respectivamente, para aplicar um ganho gt, gs respectivamente, para amplificar as porções sustentadas ou transitórias. Um resultado pode ser as porções estendidas 98a e 98b fornecidas para o combinador 102. Como explicado acima, as porções estendidas 98a e 98b podem ser obtidas de maneira diferente e/ou executando-se apenas algumas das modificações de sinal explicadas.
[00170] Em conexão com o filtro de aspereza, o aparelho 160 pode compreender um filtro passa-alta 152 para filtrar a primeira porção estendida e a segunda porção estendida 98a e 98b, o sinal combinado 102, respectiva e sinonimamente, de modo a obter um sinal filtrado 154. Em paralelo aos extensores de largura de banda 94i e 942, o sinal de áudio 91 pode ser submetido a um atraso 156 para compensar atrasos de tempo provocados pela conversão de tempo para frequência no bloco 44 e conversão de frequência para tempo nos blocos 1241 e 1242.0 aparelho 160 pode compreender um filtro passa-baixa 158 configurado para filtrar o sinal de áudio atrasado. O aparelho 160 pode compreender adicionalmente um combinador 162 configurado para combinar o sinal de áudio filtrado em passa-baixa e o sinal 154. De acordo com uma modalidade, o aparelho 160 é configurado para coincidir a frequência superior (frequência de corte Xc) do filtro passa-baixa 158 com uma frequência de borda inferior do filtro passa-alta
Petição 870190124366, de 27/11/2019, pág. 72/117
69/82
152, de modo a obter um sinal homogêneo combinado. Em particular, o aparelho 160 pode ser configurado para adaptar a respectiva frequência inferior do filtro passa-alta 152 juntamente com a frequência da borda superior (frequência de corte) do filtro passa-baixa 158 responsivo e de acordo com a frequência corte determinada do sinal de áudio 91. Assim, com base no filtro passa-alta 152, porções de sinal abaixo da frequência de corte fc podem ser descartadas ou atenuadas fortemente, de modo que apenas as porções estendidas e de fase deslocada permaneçam. Em contraste com isso, o filtro passa-baixa 158 pode ser usado para dispensar, descartar ou atenuar fortemente partes do sinal de áudio 91, em que porções do mesmo se estendem respectivamente além da frequência de corte fc. Isso permite que as versões estendidas e copiadas sejam deslocadas de fase em relação ao sinal de áudio original 91, sendo atrasadas apenas para compensar outros atrasos nos extensores de largura de banda, exceto os filtros antiaspereza 122i e 1222. Um sinal de áudio obtido 164 pode ser um sinal de áudio estendido e otimizado.
[00171] Devido à filtragem antiaspereza ter que ser aplicada apenas às áreas estendidas de largura de banda do espectro, o sinal resultante pode ser filtrado em passa-alta e adicionado ao sinal de entrada filtrado em passa-baixa e atrasado. O atraso é usado ou necessário para compensar o atraso introduzido pelo STFT. As frequências de corte dos filtros passa-alta e passa-baixa mencionadas acima podem corresponder à frequência de corte /ecomo mostrado, por exemplo, na Figura 17a.
[00172] Em relação à Figura 19 em conexão com a Figura 16, é mostrada uma funcionalidade dos blocos opcionais 166 que é um analisador de sinal e 168 que é uma tabela de pesquisa do aparelho 160. O aparelho 160 pode ser uma extensão de largura de banda cega. Pode ser um objetivo de restaurar a largura de banda perdida conforme descrito e sem ter conhecimento adicional, por exemplo, com base em informações secundárias. O analisador de sinal 166 pode ser configurado para detectar, se o sinal foi limitado em banda artificialmente ou
Petição 870190124366, de 27/11/2019, pág. 73/117
70/82 não e/ou pode estimar uma frequência de corte fcdo sinal de áudio 91. Ambas as etapas podem ser executadas conforme descrito em conexão com a análise de limitação de largura de banda artificial. Ambos os valores podem ser atualizados para cada quadro. Assim, o sinal de áudio 91 pode compreender uma pluralidade de quadros. O aparelho 160 pode compreender o analisador de sinal 166 configurado para analisar para cada quadro, o espectro do sinal de áudio 91 para uma característica relacionada a uma limitação de largura de banda artificial do sinal de áudio 91 e para determinar uma frequência de corte fcno sinal de áudio 91.
[00173] Com base em frequências de corte diferentes que são denominadas esquematicamente como fo, fi, f2, fs, Í4, respectivamente na Figura 19, parâmetros diferentes que estão sendo usados para adaptar uma funcionalidade do duplicador 114, do modelador 116, do clareador 118 e/ou do filtro antiaspereza 122 podem variar. Por exemplo, um parâmetro p pode ser usado para adaptar o respectivo bloco. Como ilustrado na Figura 19, frequências de corte diferentes podem ser associadas a parâmetros diferentes ou valores diferentes do mesmo parâmetro. Esses valores podem ser armazenados em uma tabela de pesquisa 168 para fornecer o respectivo parâmetro ao respectivo bloco. Na Figura 16, as conexões tracejadas indicam que um módulo é controlado, por exemplo, em tempo real. Um exemplo de parâmetro pode ser Mas aqui é um exemplo: um parâmetro pode ser a largura de banda da correção de fonte w. Este parâmetro pode afetar a largura de banda que é criada artificialmente. Outro parâmetro exemplificativo pode ser uma constante de tempo de um filtro de suavização que pode ser diferente para codecs diferentes. Uma pluralidade de outros exemplos pode ser usada para controlar os blocos 114, 116, 118 e/ou 122 no domínio de frequência e/ou no domínio de tempo.
[00174] A tabela de pesquisa pode conter ajustes para alguns ou todos os parâmetros de controle, dependendo dos resultados da análise de sinal. No caso de estimativa da frequência de corte fc, para cada frequência selecionada A um
Petição 870190124366, de 27/11/2019, pág. 74/117
71/82 ajuste perceptive do parâmetro correspondente pode ser executado, o que pode levar a um valor de controle p,. Note-se que um valor selecionado p, pode ser diferente para os extensores de largura de banda diferentes, ou seja, o aparelho 160 pode ser configurado para adaptar o respectivo bloco de modo diferente. Os pontos de amostragem na tabela de pesquisa s/ para um extensor de largura de banda 94i ou 942 pode ser dado, por exemplo, como tuplas de acordo com g =(Λ Pi) [00175] Na Figura 19, é mostrado um exemplo para o ajuste de um parâmetro de controle p para cinco frequências de corte fo, a f+ De acordo com alguns exemplos, um parâmetro pode ser interpolado quando valores intermediários são apropriados. Nesse caso, entre dois pontos de amostragem no intervalo [fi, fs+i], a interpolação linear pode ser executada de acordo com:
/ v _..4. » í-f r >
í SJ J.'. '5' _í—Γ '3 ? ·· ΛΥΛ s i ζ k· .WASSV.V.'AWrtWASSSW.
-·» v ® p p [00176] Um exemplo para tais valores de interpolação pode ser, por exemplo, uma largura wde uma correção respectiva, conforme explicado em conexão com as Figuras 17a a 17c. Os parâmetros que podem permanecer não submetidos à interpolação podem ser, por exemplo, um número de correções que é limitado, por exemplo, a valores inteiros.
[00177] O aparelho pode ser configurado para usar o primeiro e o segundo parâmetros para um quadro que tem a característica relacionada a uma limitação de largura de banda artificial. Para outros quadros, o aparelho pode ser configurado para usar terceiros parâmetros para o primeiro extensor de largura de banda e quartos parâmetros para o segundo extensor de largura de banda, por exemplo, para quadros que têm uma característica diferente da característica relacionada a uma limitação de largura de banda artificial. Alternativamente, o aparelho pode ser configurado para desativar o primeiro e o segundo extensores de largura de banda para os quadros que têm uma característica diferente da característica relacionada a uma limitação de largura de banda artificial. Assim, o
Petição 870190124366, de 27/11/2019, pág. 75/117
72/82 aparelho pode ser configurado para executar extensão de largura de banda para quadros que são considerados como compreendendo a respectiva característica e pode tratar quadros que são considerados como não compreendendo a característica, de maneira diferente, com o uso do terceiro e quarto parâmetros ou deixar o respectivo quadro não tratado.
[00178] O aparelho pode, desse modo, compreender uma tabela de pesquisa 168 que compreende uma pluralidade de parâmetros associados a uma pluralidade correspondente de parâmetros de modificação de sinal, tais como a frequência de corte fce uma pluralidade de outros parâmetros associados a uma pluralidade correspondente de parâmetros de modificação de sinal fcusados para o primeiro e o segundo extensores de largura de banda 94i, 942 respectivamente. O aparelho pode compreender um analisador de sinal 166 para analisar o espectro para uma modificação aplicada ao sinal de áudio 91. O aparelho 160 pode ser configurado para derivar um parâmetro de modificação associado à modificação, por exemplo, a frequência de corte /ce/ou um parâmetro relacionado à inclinação abrupta da inclinação. O aparelho pode ser configurado para derivar o respectivo primeiro e/ou segundo parâmetro com o uso da tabela de pesquisa e com o uso do parâmetro de modificação. De acordo com um exemplo, o aparelho pode derivar a frequência de corte do parâmetro de modificação e pode determinar o parâmetro p uma vez para o primeiro extensor de largura de banda e uma vez para o segundo extensor de largura de banda.
[00179] Em conceitos conhecidos, a extensão de largura de banda artificial é uma técnica bem conhecida de codificação de áudio. Além disso, a extensão de largura de banda não guiada é bem conhecida. No entanto, a decomposição semântica antes do cálculo da extensão de largura de banda é desconhecida. Descorrelação semântica pode ser usada para o propósito de mistura ascendente espacial, não contendo uma funcionalidade de cópia ou transposição como encontrada inevitavelmente em aplicativos de extensão de largura de banda. Portanto, as modalidades de acordo com o terceiro aspecto diferem. Outra técnica
Petição 870190124366, de 27/11/2019, pág. 76/117
73/82 é conhecida a partir de uma extensão de largura de banda descorrelacionada. Aqui, todas as regiões espectrais alvo de banda alta são descorrelacionadas através de descorrelacionadores dedicados ou através de inserção de ocorrências descorrelacionadas de ruído aleatório para serem mutuamente independentes. As presentes modalidades de acordo com o terceiro aspecto ensinam a descorrelação mútua de partes de sinal decompostas semanticamente, enquanto os conceitos conhecidos compreendem apenas a descorrelação de regiões alvo espectrais diferentes.
[00180] A Figura 20 mostra um fluxograma esquemático de um método 3000 de acordo com uma modalidade do terceiro aspecto. O método 3000 compreende uma etapa 3100 que compreende a separação de uma primeira porção de um espectro do sinal de áudio de uma segunda porção do espectro do sinal de áudio, sendo que a primeira porção tem uma primeira característica de sinal e a segunda porção tem uma segunda característica de sinal. Uma etapa 3200 compreende estender uma largura de banda da primeira porção com o uso dos primeiros parâmetros associados à primeira característica de sinal para obter uma primeira porção estendida. Uma etapa 3300 compreende estender uma largura de banda da segunda porção com o uso dos segundos parâmetros associados à segunda característica de sinal, para obter uma segunda porção estendida. Uma etapa 3400 compreende usar a primeira porção estendida e a segunda porção estendida para obter um sinal de áudio combinado estendido.
[00181] De acordo com o quarto aspecto, a supressão antiaspereza pode ser realizada como um pós-processamento, por exemplo, após a execução da extensão de largura de banda, com um conceito diferente. Assim, a supressão antiaspereza ou a filtragem antiaspereza podem ser usadas para reduzir artefatos, por exemplo, em conexão com o aprimorador de sinal 48 ao determinar que a limitação de largura de banda artificial foi executada e que a respectiva extensão também foi executada.
[00182] A Figura 21 mostra um diagrama esquemático de um aparelho 210, de
Petição 870190124366, de 27/11/2019, pág. 77/117
74/82 acordo com uma modalidade do quarto aspecto. O aparelho 210 pode ser usado, por exemplo, para processar o sinal de áudio 12 que é submetido a uma extensão de largura de banda artificial. O aparelho 210 pode compreender o filtro antiaspereza 122 para deslocar de fase pelo menos uma porção do sinal de áudio 12, de modo a obter um sinal de fase deslocada 172. O filtro antiaspereza 122 pode operar, por exemplo, no domínio de tempo ou, alternativamente, no domínio de frequência. De acordo com uma modalidade, o filtro antiaspereza 122 pode ser configurado para deslocar de fase o sinal de áudio completo 12. O aparelho 210 compreende um filtro passa-alta, por exemplo, o filtro passa-alta 152 para filtrar o sinal de fase deslocada 173, de modo a obter um primeiro sinal filtrado 174. O aparelho 210 compreende um filtro passa-baixa, como o filtro passa-baixa 158, para filtrar o sinal de áudio 12, de modo a obter um segundo sinal filtrado 176. O aparelho 210 compreende adicionalmente um combinador 162 para combinar os sinais 154 e 156, de modo a obter um sinal de áudio aprimorado 178, no qual a aspereza percebida é reduzida. Como foi descrito em conexão com o aparelho 160, a largura de banda estendida é deslocada de fase em relação ao sinal de áudio 12. Um aspecto é filtrar o sinal de áudio 12, com o uso do filtro passa-baixa 158, a fim de descartar qualquer parte do sinal que esteja acima da frequência de filtro selecionada, a frequência de corte fc respectivamente. Isso permite reduzir ou limitar efeitos ou sobreposição de porções de sinal diferentes no sinal combinado 178.
[00183] A Figura 22 mostra um diagrama de blocos esquemático de um aparelho 220 de acordo com uma modalidade do quarto aspecto. Como descrito em conexão com a Figura 16, o aparelho 220 pode compreender o separador 92 para fornecer a primeira e a segunda porções 12'a e 12'b do sinal de áudio 12 no domínio de frequência. O aparelho 220 pode compreender percursos diferentes, sendo que cada percurso compreende, a título de exemplo não limitante, um clareador 118i, 1182, respectivamente, juntamente com um filtro antiaspereza 122i, 1222, respectivamente, que operam apenas a título de exemplo não
Petição 870190124366, de 27/11/2019, pág. 78/117
75/82 limitante, no domínio de tempo. Alternativa ou adicionalmente, cada percurso pode compreender um amplificador/atenuador 148. Assim, o aparelho 220 pode ser configurado para aprimorar o sinal de áudio 12 aprimorando-se as diferentes porções 12'a e 12'b independentemente uma da outra. Para tal finalidade, o aparelho 220 pode compreender o analisador de sinal 166 e a tabela de pesquisa 168, conforme descrito em conexão com a Figura 16.
[00184] Em particular, o aparelho 220 pode compreender o analisador de sinal 166 configurado para determinar uma frequência de início da extensão da largura de banda no sinal de áudio 12, a frequência de início da extensão da largura de banda disposta entre uma largura de banda estendida, por exemplo, as correções adicionadas wde acordo com as Figuras 70a a c ou versões processadas das mesmas, do sinal de áudio 12 e uma largura de banda principal, isto é, a largura de banda original, tal como a largura de banda do sinal de áudio 91.
[00185] Em conexão com o presente, o aparelho pode ser configurado para adaptar uma frequência inferior do filtro passa-alta 152 e/ou uma frequência superior do filtro passa-baixa 158 de acordo com uma frequência de início da extensão de largura de banda no sinal de áudio 12. A frequência de início da extensão de largura de banda pode ser recebida por um canal adicional ou pode ser determinada pelo analisador de sinal 166.
[00186] De acordo com uma modalidade que pode ser combinada com a modalidade independente do aparelho 210 e com cada uma das outras modalidades do quarto aspecto, o aparelho pode ser configurado para adaptar o filtro de aspereza e/ou um aprimorador de sinal, por exemplo, que compreende o clareador 118, um modelador de invólucro ou semelhante para melhorar o sinal de áudio 12, com o uso de uma frequência de início de extensão de largura de banda no sinal de áudio. Por exemplo, com base na frequência de início da extensão de largura de banda no sinal de áudio 12, a tabela de pesquisa pode fornecer quatro parâmetros diferentes para cada um dos blocos a serem ajustados, como o clareador 118 e/ou o filtro antiaspereza 122 e/ou blocos
Petição 870190124366, de 27/11/2019, pág. 79/117
76/82 adicionais.
[00187] De acordo com uma modalidade que pode ser combinada com cada uma das outras modalidades de acordo com o quarto aspecto, o filtro antiaspereza 122 pode ser disposto em um primeiro percurso e em que o filtro passa-baixa 158 pode ser disposto em um segundo percurso. O segundo percurso pode compreender o clareador 118 para equalizar um sinal com base em um sinal fornecido ou recebido do filtro antiaspereza, isto é, uma ordem ou sequência do clareador e do filtro antiaspereza pode ser alterada.
[00188] De acordo com uma modalidade adicional do quarto aspecto, que pode ser combinada com cada uma das outras modalidades, o filtro antiaspereza 122 pode ser disposto em um primeiro percurso e o filtro passa-baixa 158 pode ser disposto em um segundo percurso. O aparelho 220 pode compreender um aprimorador de sinal configurado para aprimorar o sinal de áudio no primeiro percurso e pelo menos parcialmente no domínio de frequência, por exemplo, com o uso do clareador 118 e/ou o modelador 116. O segundo percurso pode compreender um bloco de atraso, como o atraso 156 para atrasar o sinal de áudio 12 por um atraso correspondente a um atraso no primeiro percurso provocado por uma conversão de tempo para frequência e uma conversão de frequência para tempo dentro de uma faixa de tolerância de no máximo ± 10%, ± 5% ou ± 2% e provavelmente excluir o atraso de filtro antiaspereza.
[00189] De acordo com uma modalidade adicional, que pode ser combinada com cada uma das outras modalidades de acordo com o quarto aspecto, o filtro antiaspereza 122 é um primeiro filtro antiaspereza. O aparelho compreende um separador para receber um espectro do sinal de áudio 12 e para separar uma primeira porção 12'a do espectro 12’ do sinal de áudio 12 de uma segunda porção 12'b do espectro do sinal de áudio 12. A primeira porção 12'a tem uma primeira característica de sinal e a segunda porção 12'b tem uma segunda característica de sinal. O aparelho 220 pode ser configurado para fornecer a primeira porção 12'a para um primeiro percurso que tem o primeiro filtro antiaspereza 122i e para
Petição 870190124366, de 27/11/2019, pág. 80/117
77/82 fornecer a segunda porção 12'b para um terceiro percurso com o segundo filtro antiaspereza 1222.
[00190] De acordo com uma modalidade adicional que pode ser combinada com a modalidade mencionada anteriormente, o aparelho pode ser configurado para aplicar um primeiro ganho gt ao primeiro percurso e um segundo ganho gs ao terceiro percurso.
[00191] De acordo com uma outra modalidade do quarto aspecto que pode ser combinada com a modalidade anterior e a penúltima, o aparelho pode ser configurado para ajustar o primeiro filtro antiaspereza 122i e o segundo filtro antiaspereza 1222 de maneiras diferentes entre si com o uso de uma frequência de início da extensão da largura de banda do sinal de áudio 12.
[00192] De acordo com uma modalidade adicional do quarto aspecto que pode ser combinada com as três últimas modalidades do quarto aspecto, o separador compreende um supressor transitório, tal como o supressor transitório 108 configurado para receber o sinal de áudio 12 e para reduzir porções transitórias no sinal de áudio 12, de modo a obter um primeiro sinal de áudio modificado. O separador 92 é configurado para obter a primeira porção 12'a com base no primeiro sinal de áudio modificado, por exemplo, com o uso do primeiro sinal de áudio modificado como a primeira porção 12'a. O separador 92 compreende adicionalmente o subtrator 112 para subtrair o primeiro sinal de áudio modificado do sinal de áudio 12, de modo a obter um segundo sinal modificado. O separador 92 é configurado para obter a segunda porção com base no segundo sinal de áudio modificado, por exemplo, tomando-se o segundo sinal de áudio modificado como a segunda porção 12'b.
[00193] De acordo com uma modalidade adicional do quarto aspecto, que pode ser combinada com as últimas quatro modalidades, a primeira característica de sinal é uma dentre a) uma faixa de frequência média do espectro; b) um sinal direto característico do sinal de áudio; c) uma característica tonal do sinal de áudio e d) uma característica de fala do sinal de áudio. A segunda característica de sinal
Petição 870190124366, de 27/11/2019, pág. 81/117
78/82 está de acordo com as letras usadas: a) uma faixa de frequência lateral do espectro; b) um sinal ambiental característico do sinal de áudio; c) um sinal sustentado característico do sinal de áudio e d) uma característica não de fala do sinal de áudio.
[00194] De acordo com uma modalidade adicional do quarto aspecto, que pode ser combinada com cada uma das outras modalidades do quarto aspecto, o sinal de áudio aprimorado 164 compreende o segundo sinal filtrado que é deslocado de fase quando comparado ao primeiro sinal filtrado, ou seja, a região de frequência superior é deslocada de fase quando comparada à região de frequência inferior.
[00195] A Figura 23 mostra um fluxograma esquemático de um método 4000 para processar um sinal de áudio. O método 4000 compreende uma etapa 4100 que compreende deslocar de fase pelo menos uma porção do sinal de áudio, de modo a obter um sinal de fase deslocada. Uma etapa 4200 compreende filtrar o sinal deslocado de fase com o uso de um filtro passa-alta, de modo a obter um primeiro sinal filtrado. Uma etapa 4300 compreende filtrar o sinal de áudio com o uso de um filtro passa-baixa, de modo a obter um segundo sinal filtrado. Uma etapa 4400 compreende combinar o primeiro sinal filtrado e o segundo sinal filtrado, de modo a obter um sinal de áudio aprimorado. Em outras palavras, a supressão da aspereza da extensão de largura de banda artificial (ARS) visa reduzir artefatos tais como o artefato de pico tonal e o artefato pulsante, conforme descrito anteriormente. Como ilustrado na Figura 22, alguns dos métodos ou blocos de ARS também são usados pelo conceito BWE, que já foi descrito anteriormente. Também deve ser observado que esses métodos ou conceitos comuns podem ser usados com ajustes de parâmetros diferentes. Nas seções a seguir, serão descritas diferenças entre o aparelho 160 e o aparelho 220.
[00196] O analisador de sinal é usado para ativar o ARS na Figura 22, por um lado, para detectar se o sinal foi estendido em largura de banda artificialmente ou não. Por outro lado, uma estimativa em tempo real da frequência de início
Petição 870190124366, de 27/11/2019, pág. 82/117
79/82 (frequência de corte) da extensão de largura de banda artificial pode ser realizada, a qual foi aplicada ao presente sinal. A descrição do sinal analisa se um conceito pode ser realizado de acordo com os outros aspectos descritos no presente documento. Os resultados do analisador de sinal são encaminhados para a tabela de pesquisa 168 para obter uma saída da mesma que tenha incluídos parâmetros de controle que afetam os módulos mostrados na Figura 22. A tabela de pesquisa 168 pode compreender ajustes de parâmetros que foram ajustados perceptivamente para diversas frequências de início.
[00197] A tabela de pesquisa para ARS pode ser com base no mesmo princípio da tabela de pesquisa de BWE descrita em conexão com a Figura 16, com a diferença de que a variável dependente pode ser a estimativa da frequência de início da BWE. Além disso, os parâmetros que são controlados podem diferir.
[00198] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, fica claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa de método ou a um recurso de uma etapa de método. De modo análogo, os aspectos descritos no contexto de uma etapa de método também representam uma descrição de um bloco ou item ou recurso correspondente de um aparelho correspondente.
[00199] O sinal áudio codificado inventivo pode ser armazenado em uma mídia de armazenamento digital ou pode ser transmitido em uma mídia de transmissão, tal como uma mídia de transmissão sem fio ou uma mídia de transmissão com fio, tal como a Internet.
[00200] Dependendo de determinadas exigências de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software. A implantação pode ser realizada com o uso de uma mídia de armazenamento digital, por exemplo, um disco flexível, um DVD, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH, que tenha sinais de controle legíveis eletronicamente armazenados na mesma, que cooperam (ou têm
Petição 870190124366, de 27/11/2019, pág. 83/117
80/82 capacidade de cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado.
[00201] Algumas modalidades, de acordo com a invenção, compreendem uma portadora de dados que tem sinais de controle legíveis eletronicamente que têm capacidade para cooperar com um sistema de computador programável, de modo que um dos métodos descritos no presente documento seja realizado.
[00202] Em geral, modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, sendo que o código de programa é operacional para realizar um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.
[00203] Outras modalidades compreendem o programa de computador para realizar um dentre os métodos descritos no presente documento, armazenado em uma portadora legível por máquina.
[00204] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para realizar um dentre os métodos descritos no presente documento, quando o programa de computador for executado em um computador.
[00205] Uma modalidade adicional dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) que compreende, gravado na mesma, o programa de computador para realizar um dentre os métodos descritos no presente documento. [00206] Uma modalidade adicional do método inventivo é, portanto, um fluxo contínuo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos no presente documento. O fluxo contínuo de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.
Petição 870190124366, de 27/11/2019, pág. 84/117
81/82 [00207] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos no presente documento. [00208] Uma modalidade adicional compreende um computador que tem instalado no mesmo o programa de computador para realizar um dos métodos descritos no presente documento.
[00209] Em algumas modalidades, um dispositivo lógico programável (por exemplo, uma matriz de portas programáveis no campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, uma matriz de portas programáveis no campo pode cooperar com um microprocessador a fim de realizar um dos métodos descritos no presente documento. De modo geral, os métodos são realizados, preferencialmente, por qualquer aparelho de hardware.
[00210] As modalidades descritas acima são apenas ilustrativas para os princípios da presente invenção. Fica entendido que as modificações e variações das disposições e os detalhes descritos no presente documento serão evidentes para outras pessoas versadas na técnica. Portanto, pretende-se que sejam limitadas somente pelo escopo das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento.
REFERÊNCIAS [1] M. Arora, J. Lee e S. Park, High quality blind bandwidth extension of audio for portable player applications, em Proc, da AES 120a Conv., 2006.
[2] Markus Erne, “Perceptual audio coders ’’what to listen for?””, em Audio Engineering Society Convention 111, novembro de 2001.
[3] Chia-Ming Chang, Han-Wen Hsu, Kan-Chun Lee, Wen-Chieh Lee, Chi-Min Liu, Shou-Hung Tang, Chung-Han Yang e Yung-Cheng Yang, “Compression artifacts in perceptual audio coding”, em Audio Engineering Society Convention 121, outubro de 2006.
Petição 870190124366, de 27/11/2019, pág. 85/117
82/82 [4] Martin Dietz, Lars Liljeryd, Kristofer Kjõrling e Oliver Kunz, Spectral band replication, a novel approach in audio coding, em Audio Engineering Society Convention 112, abril de 2002.
[5] Sascha Disch, Andreas Niedermeier, Christian R. Helmrich, Christian Neukam, Konstantin Schmidt, Ralf Geiger, Jeremie Lecomte, Florin Ghido, Frederik Nagel e Bernd Edler, “Intelligent gap filling in perceptual transform coding of audio”, em Audio Engineering Society Convention 141, setembro de 2016.

Claims (21)

  1. REIVINDICAÇÕES
    1. Aparelho para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio (12), sendo que o aparelho é caracterizado por compreender:
    um derivador (14) configurado para obter um espectro (12') do sinal de áudio (12) e para derivar informações (Z (k)) relacionadas a uma estrutura fina do espectro do espectro (12');
    um determinador (24) configurado para determinar uma similaridade na estrutura fina;
    um processador (32) para fornecer informações (34) que indicam que o sinal de áudio (12) compreende a característica predeterminada dependendo de uma avaliação da similaridade.
  2. 2. Aparelho, de acordo com a reivindicação 1, caracterizado por a estrutura fina do espectro se referir a máximos e/ou mínimos locais do espectro.
  3. 3. Aparelho, de acordo com a reivindicação 1 ou 2, caracterizado por o derivador ser configurado para derivar um sinal máximo local (Z (k)) do espectro (12') de modo a derivar as informações relacionadas à estrutura fina, em que o determinador é configurado para determinar a similaridade entre segmentos do sinal máximo local (Z (k)).
  4. 4. Aparelho, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por compreender adicionalmente um calculador de espectro (44) configurado para receber o sinal de áudio (12) e calcular o espectro (12') a partir do sinal de áudio (12).
  5. 5. Aparelho, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado por o determinador (24) ser configurado para determinar a similaridade com o uso de um primeiro segmento e com o uso de um segundo segmento das informações relacionadas à estrutura fina, em que o primeiro e o segundo segmento são deslocados por um número (t) de amostras do espectro (12’).
    Petição 870190097700, de 30/09/2019, pág. 283/288
    2/5
  6. 6. Aparelho, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por o determinador (24) ser configurado para determinar a similaridade, para determinar um valor de similaridade (C (t)) entre um primeiro segmento e um segundo segmento das informações relacionadas à estrutura fina, em que o primeiro e o segundo segmento são deslocados um em relação ao outro por um parâmetro que se refere a um número (t) de amostras;
    em que o determinador (24) é configurado para determinar o valor de similaridade para uma pluralidade de valores do parâmetro; e em que o determinador é configurado para selecionar pelo menos um máximo local (26i, mi) dos valores de similaridade ou valores (C (t)) derivados do mesmo.
  7. 7. Aparelho, de acordo com a reivindicação 6, caracterizado por o determinador (24) compreender um filtro configurado para filtrar os valores de similaridade (C (t)), de modo a obter valores de similaridade filtrados (H (C (t)), em que o determinador é configurado para selecionar pelo menos um máximo local (mi) dos valores de similaridade filtrados (H (C (t)).
  8. 8. Aparelho, de acordo com a reivindicação 6 ou 7, caracterizado por o determinador ser configurado para determinar os valores de similaridade (C (t)) com base em uma regra de determinação que é representada como:
    C(t) = |Z(i) — Zffc 4em que C (t) é o valor de similaridade para o parâmetro t, k é uma amostra no espectro que varia de ko a ki e com um comprimento de 1+1 amostras, em que Z(k) é a função máxima local de amostra k.
  9. 9. Aparelho, de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por o processador (32) ser configurado para avaliar um número de máximos locais (26i, mi) de valores de similaridade (C (t)) relacionados às
    Petição 870190097700, de 30/09/2019, pág. 284/288
    3/5 informações relacionadas à estrutura fina ou valores derivados dos mesmos (H (C (τ)) e para avaliar uma amplitude dos máximos locais (26i, mi) e fornecer as informações (34) que indicam que o sinal de áudio (12) compreende a característica predeterminada quando o número dos máximos (26i, mi) que compreende pelo menos um valor limiar de amplitude (27) está abaixo de um valor limiar numérico.
  10. 10. Aparelho, de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por o processador (32) ser configurado para excluir harmônicos do sinal de áudio (12) da avaliação da similaridade.
  11. 11. Aparelho, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado por o aparelho ser configurado para realizar uma ponderação temporal do espectro (12') das informações relacionadas à estrutura fina ou a um sinal derivado da mesma (C (τ), H (C (t)) em que o processador (32) é configurado para fornecer as informações (34) que indicam que o sinal de áudio (12) compreende a característica predeterminada com base em informações temporais ponderadas.
  12. 12. Aparelho, de acordo com qualquer uma das reivindicações 1 a 11, caracterizado por compreender adicionalmente um estimador de frequência (36) configurado para determinar uma frequência inicial (ks) e/ou uma frequência final (ke) do processamento de aprimoramento espectral.
  13. 13. Aparelho, de acordo com a reivindicação 12, caracterizado por o estimador de frequência (36) ser configurado para usar as informações relacionadas à estrutura fina para determinar uma similaridade de elemento entre um elemento de um primeiro segmento das informações relacionadas à estrutura fina e um elemento correspondente de um segundo segmento das informações relacionadas à estrutura fina, sendo que o segundo segmento é deslocado em relação ao primeiro segmento por um número (τ) de amostras.
  14. 14. Aparelho, de acordo com a reivindicação 12 ou 13, caracterizado por o estimador de frequência ser configurado para determinar uma descrição de similaridade local com o uso da similaridade na estrutura fina, sendo que a descrição
    Petição 870190097700, de 30/09/2019, pág. 285/288
    4/5 de similaridade local indica a frequência inicial (ks) e/ou a frequência final (ke) do processamento de aprimoramento espectral.
  15. 15. Aparelho, de acordo com a reivindicação 14, caracterizado por o estimador de frequência ser configurado para determinar uma matriz de similaridade local (L) como a descrição de similaridade local e para determinar a frequência inicial (ks) e/ou a frequência final (ke) do processamento de aprimoramento espectral com o uso de uma inclinação entre valores em linhas ou colunas e/ou com o uso de uma avaliação de valores nas linhas ou colunas para alcançar pelo menos um valor limiar (27).
  16. 16. Aparelho, de acordo com qualquer uma das reivindicações 13 a 15, caracterizado por o estimador de frequência (36) ser configurado para submeter a similaridade de elementos de uma pluralidade de elementos do primeiro e segundo segmentos a uma ponderação recursive ao longo do tempo de modo a obter uma similaridade de elemento ponderado e para determinar a frequência inicial (ks) e/ou a frequência final (ke) com o uso da similaridade de elemento ponderado.
  17. 17. Aparelho, de acordo com a reivindicação 16, caracterizado por cada amostra do espectro (12') ser associada a um quadro, em que o estimador de frequência é configurado para excluir da ponderação recursive ao longo do tempo quadros que têm uma energia espectral (E) abaixo de um nível limiar de energia.
  18. 18. Aparelho, de acordo com qualquer uma das reivindicações 1 a 17, caracterizado por o processador (32) ser configurado para fornecer informações que compreendem informações que indicam pelo menos um dentre:
    o sinal de áudio (12) foi submetido ao processamento de aprimoramento espectral;
    uma frequência inicial (ks) do processamento de aprimoramento espectral; e/ou uma frequência final (ke) do processamento de aprimoramento espectral.
  19. 19. Aparelho, de acordo com qualquer uma das reivindicações 1 a 18, caracterizado por compreender adicionalmente um intensificador de sinal (48)
    Petição 870190097700, de 30/09/2019, pág. 286/288
    5/5 configurado para reduzir artefatos provocados pelo processamento de aprimoramento espectral do sinal de áudio (12) dependendo das informações (34) que indicam que o sinal de áudio (12) compreende a característica predeterminada.
  20. 20. Método (1000) para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio, sendo que o método é caracterizado por compreender:
    obter (1100) um espectro do sinal de áudio e derivar informações relacionadas a uma estrutura fina do espectro do espectro;
    determinar (1200) uma similaridade na estrutura fina;
    fornecer (1300) informações que indicam que o sinal de áudio compreende a característica predeterminada dependendo de uma avaliação da similaridade.
  21. 21. Mídia de armazenamento não transitória caracterizada por ter armazenado na mesma um programa de computador que tem um código de programa para realizar, quando executado em um computador, um método, como definido na reivindicação 20.
BR112019020523A 2017-03-31 2018-03-29 aparelho e método para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio e mídia de armazenamento não transitória BR112019020523A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17164360 2017-03-31
EP17189988.3A EP3382704A1 (en) 2017-03-31 2017-09-07 Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
PCT/EP2018/025083 WO2018177612A1 (en) 2017-03-31 2018-03-29 Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal

Publications (1)

Publication Number Publication Date
BR112019020523A2 true BR112019020523A2 (pt) 2020-05-05

Family

ID=58632740

Family Applications (3)

Application Number Title Priority Date Filing Date
BR112019020523A BR112019020523A2 (pt) 2017-03-31 2018-03-29 aparelho e método para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio e mídia de armazenamento não transitória
BR112019020578A BR112019020578A2 (pt) 2017-03-31 2018-03-29 aparelho e método para determinar uma característica predeterminada indicando que um sinal de áudio foi submetido a um processamento artificial de limitação de largura de banda e meio de armazenamento não transitório
BR112019020357A BR112019020357A2 (pt) 2017-03-31 2018-03-29 aparelho e método para processar um sinal de áudio e meio de armazenamento não transitório

Family Applications After (2)

Application Number Title Priority Date Filing Date
BR112019020578A BR112019020578A2 (pt) 2017-03-31 2018-03-29 aparelho e método para determinar uma característica predeterminada indicando que um sinal de áudio foi submetido a um processamento artificial de limitação de largura de banda e meio de armazenamento não transitório
BR112019020357A BR112019020357A2 (pt) 2017-03-31 2018-03-29 aparelho e método para processar um sinal de áudio e meio de armazenamento não transitório

Country Status (13)

Country Link
US (3) US20200020347A1 (pt)
EP (6) EP3382703A1 (pt)
JP (4) JP6896881B2 (pt)
KR (3) KR102517285B1 (pt)
CN (3) CN110914902B (pt)
AU (4) AU2018241963B2 (pt)
BR (3) BR112019020523A2 (pt)
CA (3) CA3058353C (pt)
ES (3) ES2923098T3 (pt)
MX (3) MX2019011522A (pt)
PL (3) PL3602553T3 (pt)
RU (3) RU2733533C1 (pt)
WO (3) WO2018177610A1 (pt)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220066886A (ko) * 2019-09-24 2022-05-24 소니그룹주식회사 신호 처리 장치, 신호 처리 방법 및 프로그램
CN112927710B (zh) * 2021-01-21 2021-10-26 安徽南瑞继远电网技术有限公司 一种基于无监督方式的电力变压器工况噪声分离方法
CN113299313B (zh) * 2021-01-28 2024-03-26 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN115512711A (zh) * 2021-06-22 2022-12-23 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质
CN114070679B (zh) * 2021-10-25 2023-05-23 中国电子科技集团公司第二十九研究所 一种面向脉冲智能分类的频相特征分析方法
CN114677340B (zh) * 2022-03-14 2024-05-24 上海第二工业大学 一种基于图像边缘的混凝土表面粗糙度的检测方法

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4230414B2 (ja) * 1997-12-08 2009-02-25 三菱電機株式会社 音信号加工方法及び音信号加工装置
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
JP4679049B2 (ja) * 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
KR100552693B1 (ko) 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
ATE429698T1 (de) * 2004-09-17 2009-05-15 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten tonsignalen
WO2006030865A1 (ja) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号化装置、スケーラブル符号化方法、スケーラブル復号化方法、通信端末装置および基地局装置
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
US8073704B2 (en) * 2006-01-24 2011-12-06 Panasonic Corporation Conversion device
US8798172B2 (en) 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US8725499B2 (en) 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US7881459B2 (en) * 2007-08-15 2011-02-01 Motorola, Inc. Acoustic echo canceller using multi-band nonlinear processing
CN101939782B (zh) * 2007-08-27 2012-12-05 爱立信电话股份有限公司 噪声填充与带宽扩展之间的自适应过渡频率
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8005233B2 (en) * 2007-12-10 2011-08-23 Dts, Inc. Bass enhancement for audio
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
ES2642906T3 (es) * 2008-07-11 2017-11-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio, procedimientos para proporcionar un flujo de audio y programa de ordenador
PL2311033T3 (pl) * 2008-07-11 2012-05-31 Fraunhofer Ges Forschung Dostarczanie sygnału aktywującego dopasowanie czasowe i kodowanie sygnału audio z jego użyciem
KR101182258B1 (ko) * 2008-07-11 2012-09-14 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트럼 기울기 제어 프레이밍을 이용한 대역폭 확장 데이터를 계산하는 장치 및 방법
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
PT2359366T (pt) * 2008-12-15 2017-01-20 Fraunhofer Ges Forschung Codificador de áudio e descodificador de extensão de largura de banda
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
JP5493655B2 (ja) * 2009-09-29 2014-05-14 沖電気工業株式会社 音声帯域拡張装置および音声帯域拡張プログラム
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
AU2016204672B2 (en) 2010-07-02 2016-08-18 Dolby International Ab Audio encoder and decoder with multiple coding modes
AU2011295367B2 (en) * 2010-08-25 2014-07-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for decoding a signal comprising transients using a combining unit and a mixer
EP3182409B1 (en) * 2011-02-03 2018-03-14 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
WO2012110415A1 (en) * 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
EP2681691A4 (en) * 2011-03-03 2015-06-03 Cypher Llc SYSTEM FOR AUTONOMOUS DETECTION AND SEPARATION OF COMMON ELEMENTS IN DATA, AND METHODS AND DEVICES RELATED THERETO
US9311923B2 (en) * 2011-05-19 2016-04-12 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
CN103548077B (zh) * 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
EP2544465A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator
WO2013108343A1 (ja) * 2012-01-20 2013-07-25 パナソニック株式会社 音声復号装置及び音声復号方法
US9685921B2 (en) * 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
EP2704142B1 (en) 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
CA2898637C (en) * 2013-01-29 2020-06-16 Sascha Disch Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
US9601125B2 (en) 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
US10424321B1 (en) * 2013-02-12 2019-09-24 Google Llc Audio data classification
PL3011692T3 (pl) * 2013-06-21 2017-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sterowanie buforem rozsynchronizowania, dekoder sygnału audio, sposób i program komputerowy
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
JP6186503B2 (ja) * 2013-10-03 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション アップミキサーにおける適応的な拡散性信号生成
EP3092640B1 (en) * 2014-01-07 2018-06-27 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
RU2679254C1 (ru) * 2015-02-26 2019-02-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для обработки аудиосигнала для получения обработанного аудиосигнала с использованием целевой огибающей во временной области
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
US20190051286A1 (en) 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications

Also Published As

Publication number Publication date
EP3602555B1 (en) 2022-10-12
JP2020512591A (ja) 2020-04-23
KR20190134708A (ko) 2019-12-04
CN110914902A (zh) 2020-03-24
US11170794B2 (en) 2021-11-09
PL3602555T3 (pl) 2023-05-08
EP3382702A1 (en) 2018-10-03
CA3058353A1 (en) 2018-10-04
MX2019011522A (es) 2019-12-19
CN110914902B (zh) 2023-10-03
US20200020346A1 (en) 2020-01-16
EP3602553A1 (en) 2020-02-05
JP7059301B2 (ja) 2022-04-25
AU2018246837B2 (en) 2020-12-24
JP2020512594A (ja) 2020-04-23
RU2719543C1 (ru) 2020-04-21
AU2018246838A1 (en) 2019-10-24
BR112019020357A2 (pt) 2020-04-28
JP2020512593A (ja) 2020-04-23
EP3602553B1 (en) 2022-04-27
KR102563915B1 (ko) 2023-08-04
JP2022097514A (ja) 2022-06-30
CA3057897C (en) 2022-05-17
CA3058353C (en) 2023-03-07
RU2733278C1 (ru) 2020-10-01
EP3602555A1 (en) 2020-02-05
MX2019011519A (es) 2019-12-19
KR20190134709A (ko) 2019-12-04
RU2733533C1 (ru) 2020-10-05
CN110870007A (zh) 2020-03-06
ES2933500T3 (es) 2023-02-09
JP6968191B2 (ja) 2021-11-17
AU2018246837A1 (en) 2019-10-17
KR102517285B1 (ko) 2023-04-03
WO2018177610A1 (en) 2018-10-04
JP7455890B2 (ja) 2024-03-26
MX2019011515A (es) 2019-12-19
AU2021203677A1 (en) 2021-07-01
EP3602552B1 (en) 2022-07-20
CN110870007B (zh) 2023-10-13
EP3602552A1 (en) 2020-02-05
CN110832582B (zh) 2023-10-24
WO2018177612A1 (en) 2018-10-04
CA3057897A1 (en) 2018-10-04
AU2021203677B2 (en) 2022-10-13
EP3602553B8 (en) 2022-11-02
KR102426636B1 (ko) 2022-07-29
ES2927808T3 (es) 2022-11-11
CA3057739A1 (en) 2018-10-04
KR20190134707A (ko) 2019-12-04
ES2923098T3 (es) 2022-09-23
US20200027474A1 (en) 2020-01-23
AU2018241963A1 (en) 2019-10-24
BR112019020578A2 (pt) 2020-05-19
PL3602552T3 (pl) 2022-11-21
US20200020347A1 (en) 2020-01-16
PL3602553T3 (pl) 2022-08-22
CN110832582A (zh) 2020-02-21
EP3382704A1 (en) 2018-10-03
WO2018177611A1 (en) 2018-10-04
JP6896881B2 (ja) 2021-06-30
EP3382703A1 (en) 2018-10-03
EP3602555B8 (en) 2023-06-14
AU2018241963B2 (en) 2021-08-12

Similar Documents

Publication Publication Date Title
BR112019020523A2 (pt) aparelho e método para determinar uma característica predeterminada relacionada a um processamento de aprimoramento espectral de um sinal de áudio e mídia de armazenamento não transitória

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]